Автор работы: Пользователь скрыл имя, 10 Мая 2014 в 22:19, курс лекций
Статистическое наблюдение – это первый этап любого статистического исследования и заключается в сборе данных о массовых явлениях путем регистрации их признаков (источник первичной информации). По документам отчетности можно провести и единовременные выборочные обследования (см. выборочные и генеральные совокупности).
На втором этапе статистического исследования на основе первичной информации выступает сводка – большей частью неформализованная, содержательная процедура обработки первичных материалов наблюдений с целью получения итоговых или упорядоченных числовых характеристик изучаемой статистической совокупности. Ее важным моментом является группировка.
Тема 1. Сводка и группировка статистической информации. Вариационные ряды
Сводка и группировка статистической информации
Статистическое наблюдение – это первый этап любого статистического исследования и заключается в сборе данных о массовых явлениях путем регистрации их признаков (источник первичной информации). По документам отчетности можно провести и единовременные выборочные обследования (см. выборочные и генеральные совокупности).
На втором этапе статистического исследования на основе первичной информации выступает сводка – большей частью неформализованная, содержательная процедура обработки первичных материалов наблюдений с целью получения итоговых или упорядоченных числовых характеристик изучаемой статистической совокупности. Ее важным моментом является группировка.
Группировка – это объединение статистических данных в однородные по определенным признакам группы. Она помогает изучить структуру статистической совокупности и некоторые элементы взаимосвязи меду явлениями.
Распределение единиц совокупности по количественному признаку называется вариационным рядом (ВР). Они могут быть построены по дискретным или непрерывным признакам. Отсюда и название – дискретные ВР (задача1) и интервальные ВР (задача 2). При этом интервальные ВР могут быть как с интервалами (шагами) одинаковой величины, так и с шагами неодинакового размера. Таки образом, в достаточной степени формализованный аппарат ВР является средством группировки на уровне дискретных или непрерывных признаков.
Построение дискретных вариационных рядов
Задача №1. Источник статистической информации – ведомственная статистика, - отдел кадров одного из предприятий города предоставил исследователю следующие данные о тарифных разрядах (ТР) 50-ти рабочих одного из цехов завода (тот же результат можно получить и в результате собственных наблюдений, путем опроса, например). Обозначим полученную (или созданную нами) исходную статистическую совокупность, которую назовем Y = {yj}, j=1,N, где N = │Y│= 50 – т.е. всего 50 штук разрядов. В данном случае для нас не представляет интерес другие свойства рабочих (их образование, возраст, семейное положение, реальный уровень квалификации, степень социальной активности, состояние здоровья, интересы и др.) – только их разряды. То есть статсовокупность построена нами лишь по одному количественному признаку с именем признака «разряд» и представлена в произвольном виде в табл. 1.
Исходная статистическая совокупность
по дискретному признаку (разрядам рабочих одного цеха)
3 5 6 3 2 4 3 5 5 6
4 3 2 3 4 5 4 2 4 6
5 3 4 5 4 3 3 6 2 3
4 6 3 4 4 5 4 5 3 4
2 6 3 4 5 3 4 4 5 4
Чтобы показать распределение рабочих по ТР, построим ВР (дискретный, коли исходные данные носят здесь дискретный характер), то есть новую, более компактную статсовокупность с новым именем X = {xi}, i=1,n (n < N). Иными словами, мы хотим отобразить известное нам множество Y на более компактное и неизвестное нам пока множество с именем Х, что принято записывать следующим образом:
τ : Y → Х.
Для этого необходимо и достаточно сделать следующее.
1) Найти максимальное
и минимальное значение среди
элементов исходной
2) Упорядочить разряды по возрастанию или убыванию (операция упорядочения или рандомизации, что и сделано в предыдущем шаге) и принять их в качестве элементов будущего, создаваемого нами более компактного по отношению к исходной информации множества с именем Х. Вот эти разряды и будем именовать «вариантами» создаваемого нами вариационного ряда (см. табл. 2).
3) Сосчитать, сколько элементов
исходной СС принадлежит тому
или иному варианту ВР (разряду)
по следующему алгоритму. Продвигаясь
по табл. 1 по строкам или столбцам
(как кому покажется удобнее) при
прохождении каждого очередного разряда
делаем отметку в виде «слежа» (косой черточки)
до тех пор, пока не достигнем конца табл.
1 (сумма всех косых черточек в сумме в
табл. 2 должно быть равна 50-ти; это понятно).
После этого подсчитаем, сколько раз тот
или иной вариант (разряд) зафиксирован
нами как случайное событие и запишем
информацию в количественной шкале (графа
fi) в виде цифры. Это и будет частота
появления варианта в новом множестве
с именем Х: отображение вида (1) нами построено.
Заодно подсчитаем и накопленные частоты
qi путем прибавления следующей частоты
к предыдущей. Табл. 2 как выражение дискретного
вариационного ряда заполнена.
Дискретный вариационный ряд. Результаты отображения вида (1)
Счетчик интервалов |
Имя и значения вариантов |
Частота появления разряда в табл. 1 |
Значения чстоты |
Значения накопленной частоты |
I |
xi. |
счет |
fi |
qi |
1 2 3 4 5 = n |
x1 = 2 р. x2 = 3 р. x3 = 4 р. x4 = 5 р. x5 = 6 р. |
////// ///////////// //////////////// ////////// ////// |
5 13 16 10 6 |
5 18 34 44 50 |
В итоге дискретный вариационный ряд (табл. 2) из исходной СС (табл. 1) построен. Хотя и по размерам страницы табл. 1 и 2 вполне соизмеримы, табл. 2 – более информативнашению к табл. 1, поскольку она (табл. 2) демонстрирует структуру исходной СС. Мы видим, что средних разрядов (3-х и 4-х) – побольше, самых низких (2-е) и самых высоких (5-е и 6-е) – поменьше, и в чем-то напоминает в графе табл. 2 «счет» гауссовский закон нормального распределения случайной величины
С целью визуализации полученных результатов нашего отображения вида (1) – другими словами, - вариационного ряда, полученного из исходной статистической совокупности, - достаточно поставить в соответствие номера вариантов на оси абцисс и значения частот на оси ординат (получим т.н. «полигон распределения» - ломаная кривая), а также номера вариантов и значения накопленных частот – соответственно (получим т.н. «кумуляту» - плавная кривая, что подробнее рассмотрим на примере интервальных ВР). Однако в построении подобных графиков настоятельной необходимости нет, поскольку распределение разрядов среди 50-ти рабочих как случайной величины и так достаточно наглядно характеризует картинка со «слежами» в графе «счет» табл. 2. Однако попутно обратим внимание на другое, присущее в равной мере как дискретным, так и интервальным ВР – особенность нахождения среднего значения ВР.
Особенности нахождения среднего значения вариационного ряда
На вопрос, каким же будет среднее значение (хср) разряда рабочих на умозрительном уровне, ответить легко: по второй графе табл. 2 – 4-й разряд, поскольку среднее – это когда сумму всех элементов совокупности (здесь – вариантов ВР) делим на их число. Тогда сумма разрядов составит 2+3+4+5+6 = 20. Среднее как частное от деления суммы на число элементов совокупности 20 / n = 20 / 5 = 4 (р.).ет меру этой неодинаковост
Однако это будет справедливым, если каждый разряд в табл. 2 появился бы равное число раз: или все по одному разу, или все по нескольку раз, но с одинаковой частотой. Но частота проявления каждого разряда в исходной СС в нашем первоначальном восприятии уже была неодинаковой, тогда как содержание табл. 2 показывает количественную меру этой неодинаковости: 2-й разряд проявляется в 5 случаях из 50-ти, третий – 13-ти случаях из 50-ти и т.д. В этом случае, чтобы учесть неодинаковую частоту появления каждого варианта, вычисляют т.н. «взвешенную среднюю» хсрв:
∑ хi ∙ fi
хсрв = ———— .
∑ fi
Произведя вычисления по формуле (2), получим:
∑ хi ∙ fi 2∙ 5 + 3∙ 13 + 4∙ 16 + 5∙ 10 + 6∙ 6 199
хсрв = ———— = ——————————————
= ——— = 3,98 (р.).
∑ fi
Хоть и близко значение 3,98 к 4,00, но все же они разные по своей сути. А вот если бы частота для всех вариантов (разрядов) была бы одинаковой 10; всего вариантов n=5, на каждый вариант по 10, в сумме 50; все сходится). Умножим числитель и знаменатель выражения (2) на единицу и внесем ее как постоянную величину в знак сумм. Тогда одинаковость частот можно так:
fi = f1 = f2 = f3 = f4 = f5 = fconst = f = 10,
а выражение (2) с преобразованиями примет вид (постоянное значение частоты выносим за знак сумм числителя и знаменателя):
∑ 1∙ хi ∙ f f ∑ 1∙ хi 1∙ ∑ хi 1
хсрв = ———— = ———— = —— =
— ∑ хi = xср.
∑ 1∙f f ∑ 1 N N
То есть сумма единиц в знаменателе от 1 до N и есть (1+1+1+ …… +1) = N единиц. Остальное соответственно в числителе и знаменателе выражения (4) сокращается.
Таким образом при одинаковой частоте появления вариантов среднее взвешенное хсрв сводится к простой механической средней xср.
Или, другими словами, механическое среднее представляет собой средневзвешенную величину в случае, когда частота появления вариантов ВР одинакова. То есть среднее механическое – это в общем случае частный случай среднего взвешенного.
Построение интервальных вариационных рядов
Задача 2. Источник статистической информации – результаты мониторинга, проведенного самим исследователем состояния основных фондов (капитала) в млн. руб. выбранных для исследования малых предприятий (МП) города в рамках выполнения хоздоговорного заказа со стороны Совета министров РТ. В результате наблюдений составлена таблица исходных статистических данных в виде однородной совокупности, приведенной в табл. 3.
Исходная статистическая совокупность по непрерывному
признаку (размер ОФ выбранных для исследования МП города)
9.4 8.0 6.3 10.0 15.0 8.2 7.3 9.2 5.8 8.7
5.2 13.2 8.1 7.5 11.8 14.6 8.5 7.8 10.5 6.0
5.1 6.8 8.3 7.7 7.9 9.0 10.1 8.0 12.0 14.0
8.2 9.8 13.5 12.4 5.5 7.9 9.2 10.8 12.1 12.4
12.9 12.6 6.7 9.7 8.3 10.8 15.0 7.0 13.0 9.5
Здесь, как и в предыдущей задаче, мы хотим отобразить исходное множество Y в более компактное множество Х – произвести ту же операцию вида (1). Для этого необходимо сделать кое-что из того, что было раньше – еще с дискретными СС, - но и кое-что еще доплнительно. Оно и понятно: там, в случае формирования СС по дискретному признаку, имеем дело с четко фиксированными значениями. Они, эти значения, могут повторяться, но их градация известна: в задаче №1 – исходных значений целых 50, а вся информация «зашифрована» всего-лишь пятью значениями в виде разрядов 2, 3 4 5 и 6-го. Потом подсчитали, как часто эти разряды себя проявили в общей совокупности - и все. Дискретный вариационный ряд построен. Структура исходной статистической совокупности выявлена: средних разрядов (3,4) больше, слишком малых и слишком больших (2, 5 и 6) – меньше. Это с одной стороны. С другой стороны, сама последовательность построения ВР как наследует все свои этапы, так и предусматривает новые, дополнительные.