Автор работы: Пользователь скрыл имя, 09 Ноября 2012 в 18:47, курсовая работа
Цель курсового проекта – изучить некоторые статистические методы: анализ вариационных рядов.
Исследование вариации в статистике и социально-экономических исследованиях имеет важное значение, так как величина вариации признака в статистической совокупности характеризует ее однородность.
Введение 3
1. Вариационные ряды 4
1.1. Построение и графическое изображение вариационных рядов 5
1.2. Основные показатели среднего уровня вариационного ряда 9
1.3. Показатели вариации и способы их расчета 13
2. Анализ вариационных рядов 16
Заключение 21
Список используемой литературы 22
Поскольку средняя арифметическая
вычисляется как отношение
Важнейшей характеристикой центра распределения, кроме средней арифметической, является мода. Мода – это значение признака, которое чаще всего встречается в вариационном ряду. Во многих случаях эта величина наиболее характерна для ряда распределения и вокруг нее концентрируется большая часть вариантов. При изменении распределения в его концах мода не меняется, т.е. она обладает определенной устойчивостью к вариации признака. Поэтому моду наиболее удобно применять при изучении рядов с неопределенными границами.
Для дискретного ряда мода находится непосредственно по определению. Для интервального ряда с равными интервалами:
где xМо - нижняя граница модального интервала;
iМо - величина модального интервала;
fМо - частота модального интервала;
fМо-1 - частота интервала, предшествующего модальному;
fМо+1 - частота интервала, следующего за модальным.
Графически моду определяют по гистограмме распределения. Для этого выбирают самый высокий прямоугольник, который и является модальным, далее верхнюю правую вершину модального прямоугольника соединяют с верхней правой вершиной предшествующего прямоугольника, а верхнюю левую вершину модального прямоугольника с верхней левой вершиной последующего прямоугольника. Абсцисса точки пересечения этих отрезков и будет модой распределения.
В статистическом анализе часто применяют структурные, или порядковые, средние, например медиану. В отличие от средней арифметической, на которую оказывают влияние все значения хi, структурные средние совершенно не зависят от крайних значений признака. Медианой называют такое значение признака, которое приходится на середину ранжированного ряда. Таким образом, в ранжированном ряду распределения одна половина ряда имеет значения признака, превышающие медиану, другая – меньше медианы. Для дискретного ряда медиана находится непосредственно по определению на основе накопленных частот. В случае интервального вариационного ряда медиану определяют по следующей формуле:
где xМе - нижняя граница медианного интервала;
i - величина интервала;
S-1 - накопленная частота интервала, которая предшествует медианному;
fМе - частота медианного интервала.
Из определения медианы следует, что она не зависит от тех значений признака, которые расположены по обе стороны от нее. В связи с этим медиана является лучшей характеристикой центральной тенденции в тех случаях, когда концы распределений расплывчаты (например, границы крайних интервалов открыты) или в ряду распределения имеются чрезмерно большие или малые значения.
В интервальном ряду медиану можно определить графически. Медиана рассчитывается по кумуляте. Для этого из точки на шкале накопленных частот, соответствующей , проводится прямая, параллельная оси абсцисс, до пересечения с кумулятой. Затем из точки пересечения указанной прямой с кумулятой опускается перпендикуляр на ось абсцисс. Абсцисса точки пересечения и является медианой.
В практическом анализе оценка рассеяния значений признака может оказаться не менее важной, чем определение средней. Самая грубая оценка рассеяния, легко определяемая по данным вариационного ряда, может быть дана с помощью размаха вариации:
R = xmax - xmin,
где xmax и xmin – наибольшее и наименьшее значение варьирующего признака.
Этот показатель представляет интерес в тех случаях, когда важно знать, какова амплитуда колебаний значений признака, например, каковы колебания цены на данный товар в течение недели или разным регионам в данный отрезок времени.
Однако этот показатель не дает представления о характере вариационного ряда, расположении вариантов вокруг средней и может сильно меняться, если добавить или исключить крайние варианты (когда эти значения аномальны для данной совокупности).
Для оценки колеблемости значений признака относительно средней используются характеристики рассеяния. Они различаются выбранной формой средней и способами оценки отклонений от нее отдельных вариантов. К таким показателям относятся: среднее линейное отклонение, дисперсия, среднее квадратическое отклонение.
Среднее линейное отклонение есть средняя арифметическая из абсолютных значений отклонений отдельных вариантов от их средней величины:
,
,
где хi – значение признака или середина интервала в интервальном ряду;
fi – частота признака.
Среднее линейное отклонение выражено в тех же единицах измерения, что и варианты или их средняя. Оно дает абсолютную меру вариации.
Чтобы избежать равенства нулю суммы отклонений от средней, используют либо абсолютные значения отклонений, либо их четные степени, например квадраты. В последнем случае мера вариации называется дисперсией и обозначается D или :
,
.
Однако вследствие суммирования квадратов отклонений дисперсия дает искаженное представление об отклонениях, измеряя их в квадратных единицах. Поэтому на основе дисперсии вводятся еще две характеристики: среднее квадратическое отклонение и коэффициент вариации.
Среднее квадратическое отклонение измеряется в тех же единицах, что и варьирующий признак, и исчисляется путем извлечения квадратного корня из дисперсии:
,
.
Среднее квадратическое
отклонение, как и среднее линейное
отклонение, показывает, на сколько
в среднем откланяются
Для оценки меры
вариации и ее значимости
либо ( ).
Так как коэффициенты вариации дают относительную характеристику однородности явлений и процессов, они позволяют сравнивать степень вариации разных признаков.
Первичные статистические
данные часто представлены неупорядоченной
последовательностью чисел, характеризующих
ту или иную сторону процесса. В
этой совокупности чисел бывает трудно
разобраться и первичная
После этого можно начать обработку статистических данных.
Построим интервальный ряд распределения на основе статистических данных указанных в таблице 2 в приложении.
Размах вариации стажа равен:
R = xmax - xmin = 19-1 = 18 лет
Для определения оптимального числа групп и длину интервала используем формулы Стерджесса :
n = 1 + 3,322*lgN = 1+3,322*lg30 = 5,88 6 (количество интервалов);
= года (длина интервала).
Таким образом, с помощью полученных данных разобьем стаж рабочих на интервалы и занесем в таблицу (табл.3). Посчитаем число рабочих в каждом интервале (граф.1).
Группировка работников промышленного предприятия по стажу:
Таблица 3
Стаж рабочих, х |
Число рабочих, f |
Кумулятивная частота, s |
Середин. интервал, хi |
хi*fi |
|
|
|
A |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
1 - 4 |
5 |
5 |
2,5 |
12,5 |
5,8 |
29 |
168,2 |
4 - 7 |
9 |
14 |
5,5 |
49,5 |
2,8 |
25,2 |
70,56 |
7 - 10 |
6 |
20 |
8,5 |
51 |
0,2 |
1,2 |
0,24 |
10 - 13 |
6 |
26 |
11,5 |
69 |
3,2 |
19,2 |
61,44 |
13 - 16 |
1 |
27 |
14,5 |
14,5 |
6,2 |
6,2 |
38,44 |
16 - 19 |
3 |
30 |
17,5 |
52,5 |
9,2 |
27,6 |
253,92 |
Итого: |
30 |
- |
- |
249 |
27,4 |
108,4 |
592,8 |
Для графического изображения вариационного ряда в виде гистограммы и кумуляты необходимо дополнить таблицу 3 несколькими графами (2, 3), в которых покажем такие элементы вариационного ряда, как кумулятивная частота и середина интервала.
Кумулятивная частота для данного варианта получается суммированием частот всех предшествующих интервалов, включая данный. В нашем примере кумулятивные частоты будут такими:
5,
14 =5+9,
20 =14+6,
26 =20+6,
27 =26+1,
30 =27+3.
Середину интервала
для интервального ряда находим
как полусумму нижнего и
2,5=(1+4)/2;
5,5=(4+7)/2;
8,5=(7+10)/2;
11,5=(10+13)/2;
14,5=(13+16)/2;
17,5=(16+19)/2.
Таким образом, опираясь
на полученные данные можно решить
второй пункт поставленных мною задач,
т.е. построить гистограмму и
Для решения третьего пункта задач, вычислим такие характеристики центра распределения как средняя арифметическая и мода.
Для построенного интервального ряда расчет средней арифметической должен быть выполнен по формуле средней арифметической взвешенной. Для того, чтобы формула средней арифметической не была слишком громоздкой, дополним табл.3 графой 4, где рассчитаем . А затем полученный результат подставим в формулу:
= года.
Таким образом, средний стаж рабочих на промышленном предприятии составляет 8,3 года.
Для интервального вариационного ряда модальный интервал, т. е. интервал, содержащий моду, определяется по наибольшей частоте в случае равных интервалов. В нашем варианте, это самое большее количество(девять человек) работает в интервале с 4 до 7 лет стажа работы. Для нашего интервального ряда распределения мода рассчитывается по следующей формуле:
лет
Из этого следует, что на этом промышленном предприятии наибольшее количество рабочих имеют стаж работы 7,5 лет.
Чтобы перейти к четвертому пункту поставленных задач, необходимо добавить в табл.3 несколько дополнительных граф 5-7(для удобства подставления в формулы). Это такие значения как , .
Для вычисления среднего
линейного отклонения используется
средний модель отклонений. Так как
он не зависит от случайных колебаний
и учитывает всю сумму