Автор работы: Пользователь скрыл имя, 23 Сентября 2013 в 20:11, контрольная работа
Цель: Построить интервальные ряды распределения настрига и длины волоса шерсти, отобразить их графически в виде гистограмм, полигонов и кумулят. Для этого использовать надстройку Анализ данных, Мастер функций и Мастер диаграмм.
Содержание: Вариационным рядом или рядом распределения называют упорядоченное распределение единиц совокупности по возрастающим (чаще) или по убывающим (реже) значениям признака и подсчет числа единиц с тем или иным значением признака.
1. Исходные данные
2. Вариационные ряды распределения. Графическое представление данных.
3. Статистические оценки параметров распределения
Точечные оценки
4. Интервальные оценки. Доверительные интервалы. Ошибки выборочной средней
5. Статистические гипотезы
6. Дисперсионный анализ
7. Корреляционный анализ
8.Описательная статистика
где wост - остаточная вариация.
Однофакторный дисперсионный анализ
Вывод: Данные таблицы показывают, что фактическое отношение дисперсий больше табличного, следовательно, разница в среднем настриге шерсти по группам овец с различной длиной волоса шерсти достоверна при уровне значимости 0,05. Длина волоса шерсти овец оказывает влияние на их настриг шерсти. Другими словами, предположение о том, что длина волоса не влияет на вариацию настрига не имеет места.
Работа №6 Корреляционный анализ. Регрессия. Уравнение линии регрессии.
Цель:С помощью корреляционного анализа определить влияние длины волоса шерсти на настриг шерсти. Для этого построить линейное уравнение регрессии, рассчитать коэффициент корреляции и оценить его достоверность с помощью t-критерия Стьюдента и F-критерия Фишера.
Содержание: При парной корреляции устанавливают зависимость между двумя признаками, один из которых является факторным, другой - результативным. Связь между ними может иметь различный характер. Поэтому важно правильно установить форму связи между признаками и в соответствии с этим подобрать математическое уравнение, выражающее эту связь.
После того, как определен вид уравнения связи, необходимо найти числовые значения его параметров. При вычислении параметров применяют различные методы: метод наименьших квадратов, метод средних, метод наименьшего предельного уклонения и др. Наиболее распространенным является метод наименьших квадратов. При его использовании находят такие значения параметров уравнения регрессии, при которых сумма квадратов отклонений фактических данных от расчетных является минимальной:
,
где y – фактическое значение результативного признака;
- расчетное значение результативного признака.
Для этого решают систему нормальных уравнений, которые строятся следующим образом. Исходное уравнение перемножают сначала на коэффициент при первом неизвестном и полученные данные суммируют. Затем исходное уравнение перемножают на коэффициент при втором неизвестном, полученные данные также суммируют и т. д.
Рассмотрим, как получается система нормальных уравнений для уравнения линейной регрессии .
В данном уравнении коэффициент при первом неизвестном а0 равен 1. Следовательно, исходное уравнение после перемножения сохраняет прежний вид:
,
а после суммирования
.
Коэффициент при втором неизвестном a1 равен x. Умножая на него все члены исходного уравнения, получим:
,
а после суммирования
.
Значения , , и рассчитывают по данным наблюдения, а неизвестные параметры a0 и a1 - путем решения системы уравнений:
Правила получения системы нормальных уравнений распространяются на все виды уравнений регрессии. После того, как определены параметры уравнения регрессии, необходимо его оценить, то есть проверить, насколько оно соответствует изучаемой совокупности и как тесно связан результативный признак с фактором, обусловливающим его уровень. Для этого сравнивают вариацию значений результативного признака, рассчитанных по уравнению регрессии, то есть зависящих от факторного признака, с вариацией фактических (исходных) значений результативного признака. Чем ближе первая вариация будет ко второй, тем в большей степени уравнение регрессии отражает связь между признаками, тем теснее они связаны.
Показатель,
характеризующий отношение
,
где I – индекс корреляции;
- общая дисперсия результативного признака (средний квадрат отклонений фактических значений у от средней );
- факторная дисперсия результативного признака, рассчитанного по уравнению регрессии (средний квадрат отклонений расчетных значений от средней );
n – численность совокупности.
Индекс корреляции изменяется в пределах от 0 до 1. Он показывает, что чем ближе его значение к 1, тем сильнее связь между признаками, и тем лучше уравнение регрессии описывает взаимосвязь между признаками. При индексе корреляции равном 1 взаимосвязь между признаками является функциональной. Если же индекс корреляции равен 0, то связь между признаками отсутствует.
Поскольку факторная дисперсия показывает вариацию результативного признака, зависящую от факторного признака, то можно рассчитать остаточную дисперсию, показывающую вариацию других неучтенных факторов. Она равна разнице между общей и факторной дисперсиями:
,
где - остаточная дисперсия.
Остаточная дисперсия показывает вариацию фактических значений результативного признака относительно расчетных значений, то есть колеблемость фактических значений относительно линии регрессии. Чем меньше будет эта колеблемость, тем в большей степени уравнение регрессии отражает связь между признаками.
Формула индекса корреляции, рассчитанного на основе остаточной и общей дисперсий, имеет вид:
.
Для линейной регрессии индекс корреляции называют коэффициентом корреляции. Формула его при парной корреляции после преобразования имеет вид:
,
где r – коэффициент корреляции;
- средние значения факторного и результативного признаков;
- среднее значение произведений факторного и результативного признаков;
- средние квадратические отклонения факторного и результативного признаков.
В отличие от индекса корреляции коэффициент корреляции показывает не только тесноту связи, но и ее направление, поскольку меняется в пределах от −1 до +1. Если коэффициент корреляции положительный, то связь между признаками прямая (прямо пропорциональная), если отрицательный, то связь обратная (обратно пропорциональная).
Квадраты индекса корреляции и коэффициента корреляции называют соответственно индексом детерминации (I2) и коэффициентом детерминации (r2). Индекс детерминации и коэффициент детерминации показывают, какая доля общей вариации результативного признака определяется изучаемым фактором.
Так как надежность изучения связей в значительной степени зависит от количества сопоставляемых данных, необходимо измерять существенность полученного уравнения регрессии и индекса (коэффициента) корреляции. Показатели корреляции, исчисленные для ограниченной по объему совокупности, могут быть искажены действием случайных факторов.
Существенность индекса (коэффициента) корреляции, а, следовательно, всего уравнения регрессии, может быть оценена с помощью дисперсионного анализа (F-критерия Фишера). При этом сравнивают факторную и остаточную дисперсии с учетом числа степеней свободы вариации. F-критерий в данном случае рассчитывают по формуле:
,
где - выборочная факторная дисперсия;
- выборочная остаточная дисперсия;
n – численность выборочной совокупности;
k – число параметров в уравнении регрессии.
Значение F-критерия можно получить также, используя значения индекса или коэффициента корреляции:
; .
Полученное значение F-критерия сравнивают с табличным значением. При этом для факторной дисперсии число степеней свободы вариации составляет , а для остаточной дисперсии Если фактическое значение F-критерия больше табличного, следовательно, связь между признаками достоверна и уравнение регрессии в полной мере отражает эту связь. Если фактическое значение F-критерия меньше табличного, то можно сделать вывод, что связь между признаками носит случайный характер.
Для оценки значимости индекса (коэффициента) корреляции и уравнения регрессии также используют t-критерий Стьюдента, который для больших выборок рассчитывают по формулам:
Для малых выборок формулы имеют вид:
Также, как при дисперсионном анализе, фактическое значение t-критерия сравнивают с табличным с учетом числа степеней свободы вариации n = n - k. Если фактическое значение t-критерия больше табличного, то связь достоверна, если меньше, то связь несущественна.
R (или r) – коэффициент корреляции. Устанавливает, есть ли связь между признаками, и насколько она тесная.
-1£R£1
Если же модуль коэффициента корреляции ~1,то связь близка к линейной.
ВЫВОД ИТОГОВ.
Регрессионная статистика | |||||||
Множественный R |
0,968955291 | ||||||
R-квадрат |
0,938874356 | ||||||
Нормированный R-квадрат |
0,936095917 | ||||||
Стандартная ошибка |
0,094193842 | ||||||
Наблюдения |
24 | ||||||
Дисперсионный анализ |
|||||||
df |
SS |
MS |
F |
Значимость F | |||
Регрессия |
1 |
2,998139 |
2,998139 |
337,9144 |
7,7051E-15 | ||
Остаток |
22 |
0,195195 |
0,008872 |
||||
Итого |
23 |
3,193333 |
Коэффициенты |
Стандартная ошибка |
t-статистика | |
Y-пересечение |
2,569016432 |
0,118403132 |
21,69720003 |
11,9 |
0,114287374 |
0,006217201 |
18,38244835 |
P-Значение |
Нижние 95% |
Верхние 95% |
Нижние 95,0% |
Верхние 95,0% |
2,41239E-16 |
2,323463367 |
2,814569496 |
2,323463367 |
2,814569496 |
7,7051E-15 |
0,101393689 |
0,127181059 |
0,101393689 |
0,127181059 |
Вывод: связь между признаками тесная и близка к линейной.
R2 (коэффициент детерминации) =0,92=92%.
Работа №7 Описательная статистика
Цель:
Рассчитайте основные статистические показатели, характеризующие выборочные показатели.
Содержание: Для расчета основных статистических показателей, характеризующих выборочную совокупность, в табличном процессоре Microsoft Excel используется инструмент Описательная статистика надстройки Анализ данных. Данный инструмент позволяет рассчитать следующие показатели, характеристика которых приведена в предыдущих темах:средняя арифметическая простая (тема 2);средняя ошибка выборки (тема 4);медиана (тема 2);мода (тема 2);выборочное среднее квадратическое отклонение (тема 4);выборочная дисперсия с учетом поправки (тема 4);эксцесс (тема 3);асимметрия (тема 3);размах вариации (тема 3);предельная ошибка выборки (тема 4).
настриг шерсти |
|
Среднее |
4,688 |
Стандартная ошибка |
0,078384 |
Медиана |
4,8 |
Мода |
4,8 |
Стандартное отклонение |
0,391918 |
Дисперсия выборки |
0,1536 |
Эксцесс |
-1,05861 |
Асимметричность |
-0,14163 |
Интервал |
1,4 |
Минимум |
4 |
Максимум |
5,4 |
Сумма |
117,2 |
Счет |
25 |
Уровень надежности(95,0%) |
0,161776 |
длина волоса |
|
Среднее |
18,516 |
Стандартная ошибка |
0,677168 |
Медиана |
18,3 |
Мода |
22,2 |
Стандартное отклонение |
3,385838 |
Дисперсия выборки |
11,4639 |
Эксцесс |
-0,55234 |
Асимметричность |
-0,30499 |
Интервал |
12,5 |
Минимум |
11,9 |
Максимум |
24,4 |
Сумма |
462,9 |
Счет |
25 |
Уровень надежности(95,0%) |
1,397605 |