Контрольная работа по "Статистике"

Автор работы: Пользователь скрыл имя, 23 Сентября 2013 в 20:11, контрольная работа

Краткое описание

Цель: Построить интервальные ряды распределения настрига и длины волоса шерсти, отобразить их графически в виде гистограмм, полигонов и кумулят. Для этого использовать надстройку Анализ данных, Мастер функций и Мастер диаграмм.
Содержание: Вариационным рядом или рядом распределения называют упорядоченное распределение единиц совокупности по возрастающим (чаще) или по убывающим (реже) значениям признака и подсчет числа единиц с тем или иным значением признака.

Содержание

1. Исходные данные

2. Вариационные ряды распределения. Графическое представление данных.

3. Статистические оценки параметров распределения
Точечные оценки

4. Интервальные оценки. Доверительные интервалы. Ошибки выборочной средней

5. Статистические гипотезы

6. Дисперсионный анализ

7. Корреляционный анализ

8.Описательная статистика

Прикрепленные файлы: 1 файл

Работа.doc

— 510.00 Кб (Скачать документ)

 

 

где wост - остаточная вариация.

 

 

Однофакторный дисперсионный анализ

 

 

 

Вывод: Данные таблицы показывают, что фактическое отношение дисперсий больше табличного, следовательно, разница в среднем настриге шерсти по группам овец с различной длиной волоса шерсти достоверна при уровне значимости 0,05. Длина волоса шерсти овец оказывает влияние на их настриг шерсти. Другими словами, предположение о том, что длина волоса не влияет на вариацию настрига не имеет места.

 

 

 

 

Работа №6 Корреляционный анализ. Регрессия. Уравнение линии регрессии.

 

Цель:С помощью корреляционного анализа определить влияние длины волоса шерсти на настриг шерсти. Для этого построить линейное уравнение регрессии, рассчитать коэффициент корреляции и оценить его достоверность с помощью t-критерия Стьюдента и F-критерия Фишера.

 

Содержание: При парной корреляции устанавливают зависимость между двумя признаками, один из которых является факторным, другой - результативным. Связь между ними может иметь различный характер. Поэтому важно правильно установить форму связи между признаками и в соответствии с этим подобрать математическое уравнение, выражающее эту связь.

После того, как  определен вид уравнения связи, необходимо найти числовые значения его параметров. При вычислении параметров применяют различные методы: метод наименьших квадратов, метод средних, метод наименьшего предельного уклонения и др. Наиболее распространенным является метод наименьших квадратов. При его использовании находят такие значения параметров уравнения регрессии, при которых сумма квадратов отклонений фактических данных от расчетных является минимальной:

,

где y – фактическое значение результативного признака;

      - расчетное значение результативного признака.

Для этого  решают систему нормальных уравнений, которые строятся следующим образом. Исходное уравнение перемножают сначала на коэффициент при первом неизвестном и полученные данные суммируют. Затем исходное уравнение перемножают на коэффициент при втором неизвестном, полученные данные также суммируют и т. д.

Рассмотрим, как получается система нормальных уравнений для уравнения линейной регрессии .

В данном уравнении коэффициент при первом неизвестном а0 равен 1. Следовательно, исходное уравнение после перемножения сохраняет прежний вид:

,

а после суммирования

.

Коэффициент при втором неизвестном a1 равен x. Умножая на него все члены исходного уравнения, получим:

,

а после суммирования

.

Значения  , , и рассчитывают по данным наблюдения, а неизвестные параметры a0 и a1 - путем решения системы уравнений:

Правила получения  системы нормальных уравнений распространяются на все виды уравнений регрессии. После того, как определены параметры  уравнения регрессии, необходимо его оценить, то есть проверить, насколько оно соответствует изучаемой совокупности и как тесно связан результативный признак с фактором, обусловливающим его уровень. Для этого сравнивают вариацию значений результативного признака, рассчитанных по уравнению регрессии, то есть зависящих от факторного признака, с вариацией фактических (исходных) значений результативного признака. Чем ближе первая вариация будет ко второй, тем в большей степени уравнение регрессии отражает связь между признаками, тем теснее они связаны.

Показатель, характеризующий отношение вариаций расчетных и исходных значений результативного признака, называют индексом корреляции. Его рассчитывают по формуле:

,

где I – индекс корреляции;

     - общая дисперсия результативного признака (средний квадрат отклонений фактических значений у от средней );

     - факторная дисперсия результативного признака, рассчитанного по уравнению регрессии (средний квадрат отклонений расчетных значений от средней );

      n – численность совокупности.

Индекс корреляции изменяется в пределах от 0 до 1. Он показывает, что чем ближе его значение к 1, тем сильнее связь между  признаками, и тем лучше уравнение регрессии описывает взаимосвязь между признаками. При индексе корреляции равном 1 взаимосвязь между признаками является функциональной. Если же индекс корреляции равен 0, то связь между признаками отсутствует.

Поскольку факторная дисперсия показывает вариацию результативного признака, зависящую от факторного признака, то можно рассчитать остаточную дисперсию, показывающую вариацию других неучтенных факторов. Она равна разнице между общей и факторной дисперсиями:

,

где - остаточная дисперсия.

Остаточная  дисперсия показывает вариацию фактических  значений результативного признака относительно расчетных значений, то есть колеблемость фактических значений относительно линии регрессии. Чем меньше будет эта колеблемость, тем в большей степени уравнение регрессии отражает связь между признаками.

Формула индекса  корреляции, рассчитанного на основе остаточной и общей дисперсий, имеет вид:

.

Для линейной регрессии индекс корреляции называют коэффициентом корреляции. Формула его при парной корреляции после преобразования имеет вид:

,

где r – коэффициент корреляции;

           - средние значения факторного и результативного признаков;

             - среднее значение произведений факторного и результативного признаков;

          - средние квадратические отклонения факторного и результативного признаков.

В отличие  от индекса корреляции коэффициент  корреляции показывает не только тесноту связи, но и ее направление, поскольку меняется в пределах от −1 до +1. Если коэффициент корреляции положительный, то связь между признаками прямая (прямо пропорциональная), если отрицательный, то связь обратная (обратно пропорциональная).

Квадраты  индекса корреляции и коэффициента корреляции называют соответственно индексом детерминации (I2) и коэффициентом детерминации (r2). Индекс детерминации и коэффициент детерминации показывают, какая доля общей вариации результативного признака определяется изучаемым фактором.

Так как надежность изучения связей в значительной степени зависит от количества сопоставляемых данных, необходимо измерять существенность полученного уравнения регрессии и индекса (коэффициента) корреляции. Показатели корреляции, исчисленные для ограниченной по объему совокупности, могут быть искажены действием случайных факторов.

Существенность  индекса (коэффициента) корреляции, а, следовательно, всего уравнения регрессии, может быть оценена с помощью дисперсионного анализа (F-критерия Фишера). При этом сравнивают факторную и остаточную дисперсии с учетом числа степеней свободы вариации. F-критерий в данном случае рассчитывают по формуле:

,

где - выборочная факторная дисперсия;

- выборочная остаточная дисперсия;

n – численность выборочной совокупности;

k – число параметров в уравнении регрессии.

Значение F-критерия можно получить также, используя значения индекса или коэффициента корреляции:

;  .

Полученное  значение F-критерия сравнивают с табличным значением. При этом для факторной дисперсии число степеней свободы вариации составляет , а для остаточной дисперсии Если фактическое значение F-критерия больше табличного, следовательно, связь между признаками достоверна и уравнение регрессии в полной мере отражает эту связь. Если фактическое значение F-критерия меньше табличного, то можно сделать вывод, что связь между признаками носит случайный характер.

Для оценки значимости индекса (коэффициента) корреляции и уравнения регрессии также используют t-критерий Стьюдента, который для больших выборок рассчитывают по формулам:

 

Для малых  выборок формулы имеют вид:

 

Также, как  при дисперсионном анализе, фактическое  значение t-критерия сравнивают с табличным с учетом числа степеней свободы вариации n = n - k. Если фактическое значение t-критерия больше табличного, то связь достоверна, если меньше, то связь несущественна.

R (или r) – коэффициент корреляции. Устанавливает, есть ли связь между признаками, и насколько она тесная.

-1£R£1

Если же модуль коэффициента корреляции ~1,то связь близка к линейной.

 

 

 

 

 

ВЫВОД ИТОГОВ.

 

Регрессионная статистика

Множественный R

0,968955291

R-квадрат

0,938874356

Нормированный R-квадрат

0,936095917

Стандартная ошибка

0,094193842

Наблюдения

24

Дисперсионный анализ

         
 

df

SS

MS

F

Значимость F

Регрессия

1

2,998139

2,998139

337,9144

7,7051E-15

Остаток

22

0,195195

0,008872

   

Итого

23

3,193333

     

 

 

Коэффициенты

Стандартная ошибка

t-статистика

Y-пересечение

2,569016432

0,118403132

21,69720003

11,9

0,114287374

0,006217201

18,38244835


 

P-Значение

Нижние 95%

Верхние 95%

Нижние 95,0%

Верхние 95,0%

2,41239E-16

2,323463367

2,814569496

2,323463367

2,814569496

7,7051E-15

0,101393689

0,127181059

0,101393689

0,127181059


 

Вывод: связь между признаками тесная и близка к линейной.

R2 (коэффициент детерминации) =0,92=92%.

 

 

Работа №7 Описательная статистика

Цель:

Рассчитайте основные статистические показатели, характеризующие выборочные показатели.

Содержание: Для расчета основных статистических показателей, характеризующих выборочную совокупность, в табличном процессоре Microsoft Excel используется инструмент Описательная статистика надстройки Анализ данных. Данный инструмент позволяет рассчитать следующие показатели, характеристика которых приведена в предыдущих темах:средняя арифметическая простая (тема 2);средняя ошибка выборки (тема 4);медиана (тема 2);мода (тема 2);выборочное среднее квадратическое отклонение (тема 4);выборочная дисперсия с учетом поправки (тема 4);эксцесс (тема 3);асимметрия (тема 3);размах вариации (тема 3);предельная ошибка выборки (тема 4).

 

 

 

 

настриг шерсти

 
   

Среднее

4,688

Стандартная ошибка

0,078384

Медиана

4,8

Мода

4,8

Стандартное отклонение

0,391918

Дисперсия выборки

0,1536

Эксцесс

-1,05861

Асимметричность

-0,14163

Интервал

1,4

Минимум

4

Максимум

5,4

Сумма

117,2

Счет

25

Уровень надежности(95,0%)

0,161776


 

длина волоса

 
   

Среднее

18,516

Стандартная ошибка

0,677168

Медиана

18,3

Мода

22,2

Стандартное отклонение

3,385838

Дисперсия выборки

11,4639

Эксцесс

-0,55234

Асимметричность

-0,30499

Интервал

12,5

Минимум

11,9

Максимум

24,4

Сумма

462,9

Счет

25

Уровень надежности(95,0%)

1,397605

Информация о работе Контрольная работа по "Статистике"