Автор работы: Пользователь скрыл имя, 19 Марта 2014 в 11:33, контрольная работа
Решение.
1. Изучение взаимосвязи между переменными начинается с выдвижения гипотезы о наличии и направлении связи. В нашем примере можно предположить, что объем потребления положительно связан с располагаемым доходом (т.е. с увеличением дохода расходы также увеличиваются).
Задача
Для анализа зависимости объема потребления Y (у.е.) домохозяйства от располагаемого дохода Х (у.е.) отобрана выборка объема n=12 (помесячно в течение года), результаты которой приведены в таблице:
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 | |
x |
105 |
109 |
110 |
113 |
120 |
122 |
123 |
129 |
136 |
140 |
145 |
150 |
y |
102 |
105 |
109 |
110 |
118 |
115 |
119 |
125 |
132 |
130 |
141 |
150 |
Требуется:
1) Сформулировать гипотезу о направлении связи.
2) Проверить свое предположение, построив поле корреляции.
3) Оценить тесноту связи с помощью показателя ковариации и коэффициента корреляции.
4) Рассчитать параметры уравнения линейной регрессии y на x .
5) Оценить общее качество полученного уравнения.
6) Проверить значимость уравнения в целом, используя F- статистику.
7) Проверить значимость коэффициентов уравнения (t – статистики).
8) Проверить гипотезу об отсутствии автокорреляции.
9) Оформить вывод по построенной модели.
10) Спрогнозировать значение объема потребления, если прогнозное значение располагаемого дохода составит 120% от его средней величины. Рассчитать 95%-й доверительный интервал для данного предсказания.
Решение.
1. Изучение взаимосвязи между переменными начинается с выдвижения гипотезы о наличии и направлении связи. В нашем примере можно предположить, что объем потребления положительно связан с располагаемым доходом (т.е. с увеличением дохода расходы также увеличиваются).
Проверим наше предположение.
Заметим вначале, что объем выборки n = 12. Представим ряды значений графически. Из рисунка видно, что точки ( xi ; yi ) сосредоточены в области, очерченной вытянутым эллипсом, поэтому можно предположить наличие сильной положительной линейной связи между показателями. Т.о. анализ графика подтвердил нашу гипотезу.
3. Для определения направления и тесноты взаимосвязи с помощью статистических методов рассчитаем показатель ковариации и коэффициент линейной корреляции. Для сокращения расчетов будем постепенно формировать таблицу.
i |
xi |
yi |
xi - |
yi - |
(xi - ) (yi - ) |
(xi - )2 |
(yi - )2 |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
1 |
105 |
102 |
-20,17 |
-19,33 |
389,8889 |
406,6944 |
373,7778 |
2 |
109 |
105 |
-16,17 |
-16,33 |
264,0556 |
261,3611 |
266,7778 |
3 |
110 |
109 |
-15,17 |
-12,33 |
187,0556 |
230,0278 |
152,1111 |
4 |
113 |
110 |
-12,17 |
-11,33 |
137,8889 |
148,0278 |
128,4444 |
5 |
120 |
118 |
-5,167 |
-3,333 |
17,2222 |
26,6944 |
11,1111 |
6 |
122 |
115 |
-3,167 |
-6,333 |
20,0556 |
10,0278 |
40,1111 |
7 |
123 |
119 |
-2,167 |
-2,333 |
5,0556 |
4,6944 |
5,4444 |
8 |
129 |
125 |
3,8333 |
3,6667 |
14,0556 |
14,6944 |
13,4444 |
9 |
136 |
132 |
10,833 |
10,667 |
115,5556 |
117,3611 |
113,7778 |
10 |
140 |
130 |
14,833 |
8,6667 |
128,5556 |
220,0278 |
75,1111 |
11 |
145 |
141 |
19,833 |
19,667 |
390,0556 |
393,3611 |
386,7778 |
12 |
150 |
150 |
24,833 |
28,667 |
711,8889 |
616,6944 |
821,7778 |
∑ |
1502 |
1456 |
- |
- |
2381,3333 |
2449,6667 |
2388,6667 |
Вычислим средние арифметические значения обоих признаков:
Найдем отклонения от средних арифметических и и занесем их в 4-й и 5-й столбцы таблицы.
Умножим на и сложим полученные произведения (последняя строка в 6-м столбце).
Возведем отклонения в квадрат и сложим (последняя строка в 7-м и 8-м столбцах).
Тогда показатель ковариации:
cov [x,y] > 0. Это подтверждает гипотезу о наличии положительной связи между показателями.
Найдем средние квадратические отклонения, пользуясь формулой:
Исходя из формулы коэффициенты линейной корреляции, получим:
Полученный коэффициент корреляции близок к +1, это указывает на сильную положительную линейную связь между объемом потребления и располагаемым доходом.
Проверим значимость полученного коэффициента корреляции.
Для этого рассчитаем t – статистику:
Зададим уровень значимости коэффициента корреляции (вероятность ошибки): = 0,01. По формуле находим число степеней свободы: v = 122 = 10.
Из таблицы критических значений распределения Стьюдента следует: tкр (0,01;10) = 3,169.
Т.к. |t| > tкр (17,68 > 3,169), следовательно, мы можем отвергнуть нулевую гипотезу о равенстве теоретического коэффициента корреляции нулю, и, как следствие, гипотезу об отсутствии связи между показателями. Т.е. связь между показателями, выраженная коэффициентом корреляции, статистически значима с вероятностью 0,99 (риск ошибки 0,01 или 1%).
Итогом проведённых расчётов может стать вывод о том, что объем потребления действительно линейно положительно связан с величиной располагаемого дохода, и связь эта является статистически значимой. Т.о., проверяемая нами гипотеза получила свое подтверждение на выбранном массиве данных.
4. Т.к. объем потребления действительно линейно положительно связан с величиной располагаемого дохода, то можно построить уравнение линейной регрессии.
Для составления уравнения регрессии находим коэффициенты b и a:
Тогда уравнение регрессии принимает вид:
Проинтерпретируем построенное уравнение регрессии.
В нашем примере коэффициент регрессии b = 0,9721 показывает, на какую величину изменится объем потребления, если располагаемый доход возрастёт на одну единицу.
Свободный член уравнения a = -0,3445 определяет прогнозируемое значение объема потребления при величине располагаемого дохода, равному нулю.
5. Анализ общего качества.
Самым простым способом оценить качество полученного уравнения является графический способ: Строим линию регрессии на корреляционном поле. Для этого берем любые две точки значения признака X, удобные для вычислений:
По данным точкам проводим линию регрессии.
Анализ графика показывает, что уравнение достаточно точно описывает исследуемую зависимость, т.е. разброс точек, представляющих исходные данные, вокруг линии регрессии невелик.
Для анализа общего качества оценённой зависимости на количественном уровне используют коэффициент детерминации R2 (который в случае парной регрессии равен коэффициенту линейной корреляции).
Формула коэффициента детерминации с поправкой на число степеней свободы имеет вид:
Для расчета коэффициента детерминации сначала необходимо найти ошибку регрессии ei для каждого года исследуемого периода: ei = yi – ŷi, где ŷi – теоретические значения зависимой переменной y, которые рассчитываются по уравнению регрессии:
Продолжим формировать таблицу:
i |
xi |
yi |
ŷi |
ei |
|
1 |
2 |
3 |
9 |
10 |
11 |
1 |
105 |
102 |
101,7260 |
0,2740 |
0,075076 |
2 |
109 |
105 |
105,6144 |
-0,6144 |
0,377487 |
3 |
110 |
109 |
106,5865 |
2,4135 |
5,824982 |
4 |
113 |
110 |
109,5028 |
0,4972 |
0,247208 |
5 |
120 |
118 |
116,3075 |
1,6925 |
2,864556 |
6 |
122 |
115 |
118,2517 |
-3,2517 |
10,57355 |
7 |
123 |
119 |
119,2238 |
-0,2238 |
0,050086 |
8 |
129 |
125 |
125,0564 |
-0,0564 |
0,003181 |
9 |
136 |
132 |
131,8611 |
0,1389 |
0,019293 |
10 |
140 |
130 |
135,7495 |
-5,7495 |
33,05675 |
11 |
145 |
141 |
140,6100 |
0,3900 |
0,1521 |
12 |
150 |
150 |
145,4705 |
4,5295 |
20,51637 |
∑ |
1502 |
1456 |
- |
- |
73,76064 |
Среднеквадратическая ошибка:
Выборочная исправленная дисперсия зависимой переменной:
Тогда значение скорректированного коэффициента детерминации:
Замечание. Коэффициент без поправки равен:
Значение рассчитанного коэффициента детерминации близко к 1, это свидетельствует о достаточно высоком качестве построенного уравнения. Около 96% разброса зависимой переменной объясняется с помощью данного уравнения.
6. Оценка значимости уравнения регрессии в целом.
Проверить значимость уравнения регрессии – значит установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включённых в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной.
Оценка значимости уравнения проводится с помощью F- критерия Фишера.
Величина F – критерия связана с коэффициентом детерминации и рассчитывается по формуле:
F – критерий служит для проверки нулевой гипотезы H0 о том, что все коэффициенты регрессии, за исключением свободного члена а, равны нулю и, следовательно, фактор х не оказывает влияния на результат y (R2 = 0) или (b = 0).
Находим табличное критическое значение F-критерия, зададим уровень значимости 0,01: Fкр (1;10) = 10,04.
Т.к. Fнабл =284,12 > Fкрит =10,04, то H0 можно отклонить и сделать вывод о существенности статистической связи между y и x.
7. Проверим значимость коэффициентов уравнения зависимости объема потребления от располагаемого дохода.
Рассчитаем стандартную ошибку коэффициента регрессии b, которая определяется по формуле:
где S2 – остаточная дисперсия на одну степень свободы.
Стандартная ошибка параметра a определяется по формуле:
Далее рассчитаем t – статистики:
Они служат для проверки нулевых гипотез о том, что истинное значение коэффициента регрессии b или свободного члена a равно нулю:
H0 : β = 0 (α = 0).
Альтернативная гипотеза имеет вид: H1 : β ≠ 0 (α ≠ 0).
t – статистики имеют t – распределение Стьюдента с (n-2) степенями свободы. По таблицам распределения Стьюдента при выбранном уровне значимости α = 0,01 и (n-2) = 10 степенях свободы находят критическое значение tкр (0,01;10) = 3,169.
Т.к. |tb| = 17,71 > tкр = 3,169, то нулевая гипотеза должна быть отклонена, коэффициент b является статистически значимым.
Т.к., |ta| = 0,0498 < tкр = 3,169 то нулевая гипотеза не может быть отклонена. Коэффициент а статистически незначим.