Автор работы: Пользователь скрыл имя, 18 Июня 2013 в 08:07, контрольная работа
Оцінка параметрів простої лінійної моделі методом найменших квадратів
Оцінити параметри простої лінійної регресії, знайти коефіцієнти кореляції та детермінації. Оцінити її адекватність.
Варіант № 8
Зміст
Оцінка параметрів простої лінійної моделі методом найменших квадратів
Оцінити параметри простої лінійної регресії, знайти коефіцієнти кореляції та детермінації. Оцінити її адекватність.
у |
х |
32 |
13 |
32 |
11 |
12 |
15 |
20 |
15 |
22 |
16 |
25 |
16 |
27 |
17 |
32 |
19 |
39 |
20 |
40 |
21 |
Рішення
Лінійне рівняння регресії має вигляд y = bx + a + ε.
Тут ε - випадкова помилка (відхилення). Так як відхилення εi для кожного конкретного спостереження i - випадкові і їх значення у вибірці невідомі, то:
1) за спостереженнями xi i yi можна отримати тільки оцінки параметрів α i β;
2) Оцінками параметрів α i β регресійної моделі є відповідно величини чи b, які носять випадковий характер, тому що відповідають випадковою вибіркою.
Тоді оцінне рівняння регресії (побудоване за вибірковими даними) буде мати вигляд y = bx + a + ε, де ei – спостережувані значення (оцінки) помилок εi, а і b відповідно оцінки параметрів α i β регресійної моделі, які варто знайти.
Для оцінки параметрів α і β - використовують МНК (метод найменших квадратів).
Система нормальних рівнянь:
Для наших даних система рівнянь має вигляд:
З першого рівняння висловлюємо а і підставимо в друге рівняння. Отримуємо b = 1.24, a = 7.9
Рівняння регресії:
y = 1.24 x + 7.9
1. Параметри рівняння регресії.
Вибіркові середні:
Вибіркові дисперсії:
Середньоквадратичне відхилення:
1.1. Коефіцієнт кореляції
Розраховуємо показник тісноти зв'язку. Таким показником є вибіркове лінійний коефіцієнт кореляції, який розраховується за формулою:
Лінійний коефіцієнт кореляції приймає значення від -1 до +1.
Зв'язки між ознаками можуть бути слабкими і сильними (тісними). Їх критерії оцінюються за шкалою Чеддока:
0.1 < rxy < 0.3: слабкий;
0.3 < rxy < 0.5: помірний;
0.5 < rxy < 0.7: помітний;
0.7 < rxy < 0.9: високий;
0.9 < rxy < 1: дуже високий;
У нашому прикладі зв'язок між ознакою Y чинником X помірний i прямий.
1.2. Рівняння регресії (оцінка рівняння регресії).
Лінійне рівняння регресії має вигляд y = 1.24 x + 7.9.
Коефіцієнтам рівняння лінійної регресії можна надати економічний сенс.
Коефіцієнт b = 1.24 показує середня
зміна результативного
Коефіцієнт a = 7.9 формально показує
прогнозований рівень у, але тільки
в тому випадку, якщо х = 0 знаходиться
поряд з вибірковими
Але якщо х = 0 знаходиться далеко від вибіркових значень х, то буквальна інтерпретація може привести до невірних результатів, і навіть якщо лінія регресії досить точно описує значення спостережуваної вибірки, немає гарантій, що також буде при екстраполяції вліво або вправо.
Підставивши в рівняння регресії відповідні значення х, можна визначити вирівняні (передбачені) значення результативного показника y (x) для кожного спостереження.
Зв'язок між у і х визначає знак коефіцієнта регресії b (якщо > 0 - прямий зв'язок, інакше - обернений). У нашому прикладі зв'язок пряма.
1.3. Коефіцієнт еластичності.
Коефіцієнти регресії (у прикладі b) небажано використовувати для безпосередньої оцінки впливу факторів на результативний ознака в тому випадку, якщо існує відмінність одиниць виміру результативного показника в і факторного ознаки х.
Для цих цілей обчислюються коефіцієнти еластичності та бета - коефіцієнти. Коефіцієнт еластичності знаходиться за формулою:
Він показує, на скільки відсотків у середньому змінюється результативна ознака у при зміні факторної ознаки х на 1%. Він не враховує ступінь коливання факторів.
Коефіцієнт еластичності менше 1. Отже, при зміні Х на 1%, Y зміниться менш ніж на 1%. Іншими словами - вплив Х на Y не істотно.
Бета - коефіцієнт показує, на яку частину величини свого середнього квадратичного відхилення зміниться в середньому значення результативної ознаки при зміні факторної ознаки на величину його середньоквадратичного відхилення при фіксованому на постійному рівні значенні інших незалежних змінних:
Тобто збільшення x на величину
середньоквадратичного
1.4. Помилка апроксимації.
Оцінимо якість рівняння регресії за допомогою помилки абсолютної апроксимації.
Оскільки помилка більше 15%, ця рівняння небажано використовувати в якості регресії.
1.5. Індекс кореляції (емпіричне кореляційне відношення).
, де
Sy0 = 678.9 + 546.67 = 1225.57
Отримана величина свідчить про те, що фактор x помірно впливає на y.
Теоретичне кореляційне відношення для лінійного зв'язку одно коефіцієнту кореляції rxy.
Для будь-якої форми залежності тіснота зв'язку визначається за допомогою множинного коефіцієнта кореляції:
Даний коефіцієнт є універсальним, тому що відображає тісноту зв'язку і точність моделі, а також може використовуватися при будь-якій формі зв'язку змінних. При побудові однофакторний кореляційної моделі коефіцієнт множинної кореляції рівний коефіцієнту парної кореляції rxy.
1.6. Коефіцієнт детермінації.
Квадрат множинного коефіцієнта
кореляції називається
Найчастіше, даючи інтерпретацію коефіцієнта детермінації, його виражають у відсотках.
R2= 0.442 = 0.1948
тобто в 19.48 % випадків зміни х призводять до зміни y. Іншими словами - точність підбору рівняння регресії - низька. Решта 80.52 % зміни Y пояснюються чинниками, не врахованими у моделі.
x |
y |
x 2 |
y 2 |
x • y |
y(x) |
(yi-ycp) 2 |
(y-y(x))2 |
(xi-xcp)2 |
|y - yx|:y |
13 |
32 |
169 |
1024 |
416 |
24.01 |
15.21 |
63.83 |
10.89 |
0.2497 |
11 |
32 |
121 |
1024 |
352 |
21.53 |
15.21 |
109.58 |
28.09 |
0.3271 |
15 |
12 |
225 |
144 |
180 |
26.49 |
259.21 |
209.93 |
1.69 |
1.21 |
15 |
20 |
225 |
400 |
300 |
26.49 |
65.61 |
42.11 |
1.69 |
0.3244 |
16 |
22 |
256 |
484 |
352 |
27.73 |
37.21 |
32.81 |
0.09 |
0.2604 |
16 |
25 |
256 |
625 |
400 |
27.73 |
9.61 |
7.44 |
0.09 |
0.1091 |
17 |
27 |
289 |
729 |
459 |
28.97 |
1.21 |
3.87 |
0.49 |
0.0729 |
19 |
32 |
361 |
1024 |
608 |
31.45 |
15.21 |
0.3069 |
7.29 |
0.0173 |
20 |
39 |
400 |
1521 |
780 |
32.69 |
118.81 |
39.88 |
13.69 |
0.1619 |
21 |
40 |
441 |
1600 |
840 |
33.92 |
141.61 |
36.91 |
22.09 |
0.1519 |
163 |
281 |
2743 |
8575 |
4687 |
281 |
678.9 |
546.67 |
86.1 |
2.88 |
2. Оцінка параметрів рівняння регресії.
2.1. Значимість коефіцієнта кореляції.
По таблиці Стьюдента з рівнем значущості α=0.05 i ступенями свободи k=8 знаходимо tкрит:
tкрит (n-m-1;α) = (8;0.05) = 1.86
де m = 1 - кількість пояснюють змінних.
Якщо tнабл > tкритич, то отримане значення коефіцієнта кореляції визнається значущим (нульова гіпотеза, яка стверджує рівність нулю коефіцієнта кореляції, відкидається).
Оскільки tнабл < tкрит, то приймаємо гіпотезу про рівність 0 коефіцієнта кореляції. Іншими словами, коефіцієнт кореляції статистично - не значущий.
У парній лінійної регресії t2r = t2b і тоді перевірка гіпотез про значущість коефіцієнтів регресії і кореляції рівносильна перевірці гіпотези про суттєвість лінійного рівняння регресії.
2.2. Інтервальна оцінка
для коефіцієнта кореляції (
Довірчий інтервал для коефіцієнта кореляції:
r(-0.0323;0.915)
2.3. Аналіз точності
визначення оцінок
Незміщеної оцінкою дисперсії збурень є величина:
S2y = 68.3339 - непояснена дисперсія (міра розкиду залежної змінної навколо лінії регресії).
Sy = 8.2664 - стандартна помилка оцінки (стандартна помилка регресії).
Sa - стандартне відхилення випадкової величини a.
Sb - стандартне відхилення випадкової величини b.
2.4. Довірчі
інтервали для залежної
Економічне прогнозування на основі побудованої моделі припускає, що зберігаються раніше існували взаємозв'язку змінних і на період попередження.
Для прогнозування залежної
змінної результативного ознаки
необхідно знати прогнозні
Прогнозні значення факторів підставляють в модель і отримують точкові прогнозні оцінки досліджуваного показника.
(a + bxp ± ε), де
Розрахуємо межі інтервалу, в якому буде зосереджено 95% можливих значень Y при необмежено великому числі спостережень і Xp = 18
(7.9 + 1.24*18 ± 5.6193)
(24.59;35.83)
З імовірністю 95% можна гарантувати, що значення Y при необмежено великому числі спостережень не вийде за межі знайдених інтервалів.
Індивідуальні довірчі інтервали для Y при даному значенні X.
(a + bxi ± ε), де
xi |
y = 7.9 + 1.24xi |
εi |
ymin |
ymax |
13 |
24.01 |
17.03 |
6.98 |
41.04 |
11 |
21.53 |
18.36 |
3.17 |
39.89 |
15 |
26.49 |
16.27 |
10.22 |
42.76 |
15 |
26.49 |
16.27 |
10.22 |
42.76 |
16 |
27.73 |
16.13 |
11.59 |
43.86 |
16 |
27.73 |
16.13 |
11.59 |
43.86 |
17 |
28.97 |
16.17 |
12.8 |
45.14 |
19 |
31.45 |
16.74 |
14.71 |
48.18 |
20 |
32.69 |
17.25 |
15.43 |
49.94 |
21 |
33.92 |
17.91 |
16.02 |
51.83 |
З імовірністю 95% можна гарантувати, що значення Y при необмежено великому числі спостережень не вийде за межі знайдених інтервалів.
2.5. Перевірка гіпотез щодо коефіцієнтів лінійного рівняння регресії.
1) t-статистика. Критерій Стьюдента.
Перевіримо гіпотезу H0 про рівність окремих коефіцієнтів регресії нулю (при альтернативі H1 не дорівнює) на рівні значущості α=0.05.
tкрит (n-m-1;α) = (8;0.05) = 1.86
Оскільки 1.3911 < 1.86, то статистична значимість коефіцієнта регресії b не підтверджується (приймаємо гіпотезу про рівність нулю цього коефіцієнта).
; .
Оскільки 0.5354 < 1.86, то статистична значимість коефіцієнта регресії a не підтверджується (приймаємо гіпотезу про рівність нулю цього коефіцієнта).
Визначимо довірчі інтервали коефіцієнтів регресії, які з надійність 95% будуть наступними: