Уравнение множественной регрессии

Автор работы: Пользователь скрыл имя, 05 Декабря 2013 в 16:08, контрольная работа

Краткое описание

Уравнение множественной регрессии может быть представлено в виде:
Y = f(β , X) + ε
где X = X(X1, X2, ..., Xm) - вектор независимых (объясняющих) переменных; β - вектор параметров (подлежащих определению); ε - случайная ошибка (отклонение); Y - зависимая (объясняемая) переменная.

Прикрепленные файлы: 1 файл

множественная регрессия 1.xlsx.rtf

— 623.65 Кб (Скачать документ)

 

Признаки x и y

       

***

Для y и x1

0.37

12948.01

0.61

113.79

0.88

Для y и x2

197634.05

12948.01

444.56

113.79

0.91

Для y и x3

8536.01

12948.01

92.39

113.79

0.99

Для x1  и x2

197634.05

0.37

444.56

0.61

0.99

Для x1  и x3

8536.01

0.37

92.39

0.61

0.92

Для x2  и x3

8536.01

197634.05

92.39

444.56

0.95


Матрица парных коэффициентов корреляции.

 

-

y

x1

x2

x3

y

1

0.88

0.91

0.99

x1

0.88

1

0.99

0.92

x2

0.91

0.99

1

0.95

x3

0.99

0.92

0.95

1


Коллинеарность - зависимость между факторами. В качестве критерия мультиколлинеарности может быть принято соблюдение следующих неравенств:

r(xjy) > r(xkxj) ; r(xky) > r(xkxj).

Если одно из неравенств не соблюдается, то исключается тот параметр xk или xj, связь которого с результативным показателем Y оказывается наименее тесной.

Для отбора наиболее значимых факторов xi учитываются следующие условия:

- связь между результативным признаком и факторным должна быть выше межфакторной связи;

- связь между факторами должна быть не более 0.7. Если в матрице есть межфакторный коэффициент корреляции rxjxi > 0.7, то в данной модели множественной регрессии существует мультиколлинеарность.;

- при высокой межфакторной связи признака отбираются факторы с меньшим коэффициентом корреляции между ними.

Если факторные переменные связаны строгой функциональной  зависимостью, то говорят о полной мультиколлинеарности. В этом случае среди столбцов матрицы факторных переменных Х имеются линейно зависимые столбцы, и, по свойству определителей матрицы, det(XTX = 0).

Вид мультиколлинеарности, при котором факторные переменные связаны некоторой стохастической зависимостью, называется частичной. Если между факторными переменными имеется высокая степень корреляции, то матрица (XTX) близка к вырожденной, т. е. det(XTX ≧ 0) (чем ближе к 0 определитель матрицы межфакторной корреляции, тем сильнее мультиколлинеарность факторов и ненадежнее результаты множественной регрессии).

Вычисление определителя показано в шаблоне решения Excel

В нашем случае rx1 x2 , rx1 x3 , rx2 x3 имеют |r|>0.7, что говорит о мультиколлинеарности факторов и о необходимости исключения одного из них из дальнейшего анализа.

Анализ первой строки этой матрицы позволяет произвести отбор факторных признаков, которые могут быть включены в модель множественной корреляционной зависимости. Факторные признаки, у которых |ryxi| < 0.5 исключают из модели. Можно дать следующую качественную интерпретацию возможных значений коэффициента корреляции (по шкале Чеддока): если |r|>0.3 - связь практически отсутствует; 0.3 ≤ |r| ≤ 0.7 - связь средняя; 0.7 ≤ |r| ≤ 0.9 - связь сильная; |r| > 0.9  - связь весьма сильная.

Проверим значимость полученных парных коэффициентов корреляции с помощью t-критерия Стьюдента. Коэффициенты, для которых значения t-статистики по модулю больше найденного критического значения, считаются значимыми.

Рассчитаем наблюдаемые значения t-статистики для ryx1 по формуле:

 

где m = 1 - количество факторов в уравнении регрессии.

 

По таблице Стьюдента находим Tтабл

tкрит(n-m-1;α/2) = (8;0.025) = 2.306

Поскольку tнабл > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим

Рассчитаем наблюдаемые значения t-статистики для ryx2 по формуле:

 

Поскольку tнабл > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим

Рассчитаем наблюдаемые значения t-статистики для ryx3 по формуле:

 

Поскольку tнабл > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим

Таким образом, связь между (y и xx1 ), (y и xx2 ), (y и xx3 ) является существенной.

Наибольшее влияние на результативный признак оказывает фактор x3 (r = 0.99), значит, при построении модели он войдет в регрессионное уравнение первым.

Частные коэффициенты корреляции.

Коэффициент частной корреляции отличается от простого коэффициента линейной парной корреляции тем, что он измеряет парную корреляцию соответствующих признаков (y и xi) при условии, что влияние на них остальных факторов (xj) устранено.

На основании частных коэффициентов можно сделать вывод об обоснованности включения переменных в регрессионную модель. Если значение коэффициента мало или он незначим, то это означает, что связь между данным фактором и результативной переменной либо очень слаба, либо вовсе отсутствует, поэтому фактор можно исключить из модели.

*

*

Теснота связи не сильная

Определим значимость коэффициента корреляции ryx1 /x2 .

Для этого рассчитаем наблюдаемые значения t-статистики по формуле:

 

где k = 1 - число фиксируемых факторов.

 

По таблице Стьюдента находим Tтабл

tкрит(n-k-2;α/2) = (7;0.025) = 2.365

Поскольку tнабл < tкрит, то принимаем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - не значим

Как видим, связь y и x1  при условии, что x2  войдет в модель, снизилась. Отсюда можно сделать вывод, что ввод в регрессионное уравнение x1  остается нецелесообразным.

*

*

Теснота связи умеренная

Определим значимость коэффициента корреляции ryx1 /x3 .

Для этого рассчитаем наблюдаемые значения t-статистики по формуле:

 

 

Поскольку tнабл < tкрит, то принимаем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - не значим

Как видим, связь y и x1  при условии, что x3  войдет в модель, снизилась. Отсюда можно сделать вывод, что ввод в регрессионное уравнение x1  остается нецелесообразным.

*

*

Теснота связи умеренная

Определим значимость коэффициента корреляции ryx2 /x1 .

Для этого рассчитаем наблюдаемые значения t-статистики по формуле:

 

 

Поскольку tнабл < tкрит, то принимаем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - не значим

Как видим, связь y и x2  при условии, что x1  войдет в модель, снизилась. Отсюда можно сделать вывод, что ввод в регрессионное уравнение x2  остается нецелесообразным.

*

*

Теснота связи умеренная

Определим значимость коэффициента корреляции ryx2 /x3 .

Для этого рассчитаем наблюдаемые значения t-статистики по формуле:

 

 

Поскольку tнабл < tкрит, то принимаем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - не значим

Как видим, связь y и x2  при условии, что x3  войдет в модель, снизилась. Отсюда можно сделать вывод, что ввод в регрессионное уравнение x2  остается нецелесообразным.

*

*

Теснота связи сильная

Определим значимость коэффициента корреляции ryx3 /x1 .

Для этого рассчитаем наблюдаемые значения t-статистики по формуле:

 

 

Поскольку tнабл > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим

Как видим, связь y и x3  при условии, что x1  войдет в модель, снизилась. Отсюда можно сделать вывод, что ввод в регрессионное уравнение x3  остается нецелесообразным.

*

*

Теснота связи сильная

Определим значимость коэффициента корреляции ryx3 /x2 .

Для этого рассчитаем наблюдаемые значения t-статистики по формуле:

 

 

Поскольку tнабл > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим

Как видим, связь y и x3  при условии, что x2  войдет в модель, снизилась. Отсюда можно сделать вывод, что ввод в регрессионное уравнение x3  остается нецелесообразным.

Можно сделать вывод, что при построении регрессионного уравнения следует отобрать факторы x1 , x2 , x3  .

Модель регрессии в стандартном масштабе.

Модель регрессии в стандартном масштабе предполагает, что все значения исследуемых признаков переводятся в стандарты (стандартизованные значения) по формулам:

 

где хji - значение переменной хji в i-ом наблюдении.

 

Таким образом, начало отсчета каждой стандартизованной переменной совмещается с ее средним значением, а в качестве единицы изменения принимается ее среднее квадратическое отклонение S.

Если связь между переменными в естественном масштабе линейная, то изменение начала отсчета и единицы измерения этого свойства не нарушат, так что и стандартизованные переменные будут связаны линейным соотношением:

ty = ∑βjtxj

Для оценки β-коэффциентов применим МНК. При этом система нормальных уравнений будет иметь вид:

rx1y1+rx1x22 + ... + rx1xmm

rx2y=rx2x11 + β2 + ... + rx2xmm

...

rxmy=rxmx11 + rxmx22 + ... + βm

Для наших данных (берем из матрицы парных коэффициентов корреляции):

0.878 = β1 + 0.993β2 + 0.916β3

0.909 = 0.993β1 + β2 + 0.946β3

0.99 = 0.916β1 + 0.946β2 + β3

Данную систему линейных уравнений решаем методом Гаусса: β1 = 0.533; β2 = -0.91; β3 = 1.363; 

Стандартизированная форма уравнения регрессии имеет вид:

y0 = 0.533x1 -0.91x2 + 1.363x3 

Найденные из данной системы β-коэффициенты позволяют определить значения коэффициентов в регрессии в естественном масштабе по формулам:

 

 

3. Анализ параметров уравнения регрессии.

Перейдем к статистическому анализу полученного уравнения регрессии: проверке значимости уравнения и его коэффициентов, исследованию абсолютных и относительных ошибок аппроксимации

Для несмещенной оценки дисперсии проделаем следующие вычисления:

Несмещенная ошибка ε = Y - Y(x) = Y - X*s (абсолютная ошибка аппроксимации)

 

 

Y

Y(x)

ε = Y - Y(x)

ε2

(Y-Yср)2

15.2

10.22

4.98

24.76

8056.86

22.3

10.8

11.5

132.24

6832.68

35

33.54

1.46

2.12

4894.4

39.7

39.57

0.13

0.0162

4258.87

54.6

67.09

-12.49

156.1

2536.13

57.3

69.62

-12.32

151.71

2271.48

78.6

64

14.6

213.09

694.85

102.6

122.21

-19.61

384.72

5.57

269.3

256.75

12.55

157.4

27007.64

375

375.77

-0.77

0.6

72921.6

 

 

 

 

0

1222.76

129480.06

Информация о работе Уравнение множественной регрессии