Автор работы: Пользователь скрыл имя, 05 Декабря 2013 в 16:08, контрольная работа
Уравнение множественной регрессии может быть представлено в виде:
Y = f(β , X) + ε
где X = X(X1, X2, ..., Xm) - вектор независимых (объясняющих) переменных; β - вектор параметров (подлежащих определению); ε - случайная ошибка (отклонение); Y - зависимая (объясняемая) переменная.
Признаки x и y |
*** | ||||
Для y и x1 |
0.37 |
12948.01 |
0.61 |
113.79 |
0.88 |
Для y и x2 |
197634.05 |
12948.01 |
444.56 |
113.79 |
0.91 |
Для y и x3 |
8536.01 |
12948.01 |
92.39 |
113.79 |
0.99 |
Для x1 и x2 |
197634.05 |
0.37 |
444.56 |
0.61 |
0.99 |
Для x1 и x3 |
8536.01 |
0.37 |
92.39 |
0.61 |
0.92 |
Для x2 и x3 |
8536.01 |
197634.05 |
92.39 |
444.56 |
0.95 |
Матрица парных коэффициентов корреляции.
- |
y |
x1 |
x2 |
x3 |
y |
1 |
0.88 |
0.91 |
0.99 |
x1 |
0.88 |
1 |
0.99 |
0.92 |
x2 |
0.91 |
0.99 |
1 |
0.95 |
x3 |
0.99 |
0.92 |
0.95 |
1 |
Коллинеарность - зависимость между факторами. В качестве критерия мультиколлинеарности может быть принято соблюдение следующих неравенств:
r(xjy) > r(xkxj) ; r(xky) > r(xkxj).
Если одно из неравенств не соблюдается, то исключается тот параметр xk или xj, связь которого с результативным показателем Y оказывается наименее тесной.
Для отбора наиболее значимых факторов xi учитываются следующие условия:
- связь между результативным признаком и факторным должна быть выше межфакторной связи;
- связь между факторами должна быть не более 0.7. Если в матрице есть межфакторный коэффициент корреляции rxjxi > 0.7, то в данной модели множественной регрессии существует мультиколлинеарность.;
- при высокой межфакторной связи признака отбираются факторы с меньшим коэффициентом корреляции между ними.
Если факторные переменные связаны строгой функциональной зависимостью, то говорят о полной мультиколлинеарности. В этом случае среди столбцов матрицы факторных переменных Х имеются линейно зависимые столбцы, и, по свойству определителей матрицы, det(XTX = 0).
Вид мультиколлинеарности, при котором факторные переменные связаны некоторой стохастической зависимостью, называется частичной. Если между факторными переменными имеется высокая степень корреляции, то матрица (XTX) близка к вырожденной, т. е. det(XTX ≧ 0) (чем ближе к 0 определитель матрицы межфакторной корреляции, тем сильнее мультиколлинеарность факторов и ненадежнее результаты множественной регрессии).
Вычисление определителя показано в шаблоне решения Excel
В нашем случае rx1 x2 , rx1 x3 , rx2 x3 имеют |r|>0.7, что говорит о мультиколлинеарности факторов и о необходимости исключения одного из них из дальнейшего анализа.
Анализ первой строки этой матрицы позволяет произвести отбор факторных признаков, которые могут быть включены в модель множественной корреляционной зависимости. Факторные признаки, у которых |ryxi| < 0.5 исключают из модели. Можно дать следующую качественную интерпретацию возможных значений коэффициента корреляции (по шкале Чеддока): если |r|>0.3 - связь практически отсутствует; 0.3 ≤ |r| ≤ 0.7 - связь средняя; 0.7 ≤ |r| ≤ 0.9 - связь сильная; |r| > 0.9 - связь весьма сильная.
Проверим значимость полученных парных коэффициентов корреляции с помощью t-критерия Стьюдента. Коэффициенты, для которых значения t-статистики по модулю больше найденного критического значения, считаются значимыми.
Рассчитаем наблюдаемые значения t-статистики для ryx1 по формуле:
где m = 1 - количество факторов в уравнении регрессии.
По таблице Стьюдента находим Tтабл
tкрит(n-m-1;α/2) = (8;0.025) = 2.306
Поскольку tнабл > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим
Рассчитаем наблюдаемые значения t-статистики для ryx2 по формуле:
Поскольку tнабл > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим
Рассчитаем наблюдаемые значения t-статистики для ryx3 по формуле:
Поскольку tнабл > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим
Таким образом, связь между (y и xx1 ), (y и xx2 ), (y и xx3 ) является существенной.
Наибольшее влияние на результативный признак оказывает фактор x3 (r = 0.99), значит, при построении модели он войдет в регрессионное уравнение первым.
Частные коэффициенты корреляции.
Коэффициент частной корреляции отличается от простого коэффициента линейной парной корреляции тем, что он измеряет парную корреляцию соответствующих признаков (y и xi) при условии, что влияние на них остальных факторов (xj) устранено.
На основании частных коэффициентов можно сделать вывод об обоснованности включения переменных в регрессионную модель. Если значение коэффициента мало или он незначим, то это означает, что связь между данным фактором и результативной переменной либо очень слаба, либо вовсе отсутствует, поэтому фактор можно исключить из модели.
*
*
Теснота связи не сильная
Определим значимость коэффициента корреляции ryx1 /x2 .
Для этого рассчитаем наблюдаемые значения t-статистики по формуле:
где k = 1 - число фиксируемых факторов.
По таблице Стьюдента находим Tтабл
tкрит(n-k-2;α/2) = (7;0.025) = 2.365
Поскольку tнабл < tкрит, то принимаем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - не значим
Как видим, связь y и x1 при условии, что x2 войдет в модель, снизилась. Отсюда можно сделать вывод, что ввод в регрессионное уравнение x1 остается нецелесообразным.
*
*
Теснота связи умеренная
Определим значимость коэффициента корреляции ryx1 /x3 .
Для этого рассчитаем наблюдаемые значения t-статистики по формуле:
Поскольку tнабл < tкрит, то принимаем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - не значим
Как видим, связь y и x1 при условии, что x3 войдет в модель, снизилась. Отсюда можно сделать вывод, что ввод в регрессионное уравнение x1 остается нецелесообразным.
*
*
Теснота связи умеренная
Определим значимость коэффициента корреляции ryx2 /x1 .
Для этого рассчитаем наблюдаемые значения t-статистики по формуле:
Поскольку tнабл < tкрит, то принимаем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - не значим
Как видим, связь y и x2 при условии, что x1 войдет в модель, снизилась. Отсюда можно сделать вывод, что ввод в регрессионное уравнение x2 остается нецелесообразным.
*
*
Теснота связи умеренная
Определим значимость коэффициента корреляции ryx2 /x3 .
Для этого рассчитаем наблюдаемые значения t-статистики по формуле:
Поскольку tнабл < tкрит, то принимаем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - не значим
Как видим, связь y и x2 при условии, что x3 войдет в модель, снизилась. Отсюда можно сделать вывод, что ввод в регрессионное уравнение x2 остается нецелесообразным.
*
*
Теснота связи сильная
Определим значимость коэффициента корреляции ryx3 /x1 .
Для этого рассчитаем наблюдаемые значения t-статистики по формуле:
Поскольку tнабл > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим
Как видим, связь y и x3 при условии, что x1 войдет в модель, снизилась. Отсюда можно сделать вывод, что ввод в регрессионное уравнение x3 остается нецелесообразным.
*
*
Теснота связи сильная
Определим значимость коэффициента корреляции ryx3 /x2 .
Для этого рассчитаем наблюдаемые значения t-статистики по формуле:
Поскольку tнабл > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим
Как видим, связь y и x3 при условии, что x2 войдет в модель, снизилась. Отсюда можно сделать вывод, что ввод в регрессионное уравнение x3 остается нецелесообразным.
Можно сделать вывод, что при построении регрессионного уравнения следует отобрать факторы x1 , x2 , x3 .
Модель регрессии в стандартном масштабе.
Модель регрессии в стандартном масштабе предполагает, что все значения исследуемых признаков переводятся в стандарты (стандартизованные значения) по формулам:
где хji - значение переменной хji в i-ом наблюдении.
Таким образом, начало отсчета каждой стандартизованной переменной совмещается с ее средним значением, а в качестве единицы изменения принимается ее среднее квадратическое отклонение S.
Если связь между переменными в естественном масштабе линейная, то изменение начала отсчета и единицы измерения этого свойства не нарушат, так что и стандартизованные переменные будут связаны линейным соотношением:
ty = ∑βjtxj
Для оценки β-коэффциентов применим МНК. При этом система нормальных уравнений будет иметь вид:
rx1y=β1+rx1x2*β2 + ... + rx1xm*βm
rx2y=rx2x1*β1 + β2 + ... + rx2xm*βm
...
rxmy=rxmx1*β1 + rxmx2*β2 + ... + βm
Для наших данных (берем из матрицы парных коэффициентов корреляции):
0.878 = β1 + 0.993β2 + 0.916β3
0.909 = 0.993β1 + β2 + 0.946β3
0.99 = 0.916β1 + 0.946β2 + β3
Данную систему линейных уравнений решаем методом Гаусса: β1 = 0.533; β2 = -0.91; β3 = 1.363;
Стандартизированная форма уравнения регрессии имеет вид:
y0 = 0.533x1 -0.91x2 + 1.363x3
Найденные из данной системы β-коэффициенты позволяют определить значения коэффициентов в регрессии в естественном масштабе по формулам:
3. Анализ параметров уравнения регрессии.
Перейдем к статистическому анализу полученного уравнения регрессии: проверке значимости уравнения и его коэффициентов, исследованию абсолютных и относительных ошибок аппроксимации
Для несмещенной оценки дисперсии проделаем следующие вычисления:
Несмещенная ошибка ε = Y - Y(x) = Y - X*s (абсолютная ошибка аппроксимации)
Y |
Y(x) |
ε = Y - Y(x) |
ε2 |
(Y-Yср)2 |
15.2 |
10.22 |
4.98 |
24.76 |
8056.86 |
22.3 |
10.8 |
11.5 |
132.24 |
6832.68 |
35 |
33.54 |
1.46 |
2.12 |
4894.4 |
39.7 |
39.57 |
0.13 |
0.0162 |
4258.87 |
54.6 |
67.09 |
-12.49 |
156.1 |
2536.13 |
57.3 |
69.62 |
-12.32 |
151.71 |
2271.48 |
78.6 |
64 |
14.6 |
213.09 |
694.85 |
102.6 |
122.21 |
-19.61 |
384.72 |
5.57 |
269.3 |
256.75 |
12.55 |
157.4 |
27007.64 |
375 |
375.77 |
-0.77 |
0.6 |
72921.6 |
|
|
0 |
1222.76 |
129480.06 |