Автор работы: Пользователь скрыл имя, 17 Февраля 2013 в 12:01, методичка
Эконометрика – наука, которая дает количественное выражение взаимосвязей экономических явлений и процессов, т.е. осуществляет количественный анализ реальных экономических явлений – определение Самуэльсона. Более широкий подход – эконометрика – это любое приложение математических и статистических методов к изучению экономических процессов.
Пусть Y – объясняемая переменная, X1, X2…Xk – факторы, влияющие на Y.
Имеется выборка из n наблюдений следующего вида:
y1 |
x11 |
x21 |
….. |
xk1 |
y2 |
x12 |
x22 |
….. |
xk2 |
….. |
…. |
…. |
….. |
… |
yn |
x1n |
x2n |
….. |
xkn |
Модель МЛР в этом случае имеет вид:
Y = a + b1*X1 + b2*X2 +…+bk*Xk +ε.
Параметрами регрессии, которые необходимо определить, являются числа
a, b1, b2,…bk. При этом интерпретация этих параметров такова: коэффициент регрессии bi показывает, насколько изменится Y в своих единицах, если фактор Xi изменится на единицу в своих единицах при неизменном значении всех остальных факторов.
Пусть к примеру Z – стоимость квартиры в тыс. долларов, S –общая площадь квартиры, S1 – жилая площадь, S2 –площадь кухни (в м2). Здесь Z – объясняемая переменная, а S, S1 и S2 – факторы. Необходимо построить модель, которая позволила бы прогнозировать стоимость квартиры при заданных общей, жилой площади и площади кухни.
Можно построить ПЛР Z на S.
Получим Z=a+b*S. Здесь параметр b показывает, насколько изменится стоимость квартиры (в тыс. $) при изменении общей площади на 1м2 . Однако более точную информацию о ситуации на рынке жилья можно получить, если построить модель МЛР, использую 2 фактора S1 и S2.
Рассмотрим такую модель: Z=a+b1*S1+b2*S2. Здесь параметр b1 дает возможность определить изменение цены на квартиру при изменении площади комнат на 1 м2 при неизменной площади кухни, а параметр b2 – характеризует изменение цены при изменении площади кухни на 1 м2, если площадь комнат не изменилась. Ясно, что эта информация более полно характеризует тенденции на рынке жилья.
Итак, пусть задана выборка из n значений объясняемой переменной, рассматривается влияние k факторов, т.е. задана (k+1)-мерная СВ
Для нахождения параметров МЛР составим систему n линейных уравнений с k+1 неизвестными: (уравнений столько же, сколько наблюдений, неизвестных – на 1 больше, чем факторов.)
y1=a + b1*x11 + b2*x21 +…+bk*xk1 e1 = y1- (a + b1*x11 + b2*x21 +…+bk*xk1)
y2=a + b1*x12 + b2*x22 +…+bk*xk2 e2 = y2- (a + b1*x12 + b2*x22 +…+bk*xk2)
……………………………
yn=a + b1*x1n + b2*x2n +…+bk*xkn en = yn-(a + b1*x1n + b2*x2n +…+bk*xkn)
Очевидно, что если количество
уравнений меньше, чем число неизвестных,
(n< k+1), т.е.если факторов столько же или
больше, чем наблюдений, то система имеет
бесконечно много решений. Если есть
3 наблюдения, то никак нельзя рассматривать
3 или больше факторов - система
будет иметь бесконечно много решений,
которые абсолютно бессмысленны.. Если
рассмотреть в этом случае 2 фактора, то
получим систему 3 уравнений с 3 неизвестными,
которую вообще говоря можно решить точно,
т.е. в этом случае ei i=1,2,3 будут
равны 0, ESS=0, следовательно будет получена
точная подгонка, т.е. модель опишет полную
вариацию объясняемой переменной.
Однако смысла в такой регрессии нет,
так как это полный аналог построения
ПЛР по двум наблюдениям. Если добавить
еще одно наблюдение, то получим систему
4 уравнений с тремя неизвестными. Такая
система может быть решена точно, только
если все 4 точки лежат на одной плоскости,
что маловероятно. Такую систему, как и
в случае ПЛР следует решать МНК (ESS>0).
(Но если добавить 4-ый фактор, то снова
можно получить ESS=0!) Числом степеней свободы
в МЛР называется величина
ν=n-m-1. Если число степеней свободы мало,
то статистическая надежность регрессии
будет низкой. Важное замечание
- считается, что число наблюдений должно
быть как минимум в три раза больше, чем
число оцениваемых параметров (в некоторых
источниках – даже в 5 раз!).
Это означает, что если требуется построить
модель с тремя факторами, то число наблюдений
должно быть порядка 20.
Как и в случае ПЛР для решения системы n линейных уравнений с (k+1) неизвестным используем метод наименьших квадратов, т.е. будем искать минимум функции
Аналогично случаю ПЛР
строится система нормальных уравнений,
решение которой позволяет
Для оценки качества регрессии строим TSS, RSS, ESS, коэффициент детерминации.
Ясно, что в МЛР ESS можно сделать равным нулю просто за счет увеличения количества факторов. Поэтому оценить качество регрессии только по R2 невозможно. Для МЛР вводится нормированный (скорректированный) R2 - R2adj = 1- (1- R2)*(n-1)/(n-k-1). Здесь n –число наблюдений, k – количество факторов. Для k=2 R2adj = 1- (1- R2)*(n-1)/(n-3).
Свойства коэффициента детерминации R2 и скорректированного коэффициента детерминации для R2adj для МЛР.
Пример: 20 наблюдений, 4 фактора. R2 =0,6. R2adj =1-0,4*19/15=0,49 Добавили еще один фактор. R2 –увеличился и стал равным 0,61. При этом R2adj =1-0,39*19/14=0,47. Добавление 5-ого фактора позволило дополнительно объяснить полную вариацию Y на 1%, однако при этом скорректированный коэффициент детерминации уменьшился, и следовательно статистическая достоверность модели с 5-ю факторами хуже, чем модели с 4-мя факторами.
Получим: Z=a+ b*S + b1*S1 + b2*S2. По идее здесь b – это изменение цены на квартиру при увеличении общей площади на 1 м2 при неизменной площади комнат и площади кухни. Ясно, что такое практически невозможно, и следовательно параметры такой регрессии нельзя достоверно интерпретировать. Более того, в такой модели как правило один из параметров b, b1, b2 получается отрицательным, что противоречит здравому смыслу. Ситуация, в которой факторы не являются независимыми, называется МУЛЬТИКОЛЛИНЕАРНОСТЬ. Ее признаки и способы устранения обсудим позже.
В случае, когда все условия выполнены, оптимальные параметры МЛР определяются по методу наименьших квадратов, как и в ПЛР.
Пусть Y – объясняемая переменная, X1, X2…Xk – факторы, влияющие на Y.
Модель имеет вид: Y = a + b1*X1 + b2*X2 +…+bk*Xk +ε.
Пусть имеется набор данных:
y1 |
x11 |
x21 |
….. |
xk1 |
y2 |
x12 |
x22 |
….. |
xk2 |
….. |
…. |
…. |
….. |
… |
yn |
x1n |
x2n |
….. |
xkn |
Для построения параметров МЛР – СЕРВИС-АНАЛИЗ ДАННЫХ – Регрессия
Данные на входе –
Входной интервал по Y – массив значений объясняемой переменной;
Входной интервал по X – матрица, состоящая из k столбцов значений для k факторов.
Остальные параметры на входе – те же, что и ПЛР.
В выводе итогов – первые два блока идентичны соответствующим блокам для ПЛР.
Третий блок:
ВЫВОД ИТОГОВ |
|||||||||
Регрессионная статистика |
|||||||||
Множественный R |
0,881106186 |
|
|||||||
R-квадрат |
0,77634811 |
|
|||||||
Нормированный R-квадрат |
0,701797481 |
|
|||||||
Стандартная ошибка |
6,752386869 |
|
|||||||
Наблюдения |
9 |
n |
|||||||
Дисперсионный анализ |
|||||||||
df |
SS |
MS |
F |
Значимость F |
|||||
Регрессия RSS |
2 |
949,6199118 |
474,81 |
10,4137 |
0,011187 |
||||
Остаток ESS |
6 |
273,5683706 |
45,59473 |
||||||
Итого TSS |
8 |
1223,188282 |
|||||||
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
Нижние 95% |
Нижние 95,0% |
Верхние 95,0% |
|||
Y-пересечение |
2,143397631 |
15,09188281 |
0,142023 |
0,891711 |
-34,7851 |
-34,7851 |
39,07193 |
||
Жилая площадь |
1,14701091 |
0,31273602 |
3,667665 |
0,010483 |
0,381773 |
0,381773 |
1,912249 |
||
Площадь кухни |
0,556089113 |
1,723781064 |
0,322598 |
0,757945 |
-3,66185 |
-3,66185 |
4,774033 |
||
P-значение для каждого из коэффициентов – это вероятность того, что для генеральной совокупности этот коэффициент равен 0, т.е. соответствующий фактор не оказывает влияния на объясняемую переменную.
К примеру при построении модели зависимости стоимости квартиры от жилой площади и площади кухни получены следующие результаты:
Значимость F – 0,011
P-значение для фактора «жилая площадь» (b1) -0,01
P-значение для фактора «площадь кухни» (b2) -0,05
Вывод: модель, зависящая от двух факторов значима с надежностью 98%
Существует несколько технологий построения модели МЛР – при этом универсального метода не существует.
1 метод – метод включения. Рассматриваем объясняемую переменную и выбираем из экономических соображений тот из факторов, который оказывает на нее наиболее сильное влияние. Строим модель ПЛР. Оцениваем ее значимость и коэффициент детерминации. Далее – добавляем последовательно по одному другие факторы. При этом каждый раз вновь рассматриваем
1. коэффициент детерминации R2- он должен возрасти, и его увеличение позволяет оценить, какую часть полной вариации объясняемой переменной удалось дополнительно оценить за счет добавления нового фактора,
2. нормированный коэффициент детерминации R2норм – если он также увеличился по сравнению с предыдущей моделью, то добавленный фактор оказывает на объясняемую переменную статистически значимое влияние и должен быть включен в модель. R2норм Если же R2норм не изменился или даже уменьшился, то влияние добавленного фактора на объясняемую переменную не значимо, и его не следует включать в модель. Затем выбираем из нескольких моделей ту, где R2 и R2норм – максимальны.
2 метод – метод исключения. Собираем множество факторов и строим по ним всем модель МЛР. Затем оцениваем влияние каждого из факторов по соответствующему p-значению, и слабо влияющие факторы удаляем из модели по одному, начиная с самых слабо влияющих. Степень влияния, т.е. ранжирование факторов можно осуществить по P-значениям – чем больше P-значение, тем слабее влияет соответствующий фактор. Ранжировать по величине коэффициента нельзя!
В любом случае построение модели следует начать с исследования матрицы парных корреляций объясняемой переменной с каждым их факторов и межфакторной корреляции. Для ее построения - Сервис-Анализ данных-Корреляция. В полученной матрице – первый столбец – корреляции объясняемой переменной с каждым из факторов, а начиная со второго столбца на элемент ρij – это корреляция фактора (i-1) и фактора (j-1).