Автор работы: Пользователь скрыл имя, 17 Февраля 2013 в 12:01, методичка
Эконометрика – наука, которая дает количественное выражение взаимосвязей экономических явлений и процессов, т.е. осуществляет количественный анализ реальных экономических явлений – определение Самуэльсона. Более широкий подход – эконометрика – это любое приложение математических и статистических методов к изучению экономических процессов.
Для оценки значимости уравнения регрессии вводятся так называемые суммы квадратов: TSS, RSS, ESS.
1. TSS = – Total Sum of Squares - общая сумма квадратов отклонений объясняемой СВ Y от ее среднего значения ;
TSS - называется полной вариацией объясняемой переменной.
Ясно, что TSS=n*D(Y), где D(Y) – дисперсия Y.
Значение TSS зависит от выборки – если взять несколько разных выборок, то для каждой из них получится своя линия регрессии, т.е. значения эмпирических коэффициентов регрессии a и b являются случайными величинами, конкретные значения которых определяются в результате построения уравнения регрессии по данной выборке. Из этого следует, что и полная вариация объясняемой переменной TSS также является случайной величиной. Закон распределения TSS - χ2 с (n-1) степенями свободы.
2. – Regression Sum of Squares - сумма квадратов уклонений предсказанных значений Yтеор(x) в точках xi от , т.е. сумма квадратов отклонений, объясненная регрессией; для RSS имеем:
Отсюда RSS –случайная величина, распределенная по закону - χ2 с одной степенью свободы, (изменить можно только параметр b, значение которого зависит от выборки.
3. - Error Sum of Squares - остаточная сумма квадратов отклонений. ESS распределена по закону χ2 с (n-2) степенями свободы.
Рассмотрим пример корреляционного поля.
Общая сумма квадратов отклонений Y от вызвана влиянием множества причин.. Их можно условно разделить на две группы: изучаемый фактор и прочие факторы. Если фактор не оказывает влияния на Y, то линия регрессии Y теор совпадает с . Тогда вся вариация Y вызвана прочими причинами, т.е. TSS=ESS. Если же прочие факторы не оказывают влияния на Y, то остаточная сумма квадратов равна 0, т.е. все точки корреляционного поля точно лежат на прямой регрессии– абсолютная подгонка. На самом деле как правило не происходит ни того, ни другого.
Коэффициентом детерминации или долей объясненной вариации Y называется величина R2 = RSS/TSS.
Очевидно, что
; i=1,2,..n.
Возведем обе соотношения части в квадрат:
; i=1,2…,n.
Суммируя по n с учетом того, что , а получим Последнее слагаемое в этой сумме равно 0, что следует из системы нормальных уравнений. Таким образом получено основное соотношение МНК
TSS = RSS + ESS.
Для коэффициента детерминации R2 = RSS/TSS = 1 – ESS/TSS.
В силу определения для коэффициента детерминации справедливо:
. Если R2=0, то регрессия ничего не дает, т.е. наилучшей в смысле МНК является прямая . Если R2=1, то подгонка точная, все точки лежат на прямой. Чем ближе R2 к 1, тем более точно Yтеор аппроксимирует Y.
После проверки значимости самого уравнения регрессии следует оценить значимость полученных коэффициентов, т.е. a и b. Они построены по некоторой выборке, поэтому сами являются случайными величинами - выборочными оценками коэффициентов α и β модели для генеральной совокупности a и β. Известно, что если Y – нормально распределенная СВ, как требует МНК, то a и b – тоже нормально распределены, причем,
E(a) =a; E(b) = b;
Определяются обычным образом стандартные ошибки как средние квадратические отклонения:
для углового коэффициента уравнения регрессии b:
;
для параметра a:
.
Свойства и .
Для проверки значимости уравнения регрессии в целом рассматривается фактор Фишера . Для проверки значимости коэффициентов регрессии используют две СВ и . СВ Ta и Tb называются T-статистиками. T-статистики - СВ, распределенные по закону Стьюдента. Анализ значимости параметров регрессии осуществляется в соответствии со схемой проверки статистических гипотез. Начнем с параметра b.
В качестве нулевой гипотезы H0 рассматривается гипотеза b=0 (tb=0). Заметим, что для ПЛР это эквивалентно незначимости уравнения в целом. Второй этап – выбор уровня значимости α.
P-значение для b –это вероятность того, что для генеральной совокупности b=0 при заданном числе степеней свободы и полученном по выборке значении tb .
Функция Excel СТЬЮДРАСП(tb, m,2), где tb - полученное по выборке значение t-статистики, m=n-2, а последняя 2 означает двустороннее распределение Стьюдента, позволяет рассчитать P-значение для параметра b. Далее, если полученное по выборке P-значение меньше, чем выбранный уровень значимости α, то гипотезу H0 (b=0) отклоняем. Вывод: с надежностью 100*(1- α)% можно утверждать, что изменения фактора вызывают изменения объясняемой переменной. Если же полученное по выборке P-значение больше, чем выбранный уровень значимости α, то гипотезу H0 (b=0) принимаем. Вывод: с надежностью 100*(1- α)% нельзя утверждать, что фактор оказывает влияние на объясняемую переменную.
Важное замечание.
Для случая ПЛР гипотезы F=0, т.е. регрессия в целом не значима, и b=0, т.е. фактор не оказывает влияния на объясняемую переменную, эквивалентны!
Для ПЛР справедливо: F=tb2.
В рассмотренном примере «про страховую компанию» :
фактор Фишера F=RSS*(n-2)/ESS=810*3/270=9
ESS= 270; D(S)=2; =270/(3*2*5)=9; = =3
=9/3=3.
Р-значение для b =СТЬЮДРАСП(3; 3;2)= 0,057668886=5,8%.
Таким образом, вероятность того, что b=0 для генеральной совокупности, составляет 5,8%, что совпадает с ранее полученной вероятностью незначимости регрессии по фактору Фишера.
Пусть уровень значимости α =0,01=1%. Имеем: Р-значение для b > α, поэтому гипотезу b=0 следует принять. Вывод: c надежностью 99% утверждать, что ущерб Z связан с расстоянием до пожарной станции S нельзя. Тот же вывод следует и для уровня значимости 5%. Теперь рассмотрим уровень значимости α=0,1=10%. В этом случае Р-значение для b <α, т.е. гипотезу b=0 следует отвергнуть. Вывод: с надежностью 90% можно утверждать, что ущерб от пожара Z зависит от расстояния до пожарной станции S, и эта зависимость описывается уравнением ПЛР Zтеор(s)=38 + 9*s.
Для свободного члена регрессии a D(a)=D(b)* =D(b)*190/5=344
T-статистика для a ta=a/σa =38/18,547=2,05; Р-значение для a =СТЬЮДРАСП(2,05; 3;2)= 0,132=13,2%. Это означает, что вероятность того, что для генеральной совокупности a=0 составляет 13,2%. Однако это никоим обртазом не означает, что регрессия не значима.
Значения параметров
эмпирического уравнения
ПРИМЕР страховой компании.
Получена эмпирическая регрессия Z=38+9*s.
Оценка фактора Фишера позволила установить, что при уровне надежности 95% регрессию следует признать незначимой. При уровне надежности 90% регрессия значима.
СТЬЮДРАСПОБР(0,05;3)=3,18;
СТЬЮДРАСПОБР(0,1,3)=2,35;
СТЬЮДРАСПОБР(0,2,3)=1,64.
Выберем уровень значимости α=0,05; Для параметра b получим надежностью 95% . Доверительный интервал для b содержит нуль – это означает, что при надежности 95% b может быть нулем, что эквивалентно статистической незначимости параметра b. Этот результат полностью совпадает с полученным ранее по фактору Фишера. Для уровня значимости 10% ; доверительный интервал для получим . Все допустимые значения b положительны – с надежностью 90% параметр b статистически значим и может принимать любое значение из промежутка от 1,94 до 16,06! При уровне значимости 20% и доверительный интервал для b получается еще уже . Чем ниже уровень надежности, тем уже получается доверительный интервал для параметра.
Аналогично для свободного члена уравнения регрессии при уровне значимости 5% получаем интервал - надежность 95%;
- надежность 90%; - надежность 80%.
Доверительные интервалы получились достаточно большими – это естественно при таком малом объеме выборки – всего 5 точек. Естественно, что в реальных случаях следует стремиться к тому, чтобы выборки были значительно больше, тогда доверительные интервалы будут более приемлемыми.
Для построения ПЛР в Excel необходимо иметь выборку из n пар (xi,yi), выделить фактор (объясняющую переменную) X и объясняемую переменную Y. СЕРВИС - АНАЛИЗ ДАННЫХ – РЕГРЕССИЯ – позволяет получить параметры ПЛР. На входе следует задать:
Входной интервал по Y – ряд значений объясняемой переменной;
Входной интервал по X – ряд значений фактора;
Следует указать МЕТКИ, если в диапазон X и Y включены названия.
Уровень надежности по умолчанию задан 95%, т.е. все результаты стандартно выдаются для уровня значимости 5%. При необходимости можно задать любое другое значение уровня надежности (99% или 80%), и тогда результаты будут выданы для двух уровней надежности, т.е. 95% и заданный уровень надежности. Если ничего не задать, то результаты для уровня надежности 95% дублируются.
Если отметить позицию КОНСТАНТА – НОЛЬ, то в результате будет получено уравнение прямой, проходящей через начало координат – это вообще говоря нежелательно.
В параметрах вывода следует указать одну ячейку, начиная с которой будет размещен блок результатов (или новый рабочий лист).
При выводе результатов желательно поставить галочки в следующих позициях:
Остатки – значения ei; i=1,2, ..n;
Стандартизованные остатки – значения . Значения стандартизованных ошибок позволяют обнаружить «выбросы» в данных. Если >2, скорее всего соответствующие наблюдения являются ошибочными и не соответствует выборке в целом (правило 3-х сигма!). Рекомендуется эти наблюдения удалить и повторить расчет параметров регрессии.
График остатков - позволяет получить точки с координатами (x, ei). В условиях Гаусса-Маркова необходимо, чтобы в остатках отсутствовала гетероскедастичность и автокорреляция. Если на графике остатков разброс точек для некоторой области сильно отличается от остальных – это «похоже» на гетероскедастичность. Если точки на графике остатков расположены «закономерно» - это может означать автокорреляцию или ошибку спецификации.
График подбора – позволяет получить корреляционное поле и прямую линию, соответствующую уравнению регрессии на нем.
ВЫВОД ИТОГОВ |
|
Регрессионная статистика | |
Множественный R |
0,991189 – коэффициент корреляции |
R-квадрат |
0,982456 - коэффициент детерминации |
Нормированный R-квадрат |
0,978947 |
Стандартная ошибка |
7,254763 – σ = |
Наблюдения |
7 – количество точек в выборке |
Дисперсионный анализ |
|||||
df |
SS |
MS |
F |
Значимость F | |
Регрессия - |
1 |
RSS |
RSS |
R2*(n-2)/(1-R2) |
1,3E-05 |
Остаток |
5 |
ESS |
ESS/(n-2) |
P{F=0} для генеральной совокупности | |
Итого |
6 |
TSS |
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение | |
Y- пересечение |
-5,7 – a |
σa |
a/σa |
P{a=0} |
Выпуск V |
36,8 - b |
σb |
b/ σb |
P{b=0} |