Автор работы: Пользователь скрыл имя, 08 Июня 2012 в 14:53, курсовая работа
При построении регрессионной модели необходимо:
- определить параметры модели;
- определить статистическую значимости оценок;
- построить доверительные интервалы оценок;
- проверить качество модели в целом
Введение
1. Постановка задачи.
1.1 Определение цели и условий.
1.2 Сбор данных, оформление таблицы данных по всем показателям.
2. Анализ данных и отбор факторов. Выбор формы модели.
3. Построение модели регрессии. Количественная оценка параметров регрессии.
- Оценка качества модели
- Проверка качества параметров регрессии
- Проверка качества модели в целом
- Исключение статистически незначимого фактора из модели. Проверка качества новой модели.
- Проверка качества модели в целом.
4. Анализ остатков:
- тест Голдфельда-Квандта
- тест Уайта
- тест Дарбина-Уотсона
- тест Чоу
МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ ИНСТИТУТ
МЕЖДУНАРОДНЫХ ОТНОШЕНИЙ
(УНИВЕРСИТЕТ)
МИД РОССИИ
КАФЕДРА ЭКОНОМЕТРИКИ И МАТЕМАТИЧЕСКИХ МЕТОДОВ
АНАЛИЗА ЭКОНОМИКИ
Аналитическая справка по эконометрике на тему:
«Построение многофакторной регрессионной модели»
Выполнили: студентки
III курса 1 группы
факультета МЭО
Евгения Журавлева
Ксения Сысоева
Научный руководитель:
Сернова Н. В.
МОСКВА 2009
СОДЕРЖАНИЕ
Введение
1.1 Определение цели и условий.
1.2 Сбор данных, оформление таблицы данных по всем показателям.
2. Анализ данных и отбор факторов. Выбор формы модели.
3. Построение модели регрессии. Количественная оценка параметров регрессии.
- Оценка качества модели
- Проверка качества параметров регрессии
- Проверка качества модели в целом
- Исключение статистически незначимого фактора из модели. Проверка качества новой модели.
- Проверка качества модели в целом.
4. Анализ остатков:
- тест Голдфельда-Квандта
- тест Уайта
- тест Дарбина-Уотсона
- тест Чоу
Введение
Регрессионный анализ – это метод математической статистики, который оценивает регрессионную зависимость между результативным признаком и влияющими на него факторами в генеральной совокупности на основе анализа регрессионной зависимости в выборке.
Под регрессионной зависимостью понимают функциональную зависимость между изменением одной случайной величины Х и условным математическим ожиданием другой случайной величины Y.
Основной задачей регрессионного анализа является построение по выборочным данным модели регрессии, которая показывает, как в среднем изменяется значение результативного признака Y в зависимости от влияющих на него факторов в генеральной совокупности.
Регрессионная модель описывает, как в среднем зависит результативный признак Y от влияющих на него факториальных признаков X,и выявляет какую роль играет каждый из факторов в изменении результативного признака. На основе регрессионной модели можно определить среднее значение результативного признака Y при определенных значениях факториальных признаков.
Различают однофакторную и многофакторную модели регрессии. В однофакторной модели величина Y зависит только от одного факториального признака X. Если же таких признаков несколько, то модель является многофакторной.
В зависимости от функции, в виде которой описывается зависимость величины Y от факторов, различают линейную и нелинейную модель регрессии.
Коэффициенты регрессии при факториальных признаках, или параметры модели регрессии, называются коэффициентами регрессии. Коэффициенты в линейных однофакторных и многофакторных моделях показывают, на сколько изменится величина результативного признака Y при изменении значения данного факториального признака на единицу (при условии неизменности всех остальных факторных переменных в многофакторных моделях).
При построении регрессионной модели необходимо:
- определить параметры модели;
- определить статистическую значимости оценок;
- построить доверительные интервалы оценок;
- проверить качество модели в целом.
1.1 Определение цели и условий.
Объектом исследования данной работы является динамика расходов на личное потребление американских граждан в период с 1939 по 1988 года.
Цель данной работы – определить степень зависимости расходов на личное потребление населения от группы факторов, выразить эту зависимость количественно и определить, изменился ли характер зависимости в периоды войн, кризисов и в мирное время.
Были выбраны три фактора, которые оказывают влияние на расходы на личное потребление американских граждан:
1) Валовой внутренний продукт
2) Валовой объем внутренних частных инвестиций
3) Личный доход
Для проведения анализа будем использовать регрессионный анализ, с помощью которого мы проанализируем влияние факторов и построим эконометрическую модель.
Процесс построения модели будет состоять из следующих этапов:
I. | Сбор исходных данных. |
II. | Анализ данных, выбор факторов и формы модели. |
III. | Построение модели. |
IV. | Оценка качества модели. |
1.2 Сбор данных, оформление таблицы данных по всем показателям.
Для исследования были использованы данные из книги Макконела и Брю «Экономикс»:
Т | Y | X1 | X2 | X3 |
Годы | Расходы на личное потребление (млрд. $) | Валовой внутренний продукт (млрд. $) | Валовой объем внутренних частных инвестиций (млрд. $) | Личный доход (млрд. $) |
1939 | 67,2 | 92 | 9,3 | 73,1 |
1940 | 71,2 | 101,3 | 13,6 | 78,6 |
1942 | 88,9 | 161,8 | 10,4 | 123,8 |
1944 | 108,5 | 219,7 | 7,8 | 166,3 |
1946 | 144,2 | 222,3 | 31,1 | 179,5 |
1948 | 175,4 | 269,6 | 48,1 | 211,1 |
1950 | 192,7 | 294,3 | 54,1 | 229,9 |
1952 | 219,7 | 358,6 | 54 | 276,1 |
1954 | 240,5 | 381,1 | 53,8 | 295,2 |
1956 | 271,9 | 438 | 72 | 340 |
1958 | 296,6 | 467,9 | 64,5 | 370 |
1960 | 332,3 | 527,4 | 78,9 | 412,7 |
1962 | 363,8 | 586,5 | 88,1 | 457,9 |
1964 | 411,7 | 664,4 | 102,1 | 515,8 |
1966 | 481,8 | 789,3 | 131,3 | 606,4 |
1968 | 558,7 | 911,5 | 141,2 | 714,5 |
1970 | 648,9 | 1039,7 | 152,4 | 841,1 |
1971 | 702,4 | 1128,6 | 178,2 | 905,1 |
1972 | 770,7 | 1240,4 | 207,6 | 994,3 |
1973 | 852,5 | 1385,5 | 244,5 | 1113,4 |
1974 | 932,4 | 1501 | 249,4 | 1225,6 |
1975 | 1030,3 | 1635,2 | 230,2 | 1331,7 |
1976 | 1149,8 | 1823,9 | 292 | 1475,4 |
1977 | 1278,4 | 2031,4 | 361,3 | 1637,1 |
1978 | 1430,3 | 2295,9 | 436 | 1848,3 |
1979 | 1596,3 | 2566,4 | 490,6 | 2081,5 |
1980 | 1762,9 | 2795,6 | 477,9 | 2323,9 |
1981 | 1944,2 | 3131,3 | 570,8 | 2599,4 |
1982 | 2079,3 | 3259,2 | 516,1 | 2768,4 |
1983 | 2286,4 | 3534,9 | 564,2 | 2946,9 |
1984 | 2498,4 | 3932,7 | 735,5 | 3274,8 |
1985 | 2712,6 | 4213 | 736,3 | 3515 |
1986 | 2895,2 | 4452,9 | 747,2 | 3712,4 |
1987 | 3105,3 | 4742,5 | 781,5 | 3962,5 |
1988 | 3356,6 | 5108,3 | 821,1 | 4272,1 |
Анализ данных и отбор факторов. Выбор формы модели.
Основной задачей является на данном этапе является определения набора факторов, которые буду включены в модель.
Прежде, чем переходить к непосредственному построению модели, необходимо определиться с ее формой, то есть выявить характер воздействия каждого фактора на изменение результативного признака Y. Для этого необходимо построить графики корреляционного поля для каждого из факторов.
Для фактора Х1 этот график имеет следующий вид:
Анализ данного корреляционного поля позволяет принять гипотезу о существовании линейной зависимости.
Построим аналогичные графики для оставшихся факторов.
Для фактора Х2 график будет иметь следующий вид:
Для фактора Х3:
На всех графиках мы видим, что с увеличением каждого фактора X1, Х2, Х3 растет и величина результативного признака Y. Корреляционные поля дают возможность предположить, что существует линейная зависимость, так как все они могут быть аппроксимированы линейной функцией.
Таким образом, в нашем случае, мы будем рассматривать линейную многофакторную модель регрессии. Итак, определившись с формой модели, мы можем перейти к ее построению.
Построение модели регрессии. Количественная оценка параметров регрессии.
Можно предположить, что модель регрессии изучаемого явления будет иметь вид:
= + x1 + x2 + x3
где
, , , – коэффициенты регрессии,
– располагаемый доход,
x1, x2, x3, – факторы, влияющие на Y
Поскольку выбранная нами модель является линейной относительно параметров, то для количественной оценки параметров мы будем применять метод наименьших квадратов.
С помощью программы Microsoft Excel находим коэффициенты регрессии.
| Коэффициенты |
Y-пересечение | -14,08895774 |
Переменная X 1 | 0,433252671 |
Переменная X 2 | -0,481615388 |
Переменная X 3 | 0,354804103 |
Подставив их в модель, получаем:
= -14,09 + 0,43 x1 - 0,48x2 + 0,35 x3
Проведем качественный анализ коэффициентов регрессии и дадим интерпретацию каждого из параметров:
= 0,43 – коэффициент регрессии, показывающий, на сколько млрд. долл. увеличится объем расходов на личное потребление американских граждан при увеличении ВВП на 1 млрд. долл. при условии, что остальные факторы остаются неизменными.
= -0,48 – коэффициент регрессии, который показывает, на сколько млрд. долл. уменьшится объем расходов на личное потребление американских граждан при увеличении валового объема частных инвестиций на 1 млрд. долл. при условии, что остальные факторы остаются неизменными.
= 0,35 – коэффициент регрессии, который показывает, на сколько млрд. долл. возрастет располагаемый доход американских граждан при увеличении их личного дохода на 1 млрд. долл. при условии, что остальные факторы остаются неизменными.
Оценка качества модели
Необходимо осуществить проверку качества полученной модели регрессии для того, чтобы узнать, соответствует ли она основным предпосылкам регрессионного анализа, а также для проверки адекватности модели. Проверка качества модели проходит в несколько этапов:
I. Проверка качества параметров регрессии.
II. Проверка качества модели в целом.
III. Анализ остатков.
I. Проверка качества параметров регрессии
Оценка качества параметров регрессии предполагает проверку статистических гипотез относительно свойств регрессионной модели. На основе построенной по выборочным данным регрессионной модели можно проверить гипотезу H0 о равенстве коэффициента регрессии генеральной совокупности нулю, т.е. об отсутствии регрессии Y на Xi в генеральной совокупности.
Вводим гипотезы:
H0:
H1: (при α = 0,05)
Проверку гипотезы H0 осуществляем с помощью критерия t, которая является независимой случайной величиной, распределенной по закону Стьюдента. На основе данных регрессионной модели рассчитывается t-статистика:
,
где – стандартная ошибка параметра
Построим доверительный интервал для коэффициента регрессии:
Составим таблицу по данным, полученным с помощью Microsoft Excel:
| Коэффициенты | Стандартная ошибка | t-набл | t-табл (при α=0,05, n-k-1=31) | Левая граница дов. инт. | Правая граница дов. инт. |
Переменная X1 | 0,433252671 | 0,169291722 | 2,559207654 | 2,04 | 0,087979929 | 0,778525414 |
Переменная X2 | -0,481615388 | 0,15655447 | -3,07634389 | 2,04 | -0,80091033 | -0,16232044 |
Переменная X3 | 0,354804103 | 0,185656407 | 1,911079222 | 2,04 | -0,02384463 | 0,733452841 |
Для коэффициентов и |t набл |>|t табл| и не попадает в доверительный интервал, поэтому нет оснований для принятия гипотезы Н0 и мы принимаем альтернативную гипотезу. Получаем, что при уровне значимости α = 0,05 отличие от нуля коэффициентов и не случайно. Значит, факторы Х1 и Х2 оказывает статистически значимое влияние на Y и их следует оставить в модели.
Что касается коэффициента , то здесь |t набл | < |t табл|, и попадает в доверительный интервал. Таким образом, гипотеза Н0 принимается. Это означает, что при уровне значимости α = 0,05 коэффициент существенно не отличается от нуля. Поэтому фактор Х3 не оказывает статистически значимого влияния на Y.
Получаем, что личный доход не оказывает существенного воздействия на изменение расходов на личное потребление. Следовательно, этот фактора необходимо исключить из модели и проанализировать изменение качества модели в целом.
Проверка качества модели в целом
Проверка качества модели в целом позволяет нам оценить совместное влияние всех факторов, включенных в модель, на результативный признак.
Для проверки качества модели в целом, оценки того, насколько хорошо данная модель описывает фактические данные (вариацию результативного признака Y), используется дисперсионный анализ, на основе которого рассчитывается коэффициент детерминации R2.
Показатель R2 показывает, какую долю общей вариации составляет объясненная регрессией вариация, он служит показателем качества модели.
Этот коэффициент рассчитывается по формуле:
По результатам расчетов в Microsoft Excel R2 = 0,9995.
Принимаем нулевую гипотезу с уровнем значимости α = 0,05 о том, что все факторы, включенные в модель, совместно не оказывают влияния на изменение результативного признака в генеральной совокупности. Принимаем также альтернативную ей гипотезу.
H0:
H1:
Проверка гипотезы осуществляется с помощью критерия Фишера, который рассчитывается по формуле:
Получаем Fнабл = 508, 93
Fтабл(α=0,05; 31; 3)= 3,17
Fнабл> Fтабл, поэтому нет оснований для принятия гипотезы H0.
Следовательно, при уровне значимости α = 0,05 все факторы, включенные в модель, совместно оказывают статистически значимое влияние на изменение Y. То есть изменение расходов на личное потребление на 99 % определяется учтенными факторами.
Однако, как мы выяснили, в модель включен один статистически незначимый фактор – Х3, поэтому, несмотря на высокий R2, данную модель нельзя использовать для прогнозов, а данный фактор необходимо удалить из модели.
Исключение статистически незначимого фактора из модели. Проверка качества новой модели.
Удалим из модели Х3, пересчитаем коэффициенты регрессии и рассмотрим качество получившейся модели.
Двухфакторная модель с исключенным фактором Х2 примет вид:
= + x1 + x2
Для количественной оценки параметров регрессии применяем метод наименьших квадратов.
Находим коэффициенты регрессии с помощью Microsoft Excel и подставляем их в модель.
| Коэффициенты |
Y-пересечение | -26,0332689 |
Переменная X 1 | 0,753408323 |
Переменная X 2 | -0,610844734 |
Получаем, что наша модель принимает следующий вид:
= - 26,03 + 0,75x1 - 0,61x2
Оценим качество полученной модели.
I. Проверка качества параметров регрессии.
Вводим гипотезы:
H0:
H1: (α = 0,05)
Проверку гипотезы H0 осуществляем с помощью критерия Стьюдента.
На основе данных регрессионной модели рассчитывается t-статистика:
,
где – стандартная ошибка параметра
Построим доверительный интервал для коэффициента регрессии:
По данным Microsoft Excel для новой модели составим таблицу:
| Коэффициенты | Стандартная ошибка | t-набл | t-табл (при α=0,05, n-k-1=31) | Левая граница дов. инт. | Правая граница дов. инт. |
Переменная X1 | 0,753408323 | 0,025376799 | 29,68886367 | 2,04 | 0,701717475 | 0,80509917 |
Переменная X2 | -0,610844734 | 0,146932216 | -4,15732335 | 2,04 | -0,91013586 | -0,31155360 |
Для обоих коэффициентов и |t набл |>|t табл| и не попадает в доверительный интервал, поэтому нет оснований для принятия гипотезы Н0 и принимается альтернативная гипотеза. Это означает, что при уровне значимости α = 0,05 отличие от нуля всех коэффициентов в новой модели не случайно. Следовательно, факторы X1 и X2 оказывают статистически значимое влияние на Y и их следует оставить в модели.
II. Проверка качества модели в целом.
Для оценки того, насколько хорошо данная модель описывает фактические данные (вариацию результативного признака Y), снова используем коэффициент детерминации R2, вычисляемый по формуле
Согласно расчетам Microsoft Excel, коэффициент детерминации R2 почти не уменьшился (с 0,999542 до 0,999538). Это еще раз подтверждает незначительность исключенного фактора для модели в целом.
Для оценки качества модели в целом выдвигаем гипотезу H0 (о незначимости всех факторов на изменение Y) и альтернативную:
H0:
H1: (α = 0,05)
Проверка гипотезы осуществляется с помощью критерия Фишера, который рассчитывается по формуле:
Получаем Fнабл = 788,02
Fтабл(α=0,05; 31; 2)= 3,26
Fнабл> Fтабл, поэтому нет оснований для принятия гипотезы H0.
Следовательно, при уровне значимости α = 0,05 все факторы, включенные в модель, совместно оказывают статистически значимое влияние на изменение Y. То есть изменение расходов на личное потребление более, чем на 99 % определяется учтенными факторами.
Как мы выяснили показатель R2 практически не изменился, что дает нам основание для принятия новой модели, поскольку она содержит меньшее число факторов. При этом все коэффициенты двухфакторной модели статистически значимы, а сама модель адекватна и может быть использована для последующего анализа и прогнозирования после анализа остатков.
Поскольку проверка качества модели была основана на предположении о независимости нормально распределенных остатков, необходимо проверить правильность данного предположения.
III. Анализ остатков
Качество остатков имеет большое значение для построения модели регрессии, т. к. полученные нами оценки будут являться эффективными, несмещенными и состоятельными, если удовлетворены все требования к остаткам. Существуют два основных условий для остатков, которые должны быть соблюдены:
Во-первых, дисперсия остатков должна быть постоянной (должна быть гомоскедастичность остатков), иначе в модели будет иметь место гетероскедастичность (ошибки будут не коррелированны, но при этом с непостоянными дисперсиями). Условие гомороскедастичности проверяется с помощью тестов Голдфельда-Кванта и Уайта.
Во-вторых, между остатками не должно быть автокорреляции, т. к. по теореме Гаусса-Маркова для эффективности, несмещенности и состоятельности полученных оценок необходимо, чтобы не было корреляции между последующими значениями остатков.
Проводим графический анализ остатков, отражающий зависимость остатков от каждого из факторов и проанализируем отклонения остатков.
Проанализировав данные графики, можно сделать вывод о том, что остатки меняются случайным образом и не зависят от значения параметра.
Тем не менее проведем проверку на наличие гетероскедастичности и автокорреляции в остатках с помощью тестов Голдфельда-Кванта, Уайта и Дарбина-Уотсона.
Проверим наличие гетероскедастичности в модели с помощью теста Голдфельда-Кванта
Если графический анализ остатков указывает на возможную неоднородность дисперсий ошибок , то наблюдения упорядочивают в порядке предполагаемого возрастания дисперсий случайных ошибок. Затем отбрасывают r центральных наблюдений (для более надежного разделения групп с малыми и большими дисперсиями случайных ошибок), так что для дальнейшего анализа остается n-r наблюдений. Далее производят оценивание выбранной модели отдельно по первым и по последним наблюдениям; вычисляют отношение остаточных сумм квадратов.
При принятии решения учитывается, что если , (дисперсии однородны) и выполнены остальные стандартные предположения о модели наблюдений, включая предположение о нормальности ошибок, то тогда отношение
имеет F— распределение Фишера с и степенями свободы.
Пусть мы предположили, что существует фактор, который вызывает гетероскедастичность (фактор X2 - валовой объем внутренних частных инвестиций)
Упорядочиваем всю таблицу в порядке возрастания данных по валовому объему внутренних частных инвестиций:
Т | Y | X1 | X2 | X3 |
Годы | Расходы на личное потребление (млрд. $) | Валовой внутренний продукт (млрд. $) | Валовой объем внутренних частных инвестиций (млрд. $) | Личный доход (млрд. $) |
1944 | 108,5 | 219,7 | 7,8 | 166,3 |
1939 | 67,2 | 92 | 9,3 | 73,1 |
1942 | 88,9 | 161,8 | 10,4 | 123,8 |
1940 | 71,2 | 101,3 | 13,6 | 78,6 |
1946 | 144,2 | 222,3 | 31,1 | 179,5 |
1948 | 175,4 | 269,6 | 48,1 | 211,1 |
1954 | 240,5 | 381,1 | 53,8 | 295,2 |
1952 | 219,7 | 358,6 | 54 | 276,1 |
1950 | 192,7 | 294,3 | 54,1 | 229,9 |
1958 | 296,6 | 467,9 | 64,5 | 370 |
1956 | 271,9 | 438 | 72 | 340 |
1960 | 332,3 | 527,4 | 78,9 | 412,7 |
1962 | 363,8 | 586,5 | 88,1 | 457,9 |
1964 | 411,7 | 664,4 | 102,1 | 515,8 |
1966 | 481,8 | 789,3 | 131,3 | 606,4 |
1968 | 558,7 | 911,5 | 141,2 | 714,5 |
1970 | 648,9 | 1039,7 | 152,4 | 841,1 |
1971 | 702,4 | 1128,6 | 178,2 | 905,1 |
1972 | 770,7 | 1240,4 | 207,6 | 994,3 |
1975 | 1030 | 1635,2 | 230,2 | 1331,7 |
1973 | 852,5 | 1385,5 | 244,5 | 1113,4 |
1974 | 932,4 | 1501 | 249,4 | 1225,6 |
1976 | 1150 | 1823,9 | 292 | 1475,4 |
1977 | 1278 | 2031,4 | 361,3 | 1637,1 |
1978 | 1430 | 2295,9 | 436 | 1848,3 |
1980 | 1763 | 2795,6 | 477,9 | 2323,9 |
1979 | 1596 | 2566,4 | 490,6 | 2081,5 |
1982 | 2079 | 3259,2 | 516,1 | 2768,4 |
1983 | 2286 | 3534,9 | 564,2 | 2946,9 |
1981 | 1944 | 3131,3 | 570,8 | 2599,4 |
1984 | 2498 | 3932,7 | 735,5 | 3274,8 |
1985 | 2713 | 4213 | 736,3 | 3515 |
1986 | 2895 | 4452,9 | 747,2 | 3712,4 |
1987 | 3105 | 4742,5 | 781,5 | 3962,5 |
1988 | 3357 | 5108,3 | 821,1 | 4272,1 |
Делим весь ряд наблюдений на 3 части (средняя часть r=5; 1-я и 3-я части равны между собой =15)
Т | Y | X1 | X2 | X3 |
Годы | Расходы на личное потребление (млрд. $) | Валовой внутренний продукт (млрд. $) | Валовой объем внутренних частных инвестиций (млрд. $) | Личный доход (млрд. $) |
1944 | 108,5 | 219,7 | 7,8 | 166,3 |
1939 | 67,2 | 92 | 9,3 | 73,1 |
1942 | 88,9 | 161,8 | 10,4 | 123,8 |
1940 | 71,2 | 101,3 | 13,6 | 78,6 |
1946 | 144,2 | 222,3 | 31,1 | 179,5 |
1948 | 175,4 | 269,6 | 48,1 | 211,1 |
1954 | 240,5 | 381,1 | 53,8 | 295,2 |
1952 | 219,7 | 358,6 | 54 | 276,1 |
1950 | 192,7 | 294,3 | 54,1 | 229,9 |
1958 | 296,6 | 467,9 | 64,5 | 370 |
1956 | 271,9 | 438 | 72 | 340 |
1960 | 332,3 | 527,4 | 78,9 | 412,7 |
1962 | 363,8 | 586,5 | 88,1 | 457,9 |
1964 | 411,7 | 664,4 | 102,1 | 515,8 |
1966 | 481,8 | 789,3 | 131,3 | 606,4 |
1968 | 558,7 | 911,5 | 141,2 | 714,5 |
1970 | 648,9 | 1039,7 | 152,4 | 841,1 |
1971 | 702,4 | 1128,6 | 178,2 | 905,1 |
1972 | 770,7 | 1240,4 | 207,6 | 994,3 |
1975 | 1030 | 1635,2 | 230,2 | 1331,7 |
1973 | 852,5 | 1385,5 | 244,5 | 1113,4 |
1974 | 932,4 | 1501 | 249,4 | 1225,6 |
1976 | 1150 | 1823,9 | 292 | 1475,4 |
1977 | 1278 | 2031,4 | 361,3 | 1637,1 |
1978 | 1430 | 2295,9 | 436 | 1848,3 |
1980 | 1763 | 2795,6 | 477,9 | 2323,9 |
1979 | 1596 | 2566,4 | 490,6 | 2081,5 |
1982 | 2079 | 3259,2 | 516,1 | 2768,4 |
1983 | 2286 | 3534,9 | 564,2 | 2946,9 |
1981 | 1944 | 3131,3 | 570,8 | 2599,4 |
1984 | 2498 | 3932,7 | 735,5 | 3274,8 |
1985 | 2713 | 4213 | 736,3 | 3515 |
1986 | 2895 | 4452,9 | 747,2 | 3712,4 |
1987 | 3105 | 4742,5 | 781,5 | 3962,5 |
1988 | 3357 | 5108,3 | 821,1 | 4272,1 |
Теперь строим регрессии для 1 и 3 части и находим сумму квадратов остатков.
Вывод остатка 1 части |
|
| |
Наблюдение | Предсказанное Y | Остатки | Квадрат остатков |
1 | 37,59944076 | 29,60055924 | 876,1931071 |
2 | 41,97950581 | 29,22049419 | 853,8372808 |
3 | 89,51541248 | -0,61541248 | 0,378732521 |
4 | 134,7259507 | -26,22595067 | 687,8004887 |
5 | 122,45213 | 21,74786999 | 472,9698492 |
6 | 147,7039832 | 27,69601681 | 767,069347 |
7 | 162,6481004 | 30,05189964 | 903,116672 |
8 | 211,15334 | 8,546660019 | 73,04539747 |
9 | 228,2271962 | 12,27280381 | 150,6217134 |
10 | 259,9787556 | 11,92124441 | 142,1160683 |
11 | 287,0869999 | 9,513000056 | 90,49717006 |
12 | 323,118631 | 9,181369026 | 84,29753719 |
13 | 362,0252913 | 1,774708708 | 3,149590999 |
14 | 412,1639734 | -0,463973353 | 0,215271272 |
15 | 488,4280066 | -6,628006623 | 43,93047179 |
|
|
| 5149,238698 |
Вывод остатка 3 части |
|
| |
Наблюдение | Предсказанное Y | Остатки | Квадрат остатков |
1 | 952,4879468 | -20,08794679 | 403,5256063 |
2 | 1065,323563 | -35,02356259 | 1226,649937 |
3 | 1169,741509 | -19,94150852 | 397,663762 |
4 | 1283,742195 | -5,342195407 | 28,53905177 |
5 | 1437,388595 | -7,088595126 | 50,24818086 |
6 | 1607,833424 | -11,53342394 | 133,0198677 |
7 | 1788,27234 | -25,37233962 | 643,7556177 |
8 | 1984,444038 | -40,24403775 | 1619,582575 |
9 | 2114,218169 | -34,91816918 | 1219,278539 |
10 | 2292,551212 | -6,151212035 | 37,8374095 |
11 | 2487,61934 | 10,78066014 | 116,222633 |
12 | 2698,311017 | 14,28898308 | 204,1750374 |
13 | 2872,395466 | 22,80453406 | 520,0467739 |
14 | 3069,630542 | 35,66945819 | 1272,310248 |
15 | 3321,037855 | 35,56214522 | 1264,666173 |
|
|
| 9137,52141 |
Итак, принимаем гипотезу о том, что
H0: , т.е. разброс остатков постоянен
Альтернативная гипотеза
H1:
Проверяем с помощью критерия Фишера
Где k-размер выборки
m-число факторов
Fнабл=2,65
Fтабл(0,05; k-m-1; k-m-1) =3,52
Итак, Fнабл <Fтабл – нет оснований для отвержения гипотезы об отсутствии гетероскедастичности и постоянстве дисперсии. Можно утверждать, что данная модель – модель с гомоскедастичностью.
Рассмотрим теперь тест Уайта
Тест Уайта используется для проверки однородности дисперсий ошибок в модели наблюдений.
а) Строим регрессию для исходной модели и находим квадраты остатков.
б) Строим регрессию для квадрата остатков (модель имеет следующий вид):
Вводим гипотезы
H0: , т.е. факторы не влияют на квадрат остатков исходной модели
H1:
Найдем с помощью критерия Фишера
Если выполнены все стандартные предположения о модели наблюдений, то тогда отношение
имеет F— распределение Фишера с и степенями свободы.
Итак, Fнабл=2,13
Fтабл(0,05; 31; 4)=2,18223
Поскольку Fнабл<Fтабл, то нет оснований отвергать гипотезу H0 об отсутствии гетероскедастичности.
Критерий Уайта
Если выполнены все стандартные предположения о модели наблюдений, то тогда
имеет распределение χ²
Где n – число наблюдений
А N – число регрессоров в модели (здесь – 14)
χ²= 53,67196 (при α=0,05)
Поскольку , то нет оснований отклонять гипотезу H0 об отсутствии гетероскедастичности.
Итог: поскольку выполняются критерии Уайта и Голдфельда-Кванта можно утверждать, что в данной модели отсутствует гетероскедастичность и дисперсия остатков постоянна.
Теперь проверим наличие автокорреляции остатков с помощью критерия Дарбина-Уотсона.
Критерий Дарбина-Уотсона применяется для проверки гипотезы о наличии автокорреляции в остатках генеральной совокупности.
Коэффициент Дарбина-Уотсона находится как
Выдвигаем гипотезы
H0: , т. е. не существует автокорреляция остатков
Альтернативная гипотеза
H1:
Для сравнения табличных значений и расчетных строится специальная схема,
Статистика DW может принимать значения только от 0 до 4:
При попадании найденного значения DW в отрезок от 0 до dL имеет место положительная автокорреляция остатков.
При попадании найденного значения DW в отрезок от 4-dL для модели характерна отрицательная автокорреляция остатков
При попадании найденного показателя в отрезок от dU до 4-dU можно говорить о том, что отсутствует автокорреляция в остатках.
Строим схему для нашего случая (n=35, 5% уровень значимости)
Поскольку найденное значение попадает в интервал (1,73;2,27), то можно утверждать, что в модели отсутствует автокорреляция остатков.
Благодаря проведенному анализу мы выяснили, что найденные нами оценки являются эффективными, состоятельными и несмещенными, поскольку удовлетворяются требования к остаткам об отсутствии автокорреляции и гетероскедастичности.
Тест Чоу
Проверка Чоу позволяет ответить на вопрос, можно ли считать наборы параметров регрессионных уравнений (константа, регрессия), построенные для разных групп наблюдений, одинаковыми. Он применяется, когда возникает сомнение в том, что при всех наблюдениях параметры неизменны.
Исследуем для нашей модели влияние валового объема внутренних частных инвестиций на расходы на личное потребление в зависимости от валового внутреннего продукта.
Группируем валовой внутренний продукт по объему на две группы: меньше и больше 1200 млрд. $.
Годы | Расходы на личное потребление (млрд. $) | Валовой внутренний продукт (млрд. $) | Валовой объем внутренних частных инвестиций (млрд. $) | Личный доход (млрд. $) |
1939 | 67,2 | 92 | 9,3 | 73,1 |
1940 | 71,2 | 101,3 | 13,6 | 78,6 |
1942 | 88,9 | 161,8 | 10,4 | 123,8 |
1944 | 108,5 | 219,7 | 7,8 | 166,3 |
1946 | 144,2 | 222,3 | 31,1 | 179,5 |
1948 | 175,4 | 269,6 | 48,1 | 211,1 |
1950 | 192,7 | 294,3 | 54,1 | 229,9 |
1952 | 219,7 | 358,6 | 54 | 276,1 |
1954 | 240,5 | 381,1 | 53,8 | 295,2 |
1956 | 271,9 | 438 | 72 | 340 |
1958 | 296,6 | 467,9 | 64,5 | 370 |
1960 | 332,3 | 527,4 | 78,9 | 412,7 |
1962 | 363,8 | 586,5 | 88,1 | 457,9 |
1964 | 411,7 | 664,4 | 102,1 | 515,8 |
1966 | 481,8 | 789,3 | 131,3 | 606,4 |
1968 | 558,7 | 911,5 | 141,2 | 714,5 |
1970 | 648,9 | 1039,7 | 152,4 | 841,1 |
1971 | 702,4 | 1128,6 | 178,2 | 905,1 |
Годы | Расходы на личное потребление (млрд. $) | Валовой внутренний продукт (млрд. $) | Валовой объем внутренних частных инвестиций (млрд. $) | Личный доход (млрд. $) |
1972 | 770,7 | 1240,4 | 207,6 | 994,3 |
1973 | 852,5 | 1385,5 | 244,5 | 1113,4 |
1974 | 932,4 | 1501 | 249,4 | 1225,6 |
1975 | 1030,3 | 1635,2 | 230,2 | 1331,7 |
1976 | 1149,8 | 1823,9 | 292 | 1475,4 |
1977 | 1278,4 | 2031,4 | 361,3 | 1637,1 |
1978 | 1430,3 | 2295,9 | 436 | 1848,3 |
1979 | 1596,3 | 2566,4 | 490,6 | 2081,5 |
1980 | 1762,9 | 2795,6 | 477,9 | 2323,9 |
1981 | 1944,2 | 3131,3 | 570,8 | 2599,4 |
1982 | 2079,3 | 3259,2 | 516,1 | 2768,4 |
1983 | 2286,4 | 3534,9 | 564,2 | 2946,9 |
1984 | 2498,4 | 3932,7 | 735,5 | 3274,8 |
1985 | 2712,6 | 4213 | 736,3 | 3515 |
1986 | 2895,2 | 4452,9 | 747,2 | 3712,4 |
1987 | 3105,3 | 4742,5 | 781,5 | 3962,5 |
1988 | 3356,6 | 5108,3 | 821,1 | 4272,1 |
Далее мы находим регрессию для каждой модели и ищем
.
S1=396554,2
S2= 73002,24
Выдвигаем гипотезы
H0: , т.е. нет разницы между отрезками
H1:
Критерий Фишера
Итак,
F=1,114
Если выполнены все стандартные предположения о модели наблюдений, то тогда отношение
имеет F— распределение Фишера с и степенями свободы.
Fтабл (0,05; 25; 5)=2,37
Т.к Fнабл <Fтаб, нет оснований для отвержения гипотезы H0, значит, в зависимости от расстояния влияние остальных факторов не изменяется
Мы провели анализ модели, разделив исходную выборку на части, и приняли гипотезу о том, что при увеличении расстояния влияние остальных факторов на величину изучаемого явления неизменно.
На данном этапе мы проанализировали качество модели:
Добились того, что все факторы в нашей модели оказывают статистически значимое влияние на величину изучаемого явления (личное потребление);
Выяснили, что модель является адекватной, поскольку все включенные в модель факторы совместно оказывают статистически значимое влияние на изменение Y;
После анализа остатков обнаружили, что для данной модели выполняются все требования к остаткам, а именно: отсутствие гетероскедастичности и автокорреляции остатков;
С помощью теста Чоу мы подтвердили наше предположение о том, что наборы параметров регрессионных уравнений, построенные для разных групп наблюдений, можно считать одинаковыми.
Можно утверждать, что данная модель является адекватной, качество модели удовлетворяет и ее можно использовать для анализа и прогнозирования.
29
Регрессионная статистика |
|
|
|
|
|
|
| |
Множественный R | 0,999771083 |
|
|
|
|
|
|
|
R-квадрат | 0,999542218 |
|
|
|
|
|
|
|
Нормированный R-квадрат | 0,999497917 |
|
|
|
|
|
|
|
Стандартная ошибка | 22,12625828 |
|
|
|
|
|
|
|
Наблюдения | 35 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Дисперсионный анализ |
|
|
|
|
|
|
|
|
| df | SS | MS | F | Значимость F |
|
|
|
Регрессия | 3 | 33137540,23 | 11045846,74 | 22562,28382 | 7,90717E-52 |
|
|
|
Остаток | 31 | 15176,71047 | 489,5713054 |
|
|
|
|
|
Итого | 34 | 33152716,94 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| Коэффициенты | Стандартная ошибка | t-статистика | P-Значение | Нижние 95% | Верхние 95% | Нижние 95,0% | Верхние 95,0% |
Y-пересечение | 84,50779215 | 37,94240843 | 2,227264838 | 0,033326323 | 7,123740279 | 161,891844 | 7,123740279 | 161,891844 |
Переменная X 1 | 0,441873224 | 0,195048302 | 2,265455369 | 0,030619062 | 0,04406959 | 0,839676857 | 0,04406959 | 0,839676857 |
Переменная X 2 | -0,602774728 | 0,256443222 | -2,350519247 | 0,025288233 | -1,12579412 | -0,079755331 | -1,12579412 | -0,07975533 |
Переменная X 3 | 0,260911156 | 0,228160374 | 1,143542811 | 0,26156747 | -0,20442499 | 0,726247306 | -0,20442499 | 0,726247306 |
Приложение
Регрессионный анализ первоначальной модели
Регрессионный анализ новой модели
Регрессионная статистика |
|
|
|
|
|
|
| |
Множественный R | 0,999769022 |
|
|
|
|
|
|
|
R-квадрат | 0,999538098 |
|
|
|
|
|
|
|
Нормированный R-квадрат | 0,999509229 |
|
|
|
|
|
|
|
Стандартная ошибка | 21,87557505 |
|
|
|
|
|
|
|
Наблюдения | 35 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Дисперсионный анализ |
|
|
|
|
|
|
| |
| df | SS | MS | F | Значимость F |
|
|
|
Регрессия | 2 | 33137403,63 | 16568701,82 | 34623,38503 | 4,29336E-54 |
|
|
|
Остаток | 32 | 15313,30509 | 478,540784 |
|
|
|
|
|
Итого | 34 | 33152716,94 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| Коэффициенты | Стандартная ошибка | t-статистика | P-Значение | Нижние 95% | Верхние 95% | Нижние 95,0% | Верхние 95,0% |
Y-пересечение | -26,0332689 | 5,639241808 | -4,616448413 | 6,037E-05 | -37,5200285 | -14,5465092 | -37,52 | -14,5465 |
Переменная X 1 | 0,753408323 | 0,025376799 | 29,68886367 | 7,32588E-25 | 0,701717475 | 0,80509917 | 0,701717 | 0,805099 |
Переменная X 2 | -0,610844734 | 0,146932216 | -4,157323354 | 0,000224656 | -0,91013586 | -0,31155360 | -0,91014 | -0,31155 |
29
Информация о работе Построение многофакторной регрессионной модели