Автор работы: Пользователь скрыл имя, 17 Февраля 2013 в 12:01, методичка
Эконометрика – наука, которая дает количественное выражение взаимосвязей экономических явлений и процессов, т.е. осуществляет количественный анализ реальных экономических явлений – определение Самуэльсона. Более широкий подход – эконометрика – это любое приложение математических и статистических методов к изучению экономических процессов.
Один из вариантов построения модели МЛР.
Пункт 1.
Строим матрицу парных корреляций. Если корреляция Y с каждым из факторов достаточно высокая (>0,7), а межфакторная корреляция низкая (<0,3) – то мультиколлинеарность отсутствует. Строим модель МЛР в Excel и переходим к П.2 Если это не так, т.е. обнаружена мультиколлинеарность, то переходим П5.
Пункт 2.
Оцениваем значимость построенной модели по фактору Фишера. Значимость F – это вероятность того, что для генеральной совокупности F =0, (то же самое – найдется такая выборка, для которой R2 =0), т.е. регрессия в целом статистически незначима (блок 2 –значимость F). Если значимость F<0,01, то модель признаем значимой с надежностью 99%,
если 0,01< значимость F< 0,05, то модель признаем значимой с надежностью 95%. Если значимость F>0,05, то для уровня надежности 95% принимаем гипотезу о незначимости модели в целом. Вывод: с надежностью 95% невозможно утверждать, что рассматриваемые факторы оказывают систематического влияние на объясняемую переменную и ничего, кроме c надежностью 95% сказать нельзя. В этом случае – Пункт 4.
Пункт 3.
Если модель значима с удовлетворительной надежностью, то оцениваем значимость каждого из полученных коэффициентов модели, т.е. a, b1, b2, …bk по соответствующим P-значениям. Если для коэффициента bi P-значение меньше, чем 0,05, то с надежностью 95% этот коэффициент отличен от нуля, и соответствующий фактор должен присутствовать в модели МЛР. Если для коэффициента bi P-значение больше, чем 0,05, то при уровне надежности в 95% принимаем гипотезу bi =0. Вывод: влияние фактора Xi на Y признаем статистически незначимым. В этом случае фактор Xi следует исключить из модели и заново рассчитать параметры МЛР без него. Если таких факторов оказывается несколько, то следует удалять их из модели по одному, каждый раз заново пересчитывая МЛР. Первым следует удалить тот из факторов, для которого P-значение максимально. Так – до тех пор, пока не будет получена модель, в которой все факторы значимы.
Пункт 4.
Если модель регрессии в целом оказалась незначимой, то можно попытаться улучшить модель:
Пункт 5.
Если в матрице корреляций
прослеживается мультиколлинеарность,
то тем не менее параметры МЛР
по МНК формально можно построить.
Модели типа ANOVA и ANCOVA.
Часто случается так, что отдельные факторы, которые мы хотели бы ввести в регрессионную модель, являются качественными по своей природе и, следовательно, не измеряются в числовой шкале.
При исследовании регрессионных зависимостей отдельные факторы могут иметь не количественный, а качественный характер. Например, исследуется зависимость между возрастом и доходом населения по выборке, в которой представлены данные по лицам как мужского, так и женского пола. Необходимо выяснить, обусловлены ли различия в результатах полом индивидуума.
В принципе, возможным решением было бы оценивание отдельных регрессий для двух указанных категорий с последующим выяснением, различаются ли полученные коэффициенты. Другой возможный подход состоит в оценивании единой регрессии с использованием всей совокупности наблюдений и измерением степени влияния качественного фактора при помощи введения так называемой фиктивной переменной.
Второй подход обладает двумя важными преимуществами: во-первых, имеется простой способ проверки, является ли воздействие качественного фактора значимым; во-вторых, при условии выполнения определенных предположений регрессионные оценки оказываются более эффективными.
Для исследования влияния качественных признаков в регрессионную модель вводятся фиктивные, или бинарные, переменные, которые, как правило, принимают значение 1, если данный качественный признак присутствует в наблюдении, и значение 0 при его отсутствии.
Фиктивная переменная d – такая же «равноправная» переменная, как и любая другая экзогенная переменная (х). Ее «фиктивность» состоит только в том, что она количественным образом описывает качественный признак.
Рассмотрим введение фиктивной переменной для случая парной регрессии.
Пример 1. При исследовании зависимости зарплаты от различных факторов возник вопрос, влияет ли на ее величину наличие у работника высшего образования.
Y = {у1, …, уn} – величина зарплаты;
Х = {х1, …, хn} – влияющие на нее показатели;
Предполагается линейная зависимость между переменными:
у = α + β х + u
Введем новую, бинарную, переменную d, полагая, что di=1, если в i-м наблюдении работник имеет высшее образование и di =0 в противном случае. Тогда модель примет вид:
у = α + β х + g d + u
В этом случае средняя зарплата у составит α + β х при отсутствии высшего образования и α + β х + g при его наличии.
g интерпретируется как среднее изменение зарплаты при переходе из одной категории (без высшего образ.) в другую (с высшим образованием) при неизменных значениях остальных параметров.
Если включаемый в рассмотрение качественный признак принимает не два, а несколько значений, то целесообразно использовать несколько бинарных переменных.
Типичным примером подобной ситуации является исследование сезонных колебаний.
Пример 2. Пусть уt – объем потребления некоторого продукта в месяц t, и есть все основания считать, что потребление его зависит от времени года. Для выявления влияния сезонности можно ввести три бинарные переменные d1t, d2t, d3t:
d1t = 1, если месяц является зимним и d1t = 0 в остальных случаях;
d2t = 1, если месяц является весенним и d2t = 0 в остальных случаях;
d3t = 1, если месяц является летним и d3t = 0 в остальных случаях.
Четвертая бинарная переменная, относящаяся к осени, не вводится, поскольку иначе тогда для любого месяца t выполнялось бы тождество d1t + d2t + d3t + d4t = 1, что означало бы линейную зависимость регрессоров и делало бы невозможным получение оценок по МНК.
Теперь можно оценить уравнение
у = α + β1 d1t + β2 d2t + β3 d3t + et.
Такая ситуация, когда сумма фиктивных переменных тождественно равна константе, также включенной в регрессию, фактически означает, что среднемесячный объем потребления
для осенних месяцев равен α,
для зимних месяцев - α + β1,
для весенних - α + β2,
для летних - α + β3.
Таким образом, оценки коэффициентов β1, β2, β3 показывают сезонные отклонения в объеме потребления по отношению к осенним месяцам. Тестируя, например, стандартную гипотезу β3 = 0 (статистика Стьюдента), мы проверяем предположение о несущественном различии в объеме потребления между летним и осенним сезоном.
Фиктивные переменные, несмотря на свою внешнюю простоту, являются весьма гибким инструментом при исследовании влияния качественных признаков.
Рассмотрим еще один пример.
Пример 3. К предыдущей модели, где рассматривались сезонные различия лишь для среднемесячного объема потребления, добавим новую переменную – доход, используемый на потребление данного товара. Изначально уравнение регрессии объема потребления на доход, используемый на потребление, выглядит так:
у = α + β х + u,
где уt – объем потребления товара в месяц t;
хt – доход, используемый на потребление в месяц t.
Коэффициент β здесь носит название «склонность к потреблению». Ставится задача исследовать влияние сезона на склонность к потреблению.
Для этого можно рассмотреть модель:
у = α + β1 d1t + β2 d2t + β3 d3t +
+ β4 d1t хt + β5 d2t хt + β6 d3t хt+ β7 хt + et .
Здесь склонность к потреблению осенью есть β7,
зимой - β4 + β7,
весной - β5 + β7,
летом - β6 + β7.
Фиктивные переменные позволяют также строить и оценивать так называемые кусочно-линейные модели, которые можно применять для исследования структурных изменений.
Пример 4. Исследуется зависимость объема продукции у, выпущенной некоторым предприятием, от размера основных фондов предприятия х. Данные по х и у представлены в виде временных рядов. Есть основания считать, что в некоторый момент времени t0 произошла структурная перестройка и линия регрессии будет отличаться от той, что была до момента t0, но общая линия остается непрерывной.
Чтобы оценить такую модель, введем бинарную переменную d, полагая, что dt = 0, если t £ t0 и dt = 1, если t > t0 . Запишем регрессионное уравнение:
у = α + β1 хt + β2 ( хt -хt0 )+ et .
Линия регрессии имеет
коэффициент наклона β1
для t £ t0
и
β1 + β2 для t > t0 и разрыва
в точке x(t0) не происходит.
Т. о., тестируя гипотезу β2 = 0, мы проверяем предположение о том, что фактически структурного сдвига не произошло.
Этот подход можно обобщить и на случай нескольких структурных изменений в пределах одного временного интервала.
При использовании моделей множественной регрессии, когда, в отличие от парной, на объясняемую переменную влияет не один, а несколько показателей, могут возникать различные проблемы, связанные с выбором этих показателей. Рассмотрим одну из них.
Мультиколлинеарность – это понятие, которое используется для описания проблемы, когда нестрогая линейная зависимость между объясняющими переменными приводит к получению ненадежных оценок регрессии.
Эта проблема является обычной для регрессий временных рядов, т.е. когда данные состоят из ряда наблюдений в течение какого-то периода времени. Если две или более независимые переменные имеют ярко выраженный временной тренд, то они будут тесно коррелированы, что может привести к мультиколлинеарности.
Если одна из экзогенных переменных является линейной комбинацией второй, то имеет место полная коллинеарность. На практике она встречается редко. Гораздо чаще между регрессорами существует не абсолютная корреляция (R=1), а высокая (R>0,7). Тогда говорят о наличии мультиколлинеарности. В этом случае оценки по МНК формально существуют, но обладают «плохими» свойствами.
Характерные признаки мультиколлинеарности.
Для обнаружения
Например, исследуется влияние различных показателей на цену производимого изделия.
1) На 1 этапе предположим, что на цену изделия (у) влияет себестоимость изготовления изделия (х1) и стоимость сырья (х2).
По результатам проведения регрессионного анализа записано уравнение связи: у = 200 + 60 х1 – 12 х2.
Коэффициент при х2 выглядит неправдоподобным. Скорее всего, и его оценка значимости покажет плохой результат (Р-зн. ³ 0,05). Анализируя ситуацию, приходим к выводу, что переменные х1 и х2 линейно связаны между собой – мультиколлинеарность.
Исключаем из модели х2 и заново проводим регрессионный анализ.
2) Полученное на 2 этапе уравнение регрессии выглядит следующим образом: у = 450 + 90 х1.
Слишком большая величина константы а0 показывает, что в модель не включены какие-то существенные факторы. Добавим в модель в качестве объясняющих переменных показатели объема выпуска продукции (х3) и накладных расходов (х4).
3) Новое уравнение регрессии: у = 25 + 80 х1 + 40 х3 – 25 х4.
В данном случае опять выглядит неправдоподобным коэффициент при х4. Скорее всего, это подтвердится и величиной Р-значения. Исключаем данный фактор из модели.
4) Окончательный вид связи: у = 30 + 75 х1 + 46 х3.
Методы, используемые для
смягчения
2) попытки повысить степень выполнения
четырех условий Гаусса-Маркова, обеспечивающих надежность
оценок регрессии.
К действиям, смягчающим мультиколлинеарность, относятся: