Модели бинарного выбора (logit- и probit модели)

Автор работы: Пользователь скрыл имя, 27 Января 2015 в 17:13, контрольная работа

Краткое описание

Предметом контрольной работы являются эконометрические модели.
Цель работы рассмотреть и раскрыть теоретические аспекты эконометрических моделей бинарного выбора. Формулировка темы обусловила постановку следующей задачи:
– рассмотреть модели с бинарной переменной (логит и пробит).

Прикрепленные файлы: 1 файл

КР Эконометрика.docx

— 372.57 Кб (Скачать документ)

Министерство образования и науки РФ

Федеральное государственное бюджетное образовательное

Учреждение высшего профессионального образования

«Сибирская государственная автомобильно-дорожная

академия (СибАДИ)»

 

 

Кафедра: «Экономика и управление на предприятии»

 

 

 

 

КОНТРОЛЬНАЯ   РАБОТА

по дисциплине: «Эконометрика»

 

Тема: «Модели бинарного выбора (logit- и probit модели)».

 

 

 

 

 

 

 

 

 

 

 

 

 

Омск  2014

СОДЕРЖАНИЕ:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Введение

 

   Модель бинарного выбора — применяемая в эконометрике модель зависимости бинарной переменной (принимающей всего два значения — 0 и 1) от совокупности факторов. Построение обычной линейной регрессии для таких переменных теоретически некорректно, так как условное математическое ожидание таких переменных равно вероятности того, что зависимая переменная примет значение 1, а линейная регрессия допускает и отрицательные значения и значения выше 1. Поэтому обычно используются некоторые интегральные функции распределения. Чаще всего используются нормальное распределение (пробит), логистическое распределение (логит), распределение Гомперца (гомпит).

Probit и logit модели применяются для оценки качественных переменных, где применение линейного оценивания затруднено рядом причин. Другими словами, если мы хотим спрогнозировать некоторую величину, причем эта величина бинарная, т.е. может принимать только два значения, то логит - и пробит модели могут оказать нам незаменимую услугу.

Предметом контрольной работы являются эконометрические модели.

Цель работы рассмотреть и раскрыть теоретические аспекты эконометрических моделей бинарного выбора. Формулировка темы обусловила постановку следующей задачи:

– рассмотреть модели с бинарной переменной (логит и пробит).

 

 

 

 

 

 

 

1. Сущность модели

 

Пусть переменная Y является бинарной, то есть может принимать только два значения, которые для упрощения предполагаются равными 1 и 0. Например, Y может означать наличие /отсутствие, каких либо условий, успех или провал чего-либо, ответ да/нет в опросе и т. д. Пусть также имеется вектор регрессоров (факторов) X, которые оказывают влияние на Y.

Регрессионная модель имеет дело с условным по факторам математическим ожиданием зависимой переменной, которая в данном случае равна вероятности того, что зависимая переменная равна 1. В самом деле, по определению математического ожидания и с учетом всего двух возможных значений имеем1:

В связи с этим применение, например, стандартной модели линейной регрессии теоретически некорректно хотя бы потому, что вероятность по определению принимает ограниченные значения от 0 до 1. В связи с этим разумно моделировать p(x) через интегральные функции тех или иных распределений.

Обычно предполагается, что имеется некая скрытая (не наблюдаемая) "обычная" переменная Y*, в зависимости, от значений которой наблюдаемая переменная Y принимает значение 0 или единица:

Предполагается, что скрытая переменная зависит от факторов X в смысле обычной линейной регрессии , где случайная ошибка имеет распределение F. Тогда:

 Если распределение симметричное, то можно записать:

Экономическая интерпретация

Ещё одно обоснование заключается в использовании понятия полезности альтернатив — не наблюдаемой функции , то есть фактически двух функций и соответственно для двух альтернатив. Логично предположить, что если при заданных значениях факторов полезность одной альтернативы больше полезности другой, то выбирается первая и наоборот. В связи с этим разумно рассмотреть функцию разности полезностей альтернатив:

  .

Если она больше нуля, то выбирается первая альтернатива, если меньше или равна нулю — то вторая. Таким образом, функция разности полезностей альтернатив здесь выполняет роль той самой скрытой переменной. Наличие случайной ошибки в моделях полезностей позволяет учесть не абсолютную детерминированность выбора (по крайней мене не детерминированность данным набором факторов, хотя элемент случайности выбора есть при любом наборе факторов).

 

Модели по видам распределений

Пробит. В пробит - модели в качестве F используется интегральная функция стандартного нормального распределения Ф:

 

Логит. В логит - модели используется CDF логистического распределения:

 

Гомпит. Используется распределение экстремальных значений - распределение Гомперца:

 

Оценка параметров

Оценка обычно производится методом максимального правдоподобия. Пусть имеется выборка объёма n  факторов  X и зависимой переменной Y. Для данного номера наблюдения используем индекс t. Вероятность получения в наблюдении t значения yt  можно смоделировать следующим образом:

В самом деле, если , то второй множитель очевидно равен 1, а первый как раз , если же , то первый множитель равен единице, а второй — . Предполагается, что данные независимы. Поэтому функцию правдоподобия можно получить как произведение вышеуказанных вероятностей:

Соответственно логарифмическая функция правдоподобия имеет вид:

Максимизация данной функции по неизвестным параметрам позволяет получить состоятельные, асимптотически эффективные и асимптотически нормальные оценки параметров. Последнее означает, что:

где     — асимптотическая ковариационная матрица оценок параметров, которая определяется стандартным для метода максимального правдоподобия способом (через гессиан или градиент логарифмической функции правдоподобия в оптимальной точке).

 

2. Показатели качества и тестирование модели

 

Предлагается два вида моделей выбора, которые могли бы порождать интересующее нас распределение зависимой переменной: пороговая модель и модель, основанная на полезности альтернатив. Идея пороговой модели уже обрисована выше. Предполагается, что в основе выбора лежит ненаблюдаемая переменная Y, математическое ожидание которой является линейной комбинацией набора регрессоров X: Y =  bX + e. Наблюдается только дискретная величина Y, которая связана с Y следующим образом: если Y больше некоторой пороговой величины C, то Y = 1, если меньше, то Y = 0. Как обычно предполагается, что ошибки e i имеют нулевое математическое ожидание, одинаково распределены и независимы. Величину C можно принять равной нулю2. 

Другая модель предполагает, что выбор осуществляется на основе ненаблюдаемой полезности альтернатив u(Y, X). Если u(1, X) > u(0, X), то выбираем 1, если u(0, X) < u(1, X), то выбираем 0. В простейшем случае полезность является линейной функцией регрессоров: 

u(1, X=)  u1 =Xb1 ,             u(0, X=)  u0 = Xb0. 

Чтобы модель была вероятностной, предполагается, что есть отклоняющие факторы, так что u1 = Xb1 + e1 , u0 = Xb0 + e0. Эта модель сводится к пороговой, если взять  Y=  u1 – u0 = X(b1 – b0) + e1– e0 = Xb + e, а в качестве порога — ноль. Выведем теперь из распределения e распределение Y, а из распределения Y — распределение Y. 2

Есть два удобных вида распределения, которые обычно используют для описания отклонения e. 

1. Логистическое распределение. 

Плотность логистического распределения равна ez / (1+ez)2  (см. Рис. 3), а функция распределения равна 1 / (1+e-z) (ее называют логистой). Модель с бинарной зависимой переменной с логистически распределенным отклонением называют логит.

Для логита E (Y | X) = 1 – 1 / (1+eXB) = 1 / (1+e-XB)

 
 Рис. 3

2. Нормальное распределение. 

Модель с нормально распределенным отклонением называют пробит.

Для пробита 

Логистическое распределение очень похоже на нормальное. Различить, когда следует применять логит, а когда — пробит, в малых выборках невозможно. Оценки коэффициентов b отличаются множителем, который практически постоянен.

Оценка качества модели и проверка гипотез

Пробит и логит обычно оценивают методом максимального правдоподобия. Существуют также упрощенные методы, использующие сгруппированные наблюдения. Предположим, что методом максимального правдоподобия получен вектор оценок b. Как в этом случае можно судить о качестве модели и проверять гипотезы?

Величину Y= Xb  можно назвать по аналогии с линейной регрессией расчетными значениями. Она является оценкой математического ожидания ненаблюдаемой величины Y, сравнивая которую с нулем делают выбор между 0 и 1. Уравнение Y(X) = 0 задает ту гиперплоскость, которой разделяются две группы точек — те точки, для которых предсказано Yi = 0, и те точки, для которых предсказаноYi = 1 (с помощью критерия Y i < 0Þ0, a Y i >0 Þ 1). Поэтому наглядно о качестве модели можно судить по диаграмме соответствующих точек по Y: чем лучше разделены две группы точек, тем более качественна модель. О качестве модели можно судить также по графику оценки E (Y) по . Этот график в случае “хорошей” модели должен быть "крутой" в нуле. (См. Рис. 4)

 
 
Рис. 4

На этих двух графиках слева внизу и справа вверху расположены правильно предсказанные точки, а слева вверху и справа внизу — неправильно. То же самое можно представить таблицей: 

 

 
Понятно, что "хорошая" модель должна давать высокий процент правильных предсказаний. 

Для проверки набора ограничений на параметры удобно использовать статистику отношения правдоподобия LR = 2 (l (b) – l (b R)), где

 
- логарифмическая функция правдоподобия,  
b — оценка методом максимума правдоподобия без ограничений,  
 bR — оценка при ограничениях. 

Эту же статистику можно использовать для построения показателя качества модели, аналогичного F-статистике для линейной регрессии. Это статистика для проверки гипотезы о том, что коэффициенты при всех регрессорах, кроме константы, равны одновременно нулю. Соответствующая статистика отношения правдоподобия равна LR0 = 2(ℓ(b) – ℓ0) , где ℓ 0 – максимум логарифмической функции правдоподобия для константы. Она распределена асимптотически как X2 с k–1 степенями свободы, где k – количество параметров в исходной модели, включая константу. Величина l получается следующим образом. Пусть N – общее количество наблюдений, n0 – количество наблюдений, для которых Yi = 0, n1 – количество наблюдений, для которых Yi  = 1. Тогда предсказанная вероятность появления Yi = 1 в модели с одной константой будет равна для всех наблюдений n1 /N . Отсюда ℓ0 = n0 ℓnn0 + n1 ln n1 – N lnN. Еще один показатель качества модели, основанный на максимуме функции правдоподобия — информационный критерий Акаике3:

 

Для моделей с бинарной зависимой переменной можно сконструировать и некий аналог коэффициента детерминации — псевдо-R2: 

где Y— среднее Yi , s 2 — дисперсия ошибки e, которая равна 1 для пробита и для логита. 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Заключение

 

Модели дискретного выбора (иначе называемые моделями качественного отклика) – определяют вероятностное распределение дискретных зависимых переменных как функцию независимых переменных и неизвестных параметров. Их применение в эконометрике определяется тем, что решение экономического субъекта часто включает дискретный выбор (например, решение поступать на работу или не поступать, выбор занятия, выбор маршрута перевозки груза).

В каком-то смысле эти модели противоположны агрегированным макроэкономическим моделям, которые описывают массовые, а не индивидуальные факты. В разных постановках модели дискретного выбора в качестве математического аппарата применяют цепи Маркова, модели с бинарными переменными, многомерные модели (совместное распределение вероятностей для двух или большего числа дискретных зависимых переменных), случайные выборки и др.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Список литературы

 

  1. Магнус Я. Р., Катышев П. К., Пересецкий А. А. Эконометрика. Начальный курс. — М.: Дело, 2007. — 504 с. — ISBN 978-5-7749-0473-0.
  2. Носко В.П. Эконометрика для начинающих (Дополнительные главы). – М.: ИЭПП, 2005. С. 379.
  3. Greene, William H. (1997) Econometric Analysis, 3rd edition, Prentice-Hall.
  4. Andrews, Donald W.K. (1988) “Chi-Square Diagnostic Tests for Econometric Models: Theory,” Econometrica, 56, 1419–1453.
  5. Andrews, Donald W.K. (1988) “Chi-Square Diagnostic Tests for Econometric Models: Introduction and Applications,” Journal of Econometrics, 37, 135–156.
  6. Hosmer, David W. Jr. and Stanley Lemeshow (1989) Applied Logistic Regression, John Wiley & Sons.

 

 

1 Магнус Я. Р., Катышев П. К., Пересецкий А. А. Эконометрика. Начальный курс. — М.: Дело, 2007. — 504 с. — ISBN 978-5-7749-0473-0.

 

2 Носко В.П. Эконометрика для начинающих (Дополнительные главы). – М.: ИЭПП, 2005. С. 379.

 

3 Andrews, Donald W.K. (1988) “Chi-Square Diagnostic Tests for Econometric Models: Introduction and Applications,” Journal of Econometrics, 37, 135–156.

 

 

 


Информация о работе Модели бинарного выбора (logit- и probit модели)