Автор работы: Пользователь скрыл имя, 04 Декабря 2013 в 18:33, доклад
Множественная регрессия широко используется в решении проблем спроса, доходности акций, при изучении функции издержек производства, в макроэкономических расчетах и в ряде других вопросов экономики. В настоящее время множественная регрессия – один из наиболее распространенных методов в эконометрике. Основной целью множественной регрессии является построение модели с большим числом факторов, а также определение влияния каждого фактора в отдельности и совокупного их воздействия на моделируемый показатель.
Перечислим основные последствия мультиколлинеарности:
Единого подхода к устранению мультиколлинеарности не существует. Существует ряд методов, которые не являются универсальными и применимы в конкретных ситуациях.
Простейшим методом устранения мультиколлинеарности является исключение из модели одной или нескольких коррелированных переменных. Здесь необходима осторожность, чтобы не отбросить переменную, которая необходима в модели по своей экономической сущности, но зачастую коррелирует с другими переменными (например, цена блага и цены заменителей данного блага).
Иногда для устранения мультиколлинеарности достаточно увеличить объем выборки. Например, при использовании ежегодных данных можно перейти к поквартальным данным. Это приведёт к сокращению дисперсии коэффициентов регрессии и увеличению их статистической значимости. Однако при этом можно усилить автокорреляцию, что ограничивает возможности такого подхода.
В некоторых случаях изменение спецификации модели, например, добавление существенного фактора, решает проблему мультиколлинеарности. При этом уменьшается остаточная СКО, что приводит к уменьшению стандартных ошибок коэффициентов.
В ряде случаев минимизировать либо вообще устранить проблему мультиколлинеарности можно с помощью преобразования переменных.
Например, пусть эмпирическое уравнение регрессии имеет вид:
где факторы коррелированы. Здесь можно попытаться определить отдельные регрессии для относительных величин:
(40)
Возможно, что в моделях, аналогичных (40), проблема мультиколлинеарности будет отсутствовать.
Теперь рассмотрим другой вопрос, имеющий важное значение для проблем, связанных со спецификацией модели множественной регрессии. Это частная корреляция. С помощью частных коэффициентов корреляции проводится ранжирование факторов по степени их влияния на результат. Кроме того, частные показатели корреляции широко используются при решении проблем отбора факторов: целесообразность включения того или иного фактора в модель доказывается величиной показателя частной корреляции.
Частные коэффициенты корреляции характеризуют
тесноту связи между
Показатели частной корреляции представляют собой отношение сокращения остаточной дисперсии за счет дополнительного включения в модель нового фактора к остаточной дисперсии, имевшей место до введения его в модель.
Высокое значение коэффициента парной корреляции между исследуемой зависимой и какой – либо независимой переменной может означать высокую степень взаимосвязи, но может быть обусловлено и другой причиной, например, третьей переменной, которая оказывает сильное влияние на две первые, что и объясняет их высокую коррелированность. Поэтому возникает задача найти «чистую» корреляцию между двумя переменными, исключив (линейное) влияние других факторов. Это можно сделать с помощью коэффициента частной корреляции.
Коэффициенты частной
Для простоты предположим, что имеется
двухфакторная регрессионная
(41)
и имеется набор наблюдений . Тогда коэффициент частной корреляции между у и, например, х1 после исключения влияния х2 определяется по следующему алгоритму:
(42)
Значения частных
Существует тесная связь между
коэффициентом частной
(43)
где - обычный коэффициент корреляции.
Описанная выше процедура обобщается на случай, когда исключается влияние нескольких переменных. Для этого достаточно переменную х2 заменить на набор переменных Х2, сохраняя определение (42) (при этом можно в число исключаемых переменных вводить и у, определяя частную корреляцию между факторами).
Другой способ определения коэффициентов частной корреляции – матричный. Обозначив для удобства зависимую переменную как х0, запишем определитель матрицы парных коэффициентов корреляции в виде:
(44)
Тогда частный коэффициент корреляции определяется по формуле:
, (45)
где Rii - алгебраическое дополнение для элемента rii в определителе (44).
Существует ещё один способ расчета – по рекуррентной формуле. Порядок частного коэффициента корреляции определяется количеством факторов, влияние которых исключается. Например, - коэффициент частной корреляции первого порядка. Соответственно коэффициенты парной корреляции называются коэффициентами нулевого порядка. Коэффициенты более высоких порядков можно определить через коэффициенты более низких порядков по рекуррентной формуле:
(46)
Если исследователь имеет дело лишь с тремя – четырьмя переменными, то удобно пользоваться соотношениями (46). При больших размерностях задачи удобнее расчет через определители, т.е. по формуле (45). В соответствии со смыслом коэффициентов частной корреляции можно записать формулу:
(47)
При исследовании статистических свойств выборочного частного коэффициента корреляции порядка k следует воспользоваться тем, что он распределен точно так же, как и обычный парный коэффициент корреляции с единственной поправкой: объём выборки надо уменьшить на k единиц, т.е. полагать его равным n-k, а не n.
Пример. По итогам года 37 однородных предприятий легкой промышленности были зарегистрированы следующие показатели их работы: у – среднемесячная характеристика качества ткани (в баллах), х1 – среднемесячное количество профилактических наладок автоматической линии; х2 – среднемесячное количество обрывов нити.
По исходным данным были подсчитаны выборочные парные коэффициенты корреляции:
Проверка статистической значимости
этих величин показала отсутствие значимой
статистической связи между результативным
признаком и каждым из факторов,
что не согласуется с
которые вполне соответствуют нашим представлениям о естественном характере связей между изучаемыми показателями.
Теперь остановимся на специальных процедурах спецификации модели множественной регрессии, которые обычно называются процедурами пошагового отбора переменных.
Иногда исследователь заранее знает характер зависимости исследуемых величин, опираясь на экономическую теорию, предыдущие результаты или априорные знания, и его задача состоит лишь в оценивании неизвестных параметров. Классическим примером является оценивание параметров производственной функции Кобба – Дугласа, где заранее известно, что в качестве факторов выступают капиталовложения и трудозатраты.
Однако на практике чаще имеется большое число наблюдений различных независимых переменных, но нет априорной модели изучаемого явления. Возникает проблема, какие переменные включать в регрессионную схему.
В компьютерные пакеты включены различные эвристрические процедуры пошагового отбора факторов. Основными пошаговыми процедурами являются:
Рассмотрим вкратце одну из широко применяемых процедур, которая относится к процедурам последовательного присоединения. Это процедура «всех возможных регрессий».
Для заданного значения k (k=1,2,…,p-1) путем полного перебора всех возможных комбинаций из k объясняющих переменных, отобранных из исходного набора факторов , определяются такие переменные , для которых коэффициент детерминации с результатом был бы максимальным.
Таким образом, на первом шаге процедуры (k=1) находят одну объясняющую переменную, которую можно назвать наиболее информативным фактором при условии, что в регрессионную модель допускается включить только одну переменную из первоначального набора. На втором шаге определяется уже наиболее информативная пара переменных из исходного набора, и эта пара будет иметь наиболее тесную статистическую связь с результатом. Вообще говоря, в состав этой пары может не войти переменная, объявленная наиболее информативной среди всех моделей с одной переменной. На третьем шаге (k=3) будет отобрана наиболее информативная тройка факторов, на четвертом (k=4) – наиболее информативная четверка объясняющих переменных и т.д.
В качестве критерия останова этой процедуры, т.е. выбора оптимального числа k0 факторов, которые следует включить в модель, предлагается следующее. На каждом шаге вычисляется нижняя доверительная граница коэффициента детерминации
(48)
где - скорректированный коэффициент детерминации для k наиболее информативных факторов, - обычный коэффициент детерминации. В соответствии с критерием останова следует выбирать k0, при котором величина (48) достигает своего максимума.
Следует признать, что пошаговые процедуры, вообще говоря, не гарантируют получения оптимального (в смысле критерия максимума коэффициента детерминации) набора факторов. Однако в подавляющем большинстве ситуаций получаемые с помощью пошаговой процедуры наборы переменных оказываются оптимальными или близкими к оптимальным.