Многофакторный регрессионный анализ

Автор работы: Пользователь скрыл имя, 06 Апреля 2014 в 20:42, контрольная работа

Краткое описание

Множественный регрессионный анализ это метод установления зависимости одной переменной от двух или более независимых переменных. В то время как зависимая переменная (та переменная, которую нужно предсказать) должна быть непрерывной (за исключением логистической регрессии), независимые переменные могут быть как прерывными, так и категориальными, такими как пол или тип применяемого препарата. В случае категориальных независимых переменных необходимо будет создавать переменные пустышки, а не использовать соответствующие значения .Если все независимые переменные являются категориальными (или большинство из них являются категориальными), то в этом случае лучше использовать дисперсионный анализ.

Содержание

Введение

1. Многофакторный регрессионный анализ.
2. Нахождение двухфакторной модели линейной регрессии.
3. Использование пакета «Анализ данных» для расчета параметров парной и многофакторной регрессии.

Прикрепленные файлы: 1 файл

моделирование №3.doc

— 200.00 Кб (Скачать документ)

 


 


Тема

 

Многофакторный регрессионный анализ

 

План

Введение

 

1. Многофакторный регрессионный  анализ.

2. Нахождение двухфакторной  модели линейной регрессии.

3. Использование пакета  «Анализ данных» для расчета  параметров парной и многофакторной  регрессии.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Введение.

    

Концепция и методы, используемые во множественном регрессионном анализе, практически те же, что и в простом регрессионном анализе, но с некоторыми модификациями и дополнениями, связанными с изучением нескольких факторов одновременно.

Множественный регрессионный анализ это метод установления зависимости одной переменной от двух или более независимых переменных. В то время как зависимая переменная (та переменная, которую нужно предсказать) должна быть непрерывной (за исключением логистической регрессии), независимые переменные могут быть как прерывными, так и категориальными, такими как пол или тип применяемого препарата. В случае категориальных независимых переменных необходимо будет создавать переменные пустышки, а не использовать соответствующие значения .Если все независимые переменные являются категориальными (или большинство из них являются категориальными), то в этом случае лучше использовать дисперсионный анализ.

     На мой взгляд, имеются две причины для использования множественной регрессии.  
Первая это использование множественной регрессии в тех исследованиях, когда значения независимых переменных находились под экспериментальным контролем (например, когда изменялось количество применяемого препарата, или количество дней между приемами препарата). Обычно подобный подход называется запланированная регрессия.  
Второй вариант включают ситуации, когда анализируется группа пациентов, у которых измерили некоторые количество естественно возникающих переменных (возраст, доход, уровень тревоги и т.д.), и эти переменные связываются с некой переменной, которая нас интересует. Обычно подобный подход называется не экспериментальная регрессия.  
Как указывалось выше, анализ на основе множественной регрессии основан на использовании более чем одной независимой переменной в уравнении регрессии. Это усложняет анализ, делая его многомерным. Однако регрессионная модель более полно отражает действительность, так как в реальности исследуемый параметр, как правило, зависит от множества факторов.  
      Так, например, при прогнозировании спроса идентифицируются факторы, определяющие спрос, определяются взаимосвязи, существующие между ними, и прогнозируются их вероятные будущие значения; из них при условии реализации условий, для которых уравнение множественной регрессии остается справедливым, выводится прогнозное значение спроса. Все, что касается множественной регрессии, концептуально является идентичным парной регрессии, за исключением того, что используется более чем одна переменная. Под этим углом зрения слегка изменяются терминология и статистические расчеты.

Целью контрольной работы является закрепление теоретического и практического материала по теме множественная регрессия,

Для достижения поставленной цели нам необходимо решить следующие задачи:

1.изучить литературу  по данной проблеме;

1. исследовать многофакторный регрессионный анализ;

2. знать нахождение двухфакторной модели линейной регрессии;

3.уметь пользоваться пакетом «Анализ данных» для расчета параметров парной и многофакторной регрессии.

 

 

 

 

 

 

 

1. Многофакторный регрессионный  анализ.

 

Общее назначение множественной регрессии (этот термин был впервые использован в работе Пирсона - Pearson, 1908) состоит в анализе связи между несколькими независимыми переменными и одной зависимой переменной.

     Изучение связи между тремя и более связанными между собой признаками носит название множественной (многофакторной) регрессии:  
Прогнозирование единственной переменной ^ У на основании двух или нескольких переменных X называется множественной регрессией.

Построение моделей множественной регрессии включает несколько этапов:  
выбор формы связи (уравнения регрессии); отбор факторных признаков;  
обеспечение достаточного объема совокупности.  
Выбор типа уравнения затрудняется тем, что для любой формы зависимости можно выбрать целый ряд уравнений, которые в определенной степени будут описывать эти связи. Основное значение имеют линейные модели в силу простоты и логичности их экономической интерпретации.  
Важным этапом построения уже выбранного уравнения множественной регрессии является отбор и последующее включение факторных признаков.  
С одной стороны, чем больше факторных признаков включено в уравнение, тем оно лучше описывает явление. Однако модель размерностью 100 и более факторных признаков сложно реализуема и требует больших затрат машинного времени. Сокращение размерности модели за счет исключения второстепенных, экономически и статистически несущественных факторов способствует простоте и качеству ее реализации. В то же время построение модели регрессии малой размерности может привести к тому, что такая модель будет недостаточно адекватна исследуемым явлениям и процессам.  
     Проблема отбора факторных признаков для построения моделей взаимосвязи может быть решена на основе интуитивно-логических или многомерных математико-статистических методов анализа.  
     Наиболее приемлемым способом отбора факторных признаков является шаговая регрессия (шаговый регрессионный анализ). Сущность метода шаговой регрессии заключается в реализации алгоритмов последовательного “включения”, “исключения” или “включения-исключения” факторов в уравнение регрессии и последующей проверке их статистической значимости. Алгоритм “включения” заключается в том, что факторы поочередно вводятся в уравнение так называемым «прямым методом». При проверке значимости введенного фактора определяется, на сколько уменьшается сумма квадратов остатков и увеличивается величина множественного коэффициента корреляции (R2).

   Одновременно используется и алгоритм последовательного «исключения», сущность которого заключается в том, что исключаются факторы, ставшие незначимыми по статистическим критериям. Фактор является незначимым, если его включение в уравнение регрессии только изменяет значения коэффициентов регрессии, не уменьшая суммы квадратов остатков и не увеличивая их значения.

 Если при включении  в модель соответствующего факторного  признака величина множественного коэффициента корреляции увеличивается, а коэффициента регрессии не изменяется (или меняется несущественно), то данный признак существенен и его включение в уравнение регрессии необходимо. В противном случае, фактор нецелесообразно включать в модель регрессии.  
При построении модели регрессии возможна проблема мультиколлинеарности, под которой понимается тесная зависимость между факторными признаками, включенными в модель. 
Наличие мультиколлинеарности между признаками приводит к 
искажению величины параметров модели, которые имеют тенденцию к завышению, чем осложняется процесс определения наиболее существенных факторных признаков; изменению смысла экономической интерпретации коэффициентов регрессии. В качестве причин возникновения мультиколлинеарности между признаками, можно выделить следующие:  
изучаемые факторные признаки являются характеристикой одной и той же стороны изучаемого явления или процесса;  
факторные признаки являются составляющими элементами друг друга;  
факторные признаки по экономическому смыслу дублируют друг друга; 
устранение мультиколлинеарности может реализовываться через исключение из корреляционной модели одного или нескольких линейно-связанных факторных признаков или преобразование исходных факторных признаков в новые, укрупненные факторы.  Вопрос о том, какой из факторов следует отбросить, решается на основании качественного, логического анализа изучаемого явления, а также на основе анализа тесноты связи между результативным (y) c каждым из сильно коллинеарно связанных факторных признаков. Из дальнейшего анализа целесообразно исключить тот факторный признак, связь которого с результативным наименьшая.  
Качество уравнения регрессии зависит от степени достоверности и надежности исходных данных и объема совокупности.

    Исследователь должен стремиться к увеличению числа наблюдений, так как большой объем наблюдений является одной из предпосылок построения адекватных статистических моделей.  
Аналитическая форма связи результативного признака от нескольких факторных выражается и называется многофакторным (множественным) уравнением регрессии или моделью связи.  
Линейное уравнение множественной регрессии имеет вид:  

где - теоретические значения результативного признака, полученные в результате подстановки соответствующих значений факторных признаков в уравнение регрессии; факторные признаки; параметры модели (коэффициенты регрессии).  
Параметры уравнения могут быть определены графическим методом, методом наименьших квадратов и так далее.

2. Нахождение двухфакторной модели  линейной регрессии.

 

Построение и статистический анализ двухфакторной линейной модели (трехмерной регрессии) 
Для расчета параметров простейшего уравнения множественной линейной двухфакторной регрессии 
 
 
 
где — расчетные значения зависимой переменной (результативного признака);  
 
— независимые переменные (факторные признаки); 
 
a0,a1,a2—параметры уравнения. 
Идентификацию этого уравнения лучше всего производить с использованием функции Excel ЛИНЕЙН.

Построим следующую систему нормальных уравнений: 
 
Параметры этой системы могут быть найдены, например, методом К. Гаусса.

Вручную целесообразно выполнять построение и анализ только двух-, максимум трехфакторных моделей. Для n >3 все расчеты рекомендуется осуществлять на компьютерах по специальным программам, предусматривающим исчисление параметров уравнения и показателей, используемых для проверки его адекватности.

3. Использование пакета «Анализ  данных» для расчета параметров  парной и многофакторной регрессии.

 

Электронный процессор Excel позволяет строить математические модели по имеющимся табличным данным. Математическая модель дает возможность прогнозировать состояние моделируемого объекта и выбирать на этой основе оптимальное управление объектом. Для этих целей Excel содержит пакет анализа данных, в который входят: регрессионный анализ, корреляция, дисперсионный анализ и другие средства.

Регрессионный анализ

Регрессионный анализ позволяет получить функциональную зависимость между некоторой случайной величиной Y и некоторыми влияющими на Y величинами X. Такая зависимость получила название уравнения регрессии. Различают простую (парную) и множественную (многофакторную) регрессию линейного и нелинейного типа.

Пример простой линейной регрессии:

y=m1x+b.

Пример множественной линейной регрессии:

y=m1x1+m2x2+... + mkxk+b.

(1)


Для оценки степени связи между величинами используется коэффициент множественной корреляции R Пирсона (корреляционное отношение), который может принимать значения от 0 до 1. R=0 если между величинами нет никакой связи и R=1, если между величинами имеется функциональная (детерминированная) связь. В большинстве случаев R принимает промежуточные значения от 0 до 1. Величина R2 называется коэффициентом детерминации.

Задачей построения регрессионной зависимости является нахождение вектора коэффициентов M модели (1) при котором коэффициент R принимает максимальное значение.

Для оценки значимости R применяется F-критерий Фишера, вычисляемый по формуле

где n - размер выборки (количество экспериментов); k - число коэффициентов модели. Если F превышает некоторое критическое значение для данных n и k и принятой доверительной вероятности, то величина R считается существенной. Таблицы критических значений F приводятся в справочниках по математической статистике.

Таким образом, значимость R определяется не только его величиной, но и соотношением между количеством экспериментов и количеством коэффициентов (параметров) модели. Действительно, корреляционное отношение для n=2 для простой линейной модели равно 1 (через 2 точки на плоскости можно всегда провести единственную прямую). Однако, если экспериментальные данные являются случайными величинами, доверять такому значению R следует с большой осторожностью. Обычно для получения значимого R и достоверной регрессии стремятся к тому, чтобы количество экспериментов существенно превышало количество коэффициентов модели (n>>k).

Для построения линейной регрессионной модели необходимо:

1) подготовить список из n строк и m столбцов, содержащий экспериментальные данные (столбец, содержащий выходную величину y должен быть либо первым, либо последним в списке);

2) обратиться к меню Сервис/Анализ данных/Регрессия

Если пункт "Анализ данных" в меню "Сервис" отсутствует, то следует обратиться к пункту "Надстройки" того же меню и установить флажок "Пакет анализа".

3) в диалоговом окне "Регрессия" задать:

  • входной интервал Y;
  • входной интервал X;
  • выходной интервал - верхняя левая ячейка интервала, в который будут помещаться результаты вычислений (рекомендуется разместить на новом рабочем листе);

4) нажать "Ok" и проанализировать  результаты.

Пример использования множественной линейной регрессии

Предположим, что застройщик оценивает стоимость группы небольших офисных зданий в традиционном деловом районе.

Застройщик может использовать множественный регрессионный анализ для оценки цены офисного здания в заданном районе на основе следующих переменных.

y - оценочная цена здания под  офис; 
x1 - общая площадь в квадратных метрах; 
x2 - количество офисов; 
x3 - количество входов (0,5 входа означает вход только для доставки корреспонденции); 
x4 - время эксплуатации здания в годах.

Информация о работе Многофакторный регрессионный анализ