Понятие регрессионного анализа: результирующая (зависимая, эндогенная) переменная У и объясняющие (предикторные, экзогенные) переменные Х,

Автор работы: Пользователь скрыл имя, 05 Декабря 2013 в 21:06, реферат

Краткое описание

Обычно предполагается, что случайная величина Y имеет нормальный закон распределения с условным математическим ожиданием Y, являющимся функцией от аргументов Хj (j= 1,2,…k),и постоянной, не зависящей от аргументов дисперсией .

Содержание

Регрессионный анализ. 2
Регрессионный анализ. 2
Регрессионная модель. 3
Задачи регрессионного анализа. 10

Понятие регрессионного анализа: результирующая (зависимая, эндогенная) переменная У и объясняющие (предикторные,
экзогенные) переменные Х, функция регрессии У по Х. 15
Возмущения 17
Список литературы 19

Прикрепленные файлы: 1 файл

Регресионный анализ.docx

— 83.29 Кб (Скачать документ)

 Содержание

 

 

  1. Регрессионный анализ.                                                                                 2
    1. Регрессионный анализ.                                                                       2
    2. Регрессионная модель.                                                                        3
    3. Задачи регрессионного анализа.                                                      10                           

 

  1. Понятие регрессионного анализа: результирующая (зависимая, эндогенная) переменная У и объясняющие (предикторные,

экзогенные) переменные Х, функция  регрессии У по Х.                        15

  1. Возмущения                                                                                                 17

Список литературы 19

 

 

 

 

 

 

 

 

 

 

 

 

    1.  Регрессионный анализ

 

Понятия регрессии и корреляции непосредственно  связаны между собой, но при этом существует четкое различие между ними. В корреляционном анализе оценивается  сила стохастической связи, в регрессионном  анализе ее формы.

Регрессионным анализом называется метод статистического  анализа зависимости случайной  величины Y от переменных Хj (j= 1,2,…k), рассматриваемых в регрессионном анализе как неслучайные величины, независимо от истинного закона распределения Хj.

Обычно  предполагается, что случайная величина Y имеет нормальный закон распределения  с условным математическим ожиданием Y, являющимся функцией от аргументов Хj (j= 1,2,…k),и постоянной, не зависящей от аргументов дисперсией .

Требование  нормального закона распределения Y необходимо лишь для проверки значимости уравнения регрессии и его  параметров , а также для интервального оценивания .

 Регрессионный анализ заключается в определении аналитического выражения связи, в котором изменение одной величины (называемой зависимой или результативным признаком) обусловлено влиянием одной или нескольких независимых величин (факторов), а множество всех прочих факторов, также оказывающих влияние на зависимую величину, принимается за постоянные и средние значения. Регрессия может быть однофакторной (парной) и многофакторной (множественной). Основной предпосылкой  регрессионного анализа является то, что только результативный признак (Y) подчиняется нормальному закону распределения, а факторные признаки х1, х2,…, хk могут иметь произвольный закон распределения. В анализе динамических рядов в качестве факторного признака выступает t. При этом в регрессионном анализе заранее подразумевается наличие причинно-следственных связей между результативным (Y) и факторными (х1, х2,…, хk) признаками.

1.2  Регрессионная модель

 

Уравнение регрессии, или статистическая модель связи социально-экономических явлений, выражаемая функцией 

Yх = f(х1, х2,…, хk),

Y=B0 +B1X1+ B2X2+ … +BnXn   (1)

является  достаточно адекватным реальному моделируемому  явлению или процессу в случае соблюдения следующих требований их построения:

    1. Совокупность исследуемых исходных данных должна быть однородной и математически описываться непрерывными функциями.
    2. Возможность описания моделируемого явления одним или несколькими уравнениями причинно-следственных связей.
    3. Все факторные признаки должны иметь количественное (цифровое) выражение.
    4. Наличие достаточно большого объема исследуемой выборочной совокупности.
    5. Причинно-следственные связи между явлениями и процессами  следует  линейной или приводимой к линейной формой зависимости.
    6. Отсутствие количественных ограничений на параметры модели связи.
    7. Постоянно территориальной и временной структуру изучаемой совокупности.

Соблюдение  данных требований позволяет исследователю  построить статистическую модель связи, наилучшим образом аппроксимирующую моделируемые социально-экономические  явления и процессы.

Теоретическая обоснованность моделей взаимосвязи, построенных на основе корреляционно-регрессионного анализа, обеспечивается соблюдением  следующих основных условий:

    1. Все признаки и их совместные распределения должны подчиняться нормальному закону распределения.
    2. Дисперсия моделируемого признака (Y) должна все время оставаться постоянной при изменении величины (Y) и значений факторных признаков.
    3. Отдельные наблюдения должны быть независимы, т.е. результаты, полученные в i-ом наблюдении, не должны быть связаны с предыдущими и содержать информацию  о последующих наблюдениях, а также влиять на них.

Отступление от выполнения этих условий и предпосылок  приводит к тому, что параметры  регрессии не будут отражать реальное воздействие на моделируемый показатель.

Одной из проблем построения уравнения регрессии  является их размерность, т.е. определение  чисел факторных признаков, включаемых в модель. Их число должно быть оптимальным.

Сокращение  размерности за счет исключения второстепенных, несущественных факторов позволяет  получить модель, быстрее и качественнее реализуемую. В то же время построение модели малой размерности может  привести к тому, что она будет  недостаточно полно описывать исследуемое  явление или процесс в единой системе национального счетоводства.

Практика  выработала определенный критерий, позволяющий  установить оптимальное соотношение  между числом факторных признаков, включаемых в модель, и объемом  исследуемой совокупности. Согласно данному критерию число факторных (к) должно быть в 5-6 раз меньше объема изучаемой совокупности.

Построение  корреляционно-регрессионных моделей, какими бы сложными они не были, само по себе не вскрывает полностью всех причинно-следственных связей. Основой их адекватности является предварительный качественный анализ, основанный на учете специфики и особенностей сущности исследуемых социально-экономических явлений и процессов.

В практических условиях используются линейные модели, даже если число регрессоров увеличивается.

 По  числу объясненных признаков  регрессионные модели  подразделяются на:

  • простые (с одним регрессом)
  • сложные (модели множественной регрессии)

По направлению  связи различают:

  • прямую регрессию (положительную), возникающую при условии, если с увеличением или уменьшением независимой величины значения зависимой также соответственно увеличиваются или уменьшаются;
  • обратную (отрицательную) регрессию, появляющуюся при условии, что с увеличением  или уменьшением независимой величины зависимая соответственно уменьшается или увеличивается.

         Пример:

Найти выборочное уравнение прямой линии регрессии по данным n=8 наблюдений, которые получены при изучении зависимости количества продаж товара у от затрат на рекламу этого товара х: 

х

1,5

4,0

5,0

7,0

8,5

10,0

11,0

12,5

y

5,0

4,5

7,0

6,5

9,5

9,0

11,0

9,0


 
     Решение. Экспериментальные данные изобразим в виде точек в системе декартовых координат. Ломаная линия, соединяющая эти точки, называется эмпирической линией регрессии. По виду ломанной можно предположить наличие корреляционной зависимости Y по Х между двумя рассматриваемыми переменными, которая графически выражается тем точнее, чем больше объем выборки (рис.1). 
      


 

 

 

 

 

 

   Составим расчетную таблицу 1.    

                                                                                                           Таблица. 1

хi

yi

i2

xiyi








8

1,5 
4,0 
5,0 
7,0 
8,5 
10,0 
11,0 
12,5

5,0 
4,5 
7,0 
6,5 
9,5 
9,0 
11,0 
9,0

2,25 
16,00 
25,00 
49,00 
72,25 
100,00 
121,00 
156,25

7,50 
18,00 
35,00 
45,50 
80,75 
90,00 
121,00 
112,50

Σ

59,5

61,5

541,75

510,25


 
    ` х =7,4375,` у =7,6875 
     Найдем искомые параметры, для чего подставим вычисленные по таблице суммы в соотношения (2): 
     а = (61,5 × 541,75 – 510,25 ×59,50)/ (8 ×541,75 – 3540,25) = 3,73, 
     b = (8 × 510,25 – 59,50 × 61,50)/ (8 ×541,75 – 3540,25) = 0,53. 
     Таким образом, уравнение регрессии имеет вид 
      . 
     Прямая, построенная по этому уравнению, показана на рис.2 вместе с исходными данными. Эта прямая является наилучшей линейной оценкой уравнения регрессии, полученной по имеющимся данным. Но это не означает, что нельзя построить оценку регрессии в виде какой-то другой зависимости (нелинейной), которая будет лучше соответствовать экспериментальным данным, чем прямая линия. 
      
   


 

 

 

 

 

              Рис.2 
     Построенная таким образом линия регрессии позволяет с некоторой вероятностью не только предсказать в интервале от х=1,5 до х=12,5 любые значения функции у при отсутствующих в табл. 1 значениях фактора х, но и за пределами данного интервала. 
     Составленное уравнение регрессии можно проверить на точность зависимости между переменными (х, у) по коэффициенту точности выравнивания линии r1, отражающему степень приближения расчетных данных к фактическим значениям эмпирического ряда. Этот коэффициент определяется следующим образом: 
     ,                         (3) 
     где   – отклонение индивидуальных вариант от общего среднего арифметического по y;   – отклонение индивидуальных экспериментальных вариант по y от расчетных по уравнению. 
     Составим таблицу расчета данных для определения коэффициента точности выравнивания линии. 
 
                                                                                                            Таблица 2

xi

yi








8

1,5 
1,0 
5,0 
7,0 
8,5 
10,0 
11,0 
12,5

5,0 
4,5 
7,0 
6,5 
9,5 
9,0 
11,0 
9,0

4,53 
5,85 
6,38 
7,44 
8,24 
9,03 
9,56 
10,35

–2,6875 
–3,1875 
–0,6875 
–1,1875 
1,8125 
1,3125 
3,3125 
1,3125

7,2227 
10,160 
0,4727 
1,4102 
3,2852 
1,7227 
10,9727 
1,7227

0,47 
–1,35 
0,62 
–0,94 
1,26 
–0,03 
1,44 
–1,35

0,2209 
1,8225 
0,3844 
0,8836 
1,5876 
0,0009 
2,0736 
1,8225

Σ

       

36,9691

 

8,7956


 
    `у =7,6875 
     На основании исходных данных, полученных в табл. 2, используя формулу(3),имеем  
       
     Принято считать: если r1>0,95, то уравнение регрессии адекватно отражает существующую связь. При r1<0,95 необходимо найти другую математическую зависимость между признаками. В приведенном примере r1=0,87<0,95, поэтому следует подобрать другую математическую зависимость. Критерий оценки r1на точность выравнивания линии уравнения регрессии используется и для других форм регрессионной зависимости. 
     Проверку адекватности линейной модели можно провести по графику остатков: 
      , 
     где у– измеренные значения, соответствующие значениям xi; ỹ– значения функции регрессии при х=хi
     Если остатки di сконцентрированы в горизонтальной полосе вдоль оси абсцисс, то линейную модель можно считать адекватной. Если зона, где расположены остатки, расширяется, это означает, что дисперсии неодинаковы при различных значениях хi. Это требует изменения регрессионной модели. Если остатки имеют тенденцию закономерно изменяться, то не учтены какие-то факторы, существенно влияющие на связь между величинами Y и х. В этом случае также нужно изменить модель и ввести неучтенные факторы. 
     В заключение построим график остатков для предыдущего примера. Для этого используем столбцы уi и yi–ỹi табл. 2. Этот график приведен на рис. 3.

Информация о работе Понятие регрессионного анализа: результирующая (зависимая, эндогенная) переменная У и объясняющие (предикторные, экзогенные) переменные Х,