Автор работы: Пользователь скрыл имя, 05 Декабря 2013 в 21:06, реферат
Обычно предполагается, что случайная величина Y имеет нормальный закон распределения с условным математическим ожиданием Y, являющимся функцией от аргументов Хj (j= 1,2,…k),и постоянной, не зависящей от аргументов дисперсией .
Регрессионный анализ. 2
Регрессионный анализ. 2
Регрессионная модель. 3
Задачи регрессионного анализа. 10
Понятие регрессионного анализа: результирующая (зависимая, эндогенная) переменная У и объясняющие (предикторные,
экзогенные) переменные Х, функция регрессии У по Х. 15
Возмущения 17
Список литературы 19
экзогенные) переменные Х, функция регрессии У по Х. 15
Понятия регрессии и корреляции непосредственно связаны между собой, но при этом существует четкое различие между ними. В корреляционном анализе оценивается сила стохастической связи, в регрессионном анализе ее формы.
Регрессионным анализом называется метод статистического анализа зависимости случайной величины Y от переменных Хj (j= 1,2,…k), рассматриваемых в регрессионном анализе как неслучайные величины, независимо от истинного закона распределения Хj.
Обычно предполагается, что случайная величина Y имеет нормальный закон распределения с условным математическим ожиданием Y, являющимся функцией от аргументов Хj (j= 1,2,…k),и постоянной, не зависящей от аргументов дисперсией .
Требование нормального закона распределения Y необходимо лишь для проверки значимости уравнения регрессии и его параметров , а также для интервального оценивания .
Регрессионный анализ заключается в определении аналитического выражения связи, в котором изменение одной величины (называемой зависимой или результативным признаком) обусловлено влиянием одной или нескольких независимых величин (факторов), а множество всех прочих факторов, также оказывающих влияние на зависимую величину, принимается за постоянные и средние значения. Регрессия может быть однофакторной (парной) и многофакторной (множественной). Основной предпосылкой регрессионного анализа является то, что только результативный признак (Y) подчиняется нормальному закону распределения, а факторные признаки х1, х2,…, хk могут иметь произвольный закон распределения. В анализе динамических рядов в качестве факторного признака выступает t. При этом в регрессионном анализе заранее подразумевается наличие причинно-следственных связей между результативным (Y) и факторными (х1, х2,…, хk) признаками.
Уравнение
регрессии, или статистическая модель
связи социально-экономических
Yх = f(х1, х2,…, хk),
Y=B0 +B1X1+ B2X2+ … +BnXn (1)
является достаточно адекватным реальному моделируемому явлению или процессу в случае соблюдения следующих требований их построения:
Соблюдение
данных требований позволяет исследователю
построить статистическую модель связи,
наилучшим образом
Теоретическая обоснованность моделей взаимосвязи, построенных на основе корреляционно-регрессионного анализа, обеспечивается соблюдением следующих основных условий:
Отступление от выполнения этих условий и предпосылок приводит к тому, что параметры регрессии не будут отражать реальное воздействие на моделируемый показатель.
Одной из проблем построения уравнения регрессии является их размерность, т.е. определение чисел факторных признаков, включаемых в модель. Их число должно быть оптимальным.
Сокращение
размерности за счет исключения второстепенных,
несущественных факторов позволяет
получить модель, быстрее и качественнее
реализуемую. В то же время построение
модели малой размерности может
привести к тому, что она будет
недостаточно полно описывать исследуемое
явление или процесс в единой
системе национального
Практика выработала определенный критерий, позволяющий установить оптимальное соотношение между числом факторных признаков, включаемых в модель, и объемом исследуемой совокупности. Согласно данному критерию число факторных (к) должно быть в 5-6 раз меньше объема изучаемой совокупности.
Построение
корреляционно-регрессионных
В практических
условиях используются линейные модели,
даже если число регрессоров
По числу объясненных признаков регрессионные модели подразделяются на:
По направлению связи различают:
Пример:
Найти выборочное уравнение прямой
линии регрессии по данным n=8 наблюдений,
которые получены при изучении зависимости
количества продаж товара у от затрат на
рекламу этого товара х:
х |
1,5 |
4,0 |
5,0 |
7,0 |
8,5 |
10,0 |
11,0 |
12,5 |
y |
5,0 |
4,5 |
7,0 |
6,5 |
9,5 |
9,0 |
11,0 |
9,0 |
Решение. Экспериментальные данные изобразим
в виде точек в системе декартовых координат.
Ломаная линия, соединяющая эти точки,
называется эмпирической линией регрессии.
По виду ломанной можно предположить наличие
корреляционной зависимости Y по Х между
двумя рассматриваемыми переменными,
которая графически выражается тем точнее,
чем больше объем выборки (рис.1).
Составим расчетную таблицу 1.
№ |
хi |
yi |
x i2 |
xiyi |
1 |
1,5 |
5,0 |
2,25 |
7,50 |
Σ |
59,5 |
61,5 |
541,75 |
510,25 |
` х =7,4375,` у =7,6875
Найдем искомые параметры, для чего подставим
вычисленные по таблице суммы в соотношения
(2):
а = (61,5 × 541,75 – 510,25 ×59,50)/ (8 ×541,75 – 3540,25) =
3,73,
b = (8 × 510,25 – 59,50 × 61,50)/ (8 ×541,75 – 3540,25) = 0,53.
Таким образом, уравнение регрессии имеет
вид
.
Прямая, построенная по этому уравнению,
показана на рис.2 вместе с исходными данными.
Эта прямая является наилучшей линейной
оценкой уравнения регрессии, полученной
по имеющимся данным. Но это не означает,
что нельзя построить оценку регрессии
в виде какой-то другой зависимости (нелинейной),
которая будет лучше соответствовать
экспериментальным данным, чем прямая
линия.
Рис.2
Построенная таким образом линия регрессии
позволяет с некоторой вероятностью не
только предсказать в интервале от х=1,5
до х=12,5 любые значения функции у при отсутствующих
в табл. 1 значениях фактора х, но и за пределами
данного интервала.
Составленное уравнение регрессии можно
проверить на точность зависимости между
переменными (х, у) по коэффициенту точности
выравнивания линии r1, отражающему
степень приближения расчетных данных
к фактическим значениям эмпирического
ряда. Этот коэффициент определяется следующим
образом:
,
(3)
где
– отклонение индивидуальных вариант
от общего среднего арифметического по y;
– отклонение индивидуальных экспериментальных
вариант по y от расчетных по уравнению.
Составим таблицу расчета данных для
определения коэффициента точности выравнивания
линии.
№ |
xi |
yi |
|
|
|
|
|
1 |
1,5 |
5,0 |
4,53 |
–2,6875 |
7,2227 |
0,47 |
0,2209 |
Σ |
36,9691 |
8,7956 |
`у =7,6875
На основании исходных данных, полученных
в табл. 2, используя формулу(3),имеем
Принято считать: если r1>0,95, то
уравнение регрессии адекватно отражает
существующую связь. При r1<0,95 необходимо
найти другую математическую зависимость
между признаками. В приведенном примере r1=0,87<0,95,
поэтому следует подобрать другую математическую
зависимость. Критерий оценки r1на
точность выравнивания линии уравнения
регрессии используется и для других форм
регрессионной зависимости.
Проверку адекватности линейной модели
можно провести по графику остатков:
,
где уi – измеренные значения, соответствующие
значениям xi; ỹi – значения
функции регрессии при х=хi.
Если остатки di
сконцентрированы в горизонтальной полосе
вдоль оси абсцисс, то линейную модель
можно считать адекватной. Если зона, где
расположены остатки, расширяется, это
означает, что дисперсии неодинаковы при
различных значениях хi. Это требует
изменения регрессионной модели. Если
остатки имеют тенденцию закономерно
изменяться, то не учтены какие-то факторы,
существенно влияющие на связь между величинами Y и х.
В этом случае также нужно изменить модель
и ввести неучтенные факторы.
В заключение построим график остатков
для предыдущего примера. Для
этого используем столбцы уi
и yi–ỹi табл. 2. Этот график
приведен на рис. 3.