Автор работы: Пользователь скрыл имя, 06 Ноября 2012 в 08:27, контрольная работа
1. Без использования вычислительной техники найдите значение r(Y,X) выборочного коэффициента корреляции между этими переменными. Методом наименьших квадратов подберите модель линейной (непропорциональной) связи между этими переменными, считая переменную Y объясняемой, а переменную X объясняющей.
2. Получите разложение полной суммы квадратов на остаточную и объясненную подобранной моделью суммы квадратов.
Задание 1 3
Задание 2 7
Задание 3 8
Использованная литература 13
Переменные X и Y приняли следующие значения:
Данные из приложения в таблице 1 (по двум последним цифрам зачетной книжки)
1. Без использования вычислительной техники найдите значение r(Y,X) выборочного коэффициента корреляции между этими переменными. Методом наименьших квадратов подберите модель линейной (непропорциональной) связи между этими переменными, считая переменную Y объясняемой, а переменную X объясняющей.
2. Получите разложение
полной суммы квадратов на
остаточную и объясненную
3. Вычислите коэффициент детерминации R2.
4. Вычислите коэффициент корреляции r (Y,Y*) между переменной Y и переменной Y*, значения которой заменяют значения переменной Y согласно оцененной модели ("выровненные" значения).
5. Сравните полученные значения r(Y,X) и r(Y,Y*); объясните полученный результат.
Решение:
Таблица исходных данных (Таблица 1):
Таблица 1
Найдем уравнение линейной связи между переменными Х и Y вида Ỳ= a+bX.
Искать параметры данного линейного уравнения будем, используя метод наименьших квадратов. Для этого решим систему уравнений:
na+b∑X=∑Y,
a∑X+b∑X2=∑YX
Составим расчетную таблицу (Таблица 2).
Таблица 2
Расчетная таблица
16a+332,9b=219,2,
332,9a+7049,31b=4644,5
Решив систему уравнений, получим:
a= -0,48
b=0,68
Тогда получим линейное уравнение: Ỳ= -0,48+0,68Х
Вычислим коэффициент корреляции:
r(Y,X)=b*(σx/σy) = 0,68*(2,77/2,08)=0,9056
Коэффициент корреляции показывает, что связь между переменными Х и Y прямая и очень тесная.
Полная сумма квадратов отклонений равна:
Sy=∑(y-ycp)2=68,90
Получим разложение полной суммы квадратов на остаточную и объясненную:
Sy=Sфакт + Sε,
где
Sфакт = ∑(ỳ-ycp)2- объясненная сумма квадратов
Sε=∑(y-ỳ)2 — остаточная сумма квадратов
Расчет выполним в Таблице 3:
Таблица 3
Sy=3093,88+43,12 = 3137,00
Вычислим коэффициент детерминации:
R2=r2(Y,X)=0,99312=0,9863 или 98,63%
Коэффициент детерминации показывает, что вариация Y на 98,63% объясняется вариацией фактора Х и лишь на 1,37% вариацией других факторов, не учтенных в линейной модели.
Вычислим коэффициент корреляции r (Y,Ŷ) между переменной Y и переменной Ŷ:
r (Y,Ŷ)=√Var(Ŷ)/Var(Y)=√193,37/
Таким образом, r (Y,Ŷ)=r (Y,Х).
При достаточно сильно выраженной линейной связи между переменными x и y, что соответствует значению R2, близкому к 1, оказывается близким к 1 и коэффициент корреляции между переменными Y и Ŷ.
Методом наименьших квадратов подберем модель пропорциональной связи между переменными X и Y (необходимые промежуточные вычисления см. Таблица 4):
Таблица 4
Y*=βX
β=∑yx/∑x2=157641/70919=2,22
Тогда, Y*=2,22X — уравнение линейной пропорциональной связи.
Вычислим коэффициент детерминации:
d=1-∑(y-y*)2/∑y2=1-6752,59/
Коэффициент детерминации показывает, что вариация Y на 98,11% объясняется вариацией фактора Х и лишь на 1,89% вариацией других факторов, не учтенных в линейной пропорциональной модели.
Используя данные задания №1, найти:
1. β-коэффициент
2. Коэффициент эластичности
3. Коэффициент значимости F Фишера и сравните его с табличным значением при уровне значимости α = 0,05.
4. Коэффициент t критерия Стьюдента и сравните его с табличным значением при α = 0,05.
5. Среднюю относительную ошибку ε.
Сделать выводы по найденным значениям.
Решение:
Все расчеты выполним для линейной непропорциональной модели Ỳ= 89,55+0,91X.
Здесь β=0,91, т. е. при изменении (возрастании/убывании) переменной Х на 1 единицу, Y аналогично изменяется (возрастает/убывает) на 0,91 единиц.
Вычислим коэффициент эластично
Э= b*xcp/ycp= 0,91*64,81/148,75 = 0,398
Коэффициент эластичности показывает, что с изменением переменной Х на 1%, Y изменяется на 0,398%.
Коэффициент значимости F Фишера:
F=(R2/(1-R2))*(n-m-1)/m=(0,
Fтабл = 4,60 при уровне значимости α = 0,05.
Т.к. Fфакт больше Fтабл, то параметры нашего уравнения с вероятностью 95% статистически значимы.
Коэффициент t критерия Стьюдента:
Определим случайные ошибки:
mb=√(∑(y-ŷ)2/(n-2))/∑(x-xcp)2=
ma= √(∑(y-ŷ)2/(n-2))*(∑x2/n∑(x-
mr=√(1-r2xy)/(n-2) =√(1-0,9863)/(16-2)=0,0313
Теперь вычислим t критерий:
tb=b/mb=0,91/0,0288=31,69
ta=a/ma= 89,55/1,92 = 46,67
tr=r/mr=0,9931/0,0313 = 31,69
tтабл=2,14 при α = 0,05.
Так как tтабл < tb, tтабл < ta, tтабл < tr, то b, a и rxy не случайно отличаются от нуля и статистически значимы.
Вычислим среднюю ошибку ε:
ε=(1/n)*∑(|y-ŷ|/y)*100% = 0,93%
В среднем расчетные значения отличаются от фактических на 0,93%, что не превышает допустимых пределов.
Таким образом, сделанные вычисления показали, что построенная линейная модель статистически значима и очень хорошо подходит для описания зависимости между переменными X и Y.
6. Анализ линейной
статистической связи экономиче
Для двух переменных коэффициент парной корреляции определяется следующим образом:
= , (1)
где - оценки дисперсий величин .
Дисперсия (оценка дисперсии)
характеризуют степень разброса значений ( ) вокруг своего среднего ( , соответственно), или вариабельность (изменчивость) этих переменных на множестве наблюдений.
В общем случае для получения несмещенной оценки дисперсии сумму квадратов следует делить на число степеней свободы оценки (n−p), где n - объем выборки, p - число наложенных на выборку связей. В данном случае p = 1, т.к. выборка уже использовалась один раз для определения среднего X, поэтому число наложенных связей равно единице, а число степеней свободы оценки (т.е. число независимых элементов выборки) равно (n −1).
Более естественно измерять степень разброса значений переменных в тех же единицах, в которых измеряется и сама переменная. Эту задачу решает показатель, называемый среднеквадратическим отклонением или стандартным отклонением, или стандартной ошибкой переменной Х (переменной Y), определяемый соотношением:
Слагаемые в числителе формулы (1) выражают взаимодействие двух переменных и определяют знак (положительной или отрицательной) корреляции. Если, например, между переменными существует сильная положительная взаимосвязь (увеличение одной переменной при увеличении второй), каждое слагаемое будет положительным числом. Аналогично, если между переменными существует сильная отрицательная взаимосвязь, все слагаемые в числителе будут отрицательными числами, что в результате дает отрицательное значение корреляции.
Знаменатель выражения для коэффициента
корреляции просто нормирует числитель
таким образом, что коэффициент
корреляции оказывается легко
Числитель выражения для коэффициента корреляции, который трудно интерпретировать из-за необычных единиц измерения, называется ковариацией Х и Y. Несмотря на то, что иногда он используется как самостоятельная характеристика (например, в теории финансов для описания совместного изменения курсов акций на двух биржах), удобнее пользоваться коэффициентом корреляции. Корреляция и ковариация представляют, по сути, одну и ту же информацию, однако корреляция представляет эту информацию в более удобной форме.
Следует отметить, что величина коэффициента корреляции не является доказательством наличия причинно-следственной связи между исследуемыми признаками, а является оценкой степени взаимной согласованности в изменениях признаков. Установлению причинно-следственной зависимости предшествует анализ качественной природы явлений. Но есть и еще одно обстоятельство, объясняющее формулировку выводов о возможном наличии связи по величине коэффициента корреляции.
Связано это с тем, что оценка степени тесноты связи с помощью коэффициента корреляции производится, как правило, на основе более или менее ограниченной информации об изучаемом явлении. Возникает вопрос, насколько правомерно наше заключение по выборочным данным в отношении действительного наличия корреляционной связи в той генеральной совокупности, из которой была произведена выборка?
Принципиально возможны случаи, когда отклонение от нуля полученной величины выборочного коэффициента корреляции оказывается целиком, обусловленным неизбежными случайными колебаниями тех выборочных данных, на основании которых он вычислен. Особенно осторожно следует подходить к истолкованию полученных коэффициентов корреляции при незначительных объемах выборочной совокупности.
В этой связи и возникает необходимость оценки существенности линейного коэффициента корреляции, дающая возможность распространить выводы по результатам выборки на генеральную совокупность. В зависимости от объема выборочной совокупности предлагаются различные методы оценки существенности линейного коэффициента корреляции.
Оценка значимости коэффициента корреляции при малых объемах выборки выполняется с использованием t-критерия Стьюдента. При этом фактическое (наблюдаемое) значение этого критерия определяется по формуле:
Вычисленное по этой формуле значение tнабл сравнивается с критическим значением t-критерия, которое берется из таблицы значений t Стьюдента с учетом заданного уровня значимости и числа степеней свободы (n-2).
Если tнабл > tкр, то полученное значение коэффициента корреляции признается значимым (то есть нулевая гипотеза, утверждающая равенство нулю генерального коэффициента корреляции, отвергается). И таким образом делается вывод о том, что между исследуемыми переменными есть тесная статистическая взаимосвязь.
Удобным графическим средством анализа парных данных является диаграмма рассеяния, которая представляет каждое наблюдение в пространстве двух измерений, соответствующих двум факторам.
Диаграмму рассеяния, на которой изображается совокупность значений двух признаков, называют еще корреляционным полем. Каждая точка этой диаграммы имеет координаты Xi и Yi. По мере того, как возрастает сила линейной связи, точки на графике будут лежать более близко к прямой линии, а величина r будет ближе к 1.
28. Регрессионные модели с переменной структурой (фиктивные переменные).
Термин «фиктивные переменные» используется как противоположность «значащим» переменным, показывающим уровень количественного показателя, принимающего значения из непрерывного интервала. Как правило, фиктивная переменная – это индикаторная переменная, отражающая качественную характеристику. Это могут быть разного рода атрибутивные признаки, такие, например, как профессия, пол, образование, климатические условия, принадлежность к определенному региону. Чтобы ввести такие переменные в регрессионную модель, им должны быть присвоены те или иные цифровые метки, т. е. качественные переменные преобразованы в количественные. Такого вида сконструированные переменные в эконометрике принято называть фиктивными переменными. В литературе можно встретить термины «структурные переменные» или «искусственные переменные»