Автор работы: Пользователь скрыл имя, 10 Сентября 2013 в 14:41, курсовая работа
В статистике показатели, характеризующие эти явления, могут быть связаны либо корреляционной зависимостью, либо быть независимыми Корреляционная зависимость является частным случаем стохастической зависимости, при которой изменение значений факторных признаков (х 1 х2 ..., хn ) влечет за собой изменение среднего значения результативного признака у.
Корреляционная зависимость исследуется с помощью методов корреляционного и регрессионного анализов.
Корреляционный анализ изучает взаимосвязи показателей и позволяет решить следующие задачи:
1. Оценка тесноты связи между показателями с помощью парных, частных и множественных коэффициентов корреляции;
2. Оценка уравнения регрессии.
1.ОСНОВНЫЕ ЗАДАЧИ
Все явления и процессы, характеризующие
социально-экономическое
В статистике показатели, характеризующие эти явления, могут быть связаны либо корреляционной зависимостью, либо быть независимыми Корреляционная зависимость является частным случаем стохастической зависимости, при которой изменение значений факторных признаков (х 1 х2 ..., хn ) влечет за собой изменение среднего значения результативного признака у.
Корреляционная
зависимость исследуется с
Корреляционный
анализ изучает взаимосвязи
1. Оценка
тесноты связи между
2. Оценка уравнения регрессии.
Основной предпосылкой применения корреляционного анализа является необходимость подчинения совокупности значений всех факторных (х1, х2 .... хn) и результативного (У) признаков r-мерному нормальному закону распределения или близость к нему. Если объем исследуемой совокупности достаточно большой ( n > 50), то нормальность распределения может быть подтверждена на основе расчета и анализа критериев Пирсона, Боярского, Колмогорова, чисел Вастергарда и т. д. Если n < 50, то закон распределения исходных данных определяется на базе построения и визуального анализа поля корреляции. При этом если в расположении точек имеет место линейная тенденция, то можно предположить, что совокупность исходных данных подчиняется нормальному распределению.
Целью регрессионного анализа является оценка функциональной зависимости условного среднего значения результативного признака (У) от факторных (х1, х2..., хn).
Основной предпосылкой регрессионного анализа является то, что только результативный признак (У) подчиняется нормальному закону распределения, а факторные признаки х1, х2..., хn могут иметь произвольный закон распределения. В анализе динамических рядов в качестве факторного признака выступает время t . При этом в регрессионном анализе заранее подразумевается наличие причинно-следственных связей между результативным (У) и факторными х1, х2..., хn признаками.
Уравнение регрессии, или статистическая модель связи социально-экономических явлений, выражаемая функцией Y = f (х1, х2..., хn) является достаточно адекватным реальному моделируемому явлению или процессу в случае соблюдения следующих требований их построения.
1. Совокупность исследуемых исходных данных должна быть однородной и математически описываться непрерывными функциями.
2. Возможность
описания моделируемого
3. Все
факторные признаки должны
4. Наличие
достаточно большого объема
5. Причинно-следственные связи между явлениями и процессами следует описывать линейной или приводимой к линейной формой зависимости.
6. Отсутствие количественных ограничений на параметры модели связи.
7. Постоянство
территориальной и временной
структуры изучаемой
Соблюдение
данных требований позволяет исследователю
построить статистическую модель связи,
наилучшим образом
2. КОРРЕЛЯЦИЯ СЛУЧАЙНЫХ ВЕЛИЧИН
Прямое толкование термина корреляция — стохастическая, вероятная, возможная связь между двумя (парная) или несколькими (множественная) случайными величинами. [8, с.269].
Для числовой оценки возможной связи между двумя случайными величинами: Y(со средним My и среднеквадратичным отклонением Sy) и — X (со средним Mx и среднеквадратичным отклонением Sx) принято использовать так называемый коэффициент корреляции:
Rxy=
Этот коэффициент может
Если коэффициент корреляции равен нулю, то X и Y называют некоррелированными. Считать их независимыми обычно нет оснований — оказывается, что существуют такие, как правило — нелинейные связи величин, при которых Rxy = 0, хотя величины зависят друг от друга. Обратное всегда верно — если величины независимы, то Rxy = 0. Но, если модуль Rxy = 1, то есть все основания предполагать наличие линейной связи между Y и X. Именно поэтому часто говорят о линейной корреляции при использовании такого способа оценки связи между случайными величинами.
В отдельных случаях приходится решать вопрос о связях нескольких (более 2) случайных величин или вопрос о множественной корреляции.
Пусть X, Y и Z - случайные величины, по наблюдениям над которыми мы установили их средние Mx, My,Mz и среднеквадратичные отклонения Sx, Sy, Sz.
Тогда можно найти парные коэффициенты корреляции Rxy, Rxz, Ryz по приведенной выше формуле (2.1). Но этого явно недостаточно - ведь мы на каждом из трех этапов попросту забывали о наличии третьей случайной величины. Поэтому в случаях множественного корреляционного анализа иногда требуется отыскивать так называемые частные коэффициенты корреляции — например, оценка виляния Z на связь между X и Y производится с помощью коэффициента:
Rxy.z
=
И, наконец, можно поставить вопрос — а какова связь между данной случайной величиной и совокупностью остальных? Ответ на такие вопросы дают коэффициенты множественной корреляции Rx.yz, Ry.zx, Rz.xy, формулы для вычисления которых построены по тем же принципам — учету связи одной из величин со всеми остальными в совокупности.
На сложности вычислений всех описанных показателей корреляционных связей можно не обращать особого внимания - программы для их расчета достаточно просты и имеются в готовом виде во многих ППП современных компьютеров. Например, программное обеспечение «STATISTICA 6.0» с помощью которого и производился ряд расчетов в этой работе в практической ее части.
3. ЛИНЕЙНАЯ РЕГРЕССИЯ
В тех случаях, когда из природы процессов в модели или из данных наблюдений над ней следует вывод о нормальном законе распределения двух случайных величин - Y и X, из которых одна является независимой, т. е. Y является функцией X, то возникает соблазн определить такую зависимость “формульно”, аналитически. [8, с.256].
В случае успеха нам будет намного проще вести моделирование. Конечно, наиболее заманчивой является перспектива линейной зависимости типа Y = a + bX .
Подобная задача носит название задачи регрессионного анализа и предполагает следующий способ решения.
Выдвигается следующая гипотеза:
H0: случайная величина Y при фиксированном значении величины X распределена нормально с математическим ожиданием.
My = a + bX и дисперсией Dy, не зависящей от X.
При наличии результатов наблюдений над парами Xi и Yi предварительно вычисляются средние значения My и Mx, а затем производится оценка коэффициента b в виде:
b =
- что следует из определения коэффициента корреляции.
После этого вычисляется оценка для a и производится проверка значимости полученных результатов. Таким образом, регрессионный анализ является мощным, хотя и далеко не всегда допустимым расширением корреляционного анализа, решая всё ту же задачу оценки связей в сложной системе.
Теперь более подробно рассмотрим множественную или многофакторную регрессию. Нас интересует только линейная модель вида:
Y=A0+A1X1+A2X2+…..AkXk. (3.2)
Изучение связи между
тремя и более связанными между
собой признаками носит название
множественной (многофакторной) регрессии.
При исследовании зависимостей методами
множественной регрессии задача
формулируется так же, как и
при использовании парной регрессии,
т. е. требуется определить аналитическое
выражение связи между
3.1.ЭТАПЫ ПОСТРОЕНИЯ МОДЕЛЕЙ МНОЖЕСТВЕННОЙ РЕГРЕССИИ
Построение моделей
множественной регрессии
• выбор формы связи (уравнения регрессии);
• отбор факторных признаков;
• обеспечение достаточного объема совокупности для получения несмещенных оценок.
Рассмотрим подробнее каждый из них.
Выбор формы связи затрудняется тем, что, используя математический аппарат, теоретически зависимость между признаками может быть выражена большим числом различных функций.
Выбор типа
уравнения осложнен тем, что для
любой формы зависимости
Наиболее приемлемым способом определения вида исходного уравнения регрессии является метод перебора различных уравнений.
Сущность данного метода заключается в том, что большое число уравнений (моделей) регрессии, отобранных для описания связей какого-либо социально-экономического явления или процесса, реализуется на ЭВМ с помощью специально разработанного алгоритма перебора с последующей статистической проверкой, главным образом на основе t-критерия Стьюдeнта и F-критерия Фишера. Способ перебора является достаточно трудоемким и связан с большим объемом вычислительных работ. Практика построения многофакторных моделей взаимосвязи показывает, что все реально существующие зависимости между социально-экономическими явлениями можно описать, используя пять типов моделей:
Y1,2,…,k =a0 +a 1x1 +a 2x2+ ….+a kxk ;
Y1,2,…,k =a0 x1 a1 +x2a2+ ….+ xk a k;
Y1,2,…,k =ea0+a1x1+a2x2+…+akxk;
Y1,2,…,k =a0 +a 1x12 +a 2x22+ ….+a kxk2;
Y1,2,…,k =a0 + + + ...+ .
Основное значение имеют линейные модели в силу простоты и логичности их экономической интерпретации. Нелинейные формы зависимости приводятся к линейным путем линеаризации.
Важным этапом построения уже выбранного уравнения множественной регрессии являются отбор и последующее включение факторных признаков. Сложность формирования уравнения множественной регрессии заключается в том, что почти все факторные признаки находятся в зависимости один от другого. Проблема размерности модели связи, т. е. определение оптимального числа факторных признаков, является одной из основных проблем построения множественного уравнения регрессии. С одной стороны, чем больше факторных признаков включено в уравнение, тем оно лучше описывает явление. Однако модель размерностью 100 и более факторных признаков сложно реализуема и требует больших затрат машинного времени. Сокращение размерности модели за счет исключения второстепенных, экономически и статистически несущественных факторов способствует простоте и качеству ее реализации. В то же время построение модели регрессии малой размерности может привести к тому, что такая модель будет недостаточно адекватна исследуемым явлениям и процессам. Проблема отбора факторных признаков для построения моделей взаимосвязи может быть решена на основе эвристических или многомерных статистических методов анализа.
Метод экспертных оценок как эвристический метод анализа основных макроэкономических показателей, формирующих единую международную систему расчетов, основан на интуитивно-логических предпосылках, содержательно-качественном анализе. Анализ экспертной информации проводится на базе расчета и анализа непараметрических показателей связи: ранговых коэффициентов корреляции Спирмена, Кендалла и конкордации .