Корреляционно-регриссионный анализ

Автор работы: Пользователь скрыл имя, 10 Сентября 2013 в 14:41, курсовая работа

Краткое описание

В статистике показатели, характеризующие эти явления, могут быть связаны либо корреляционной зависимостью, либо быть независимыми Корреляционная зависимость является частным случаем стохастической зависимости, при которой изменение значений факторных признаков (х 1 х2 ..., хn ) влечет за собой изменение среднего значения результативного признака у.
Корреляционная зависимость исследуется с помощью методов корреляционного и регрессионного анализов.
Корреляционный анализ изучает взаимосвязи показателей и позволяет решить следующие задачи:
1. Оценка тесноты связи между показателями с помощью парных, частных и множественных коэффициентов корреляции;
2. Оценка уравнения регрессии.

Скачать полностью (84.92 Кб) Сколько стоит заказать работу?

Прикрепленные файлы: 1 файл

КУРСАВАЯ.docx

— 92.03 Кб (Скачать документ)

Наиболее приемлемым способом отбора факторных признаков является шаговая регрессия (шаговый регрессионный анализ). Сущность метода шаговой регрессии заключается в последовательном включении факторов в уравнение регрессии и последующей проверке их значимости. Факторы поочередно вводятся в уравнение так называемым "прямым методом". При проверке значимости введенного фактора определяется, насколько уменьшается сумма квадратов остатков и увеличивается величина множественного коэффициента корреляции . одновременно используется и обратный метод, т.е. , исключение факторов, ставших незначимыми на основе t-критерия Стьюдента. Фактор является незначимым, если его включение в уравнение регрессии только изменяет значение коэффициентов регрессии, не уменьшая суммы квадратов остатков и не увеличивая их значения. Если при включении в модель соответствующего факторного признака величина множественного коэффициента корреляции увеличивается, а коэффициент регрессии не изменяется (или меняется несущественно), то данный признак существен и его включение в уравнение регрессии необходимо.

Если же при включении в модель факторного признака коэффициенты регрессии меняют не только величину, но и знаки, а множественный коэффициент корреляции не возрастает, то данный факторный признак признается нецелесообразным для включения в модель связи.

Сложность и взаимное переплетение отдельных факторов, обусловливающих исследуемое экономическое явление (процесс), могут проявляться в так называемой мультиколлинеарности. Под мультиколлинеарностью понимается тесная зависимость между факторными признаками, включенными в модель.

Наличие мультиколлинеарности между признаками приводит к:

искажению величины параметров модели, которые имеют тенденцию к завышению;
изменению смысла экономической интерпретации коэффициентов регрессии;
слабой обусловленности системы нормальных уравнений;
осложнению процесса определения наиболее существенных факторных признаков.

Одним из индикаторов определения наличия мультиколлинеарности между признаками является превышение парным коэффициентом корреляции величины 0,8 .

Устранение мультиколлинеарности может реализовываться через исключение из корреляционной модели одного или нескольких линейно-связанных факторных признаков или преобразование исходных факторных признаков в новые, укрупненные факторы.

Вопрос о том, какой из факторов следует отбросить, решается на основании качественного и логического анализов изучаемого явления.

Качество уравнения регрессии зависит от степени достоверности и надежности исходных данных и объема совокупности. Исследователь должен стремиться к увеличению числа наблюдений, так как большой объем наблюдений является одной из предпосылок построения адекватных статистических моделей.

Аналитическая форма выражения связи результативного признака и ряда факторных называется многофакторным (множественным) уравнением регрессии, или моделью связи.

Уравнение линейной множественной регрессии имеет вид:

Y=A₀+A₁X₁+….A_kX_k

Коэффициенты А_k вычисляются при помощи систем нормальных уравнений. Например, система нормальных уравнений для вычисления коэффициентов регрессии для уравнения линейной регрессии с двумя факторными признаками:

где A_k=a_k

Общий вид нормальных уравнений для расчета коэффициентов регрессии:

4.ОЦЕНКА СУЩЕСТВЕННОСТИ СВЯЗИ , ПРИНЯТИЯ РЕШЕНИЯ НА ОСНОВЕ УРАВНЕНИЯ РЕГРЕССИИ

Проверка адекватности моделей, построенных на основе уравнений регрессии, начинается с проверки значимости каждого коэффициента регрессии.

Значимость коэффициентов регрессии осуществляется с помощью

t-критерия Стьюдента:

где σ ² _аi - дисперсия коэффициента регрессии.

Параметр модели признается статистически значимым, если t_p>t_кр

Наиболее сложным в этом выражении является определение дисперсии, которая может быть рассчитана двояким способом.

Наиболее простой способ, выработанный методикой экспериментирования, заключается в том, что величина дисперсии коэффициента регрессии

может быть приближенно определена по выражению:

где σ ² _y - дисперсия результативного признака;

k - число факторных признаков в уравнении.

Наиболее сложным этапом, завершающим регрессионный анализ, является интерпретация уравнения, т. е. перевод его с языка статистики и математики на язык экономиста.

Интерпретация моделей регрессии осуществляется методами той отрасли знаний, к которой относятся исследуемые явления. Но всякая интерпретация начинается со статистической оценки уравнения регрессии в целом и оценки значимости входящих в модель факторных признаков, т. е. с выяснения, как они влияют на величину результативного признака. Чем больше величина коэффициента регрессии, тем значительнее влияние данного признака на моделируемый. Особое значение при этом имеет знак перед коэффициентом регрессии. Знаки коэффициентов регрессии говорят о характере влияния на результативный признак. Если факторный признак имеет знак плюс, то с увеличением данного фактора результативный признак возрастает; если факторный признак со знаком минус, то с его увеличением результативный признак уменьшается. Интерпретация этих знаков полностью определяется социально-экономическим содержанием моделируемого (результативного) признака. Если его величина изменяется в сторону увеличения, то плюсовые знаки факторных признаков имеют положительное влияние. При изменении результативного признака в сторону снижения положительное значение имеют минусовые знаки факторных признаков. Если экономическая теория подсказывает, что факторный признак должен иметь положительное значение, а он со знаком минус, то необходимо проверить расчеты параметров уравнения регрессии. Такое явление чаще всего бывает в силу допущенных ошибок при решении. Однако следует иметь в виду, что при анализе совокупного влияния факторов, при наличии взаимосвязей между ними характер их влияния может меняться. Для того чтобы быть уверенным, что факторный признак изменил знак влияния, необходима тщательная проверка решения данной модели, так как часто знаки могут меняться в силу допустимых ошибок при сборе или обработке информации.

При адекватности уравнения регрессии исследуемому процессу возможны следующие варианты:

1. Построенная модель на основе ее проверки по F-критерию Фишера в целом адекватна, и все коэффициенты регрессии значимы. Такая модель может быть использована для принятия решений к осуществлению прогнозов.

2. Модель по F-критерию Фишера адекватна, но часть коэффициентов регрессии незначима. В этом случае модель пригодна для принятия некоторых решений, но не для производства прогнозов.

3. Модель по F-критерию Фишера адекватна, но все коэффициенты регрессии незначимы. Поэтому модель полностью считается неадекватной. На ее основе не принимаются решения и не осуществляются прогнозы.

5. КОРРЕЛЯЦИОННО – РЕГРЕССИОННЫЙ АНАЛИЗ УРОЖАЙНОСТИ ЗЕРНОВЫХ И ЗЕРНОБОБОВЫХ КУЛЬТУР

Рассмотрим применение корреляционно-регрессионного анализа на примере уровня урожайности зерновых культур в сельскохозяйственных организациях Минской области в разрезе районов за 2010г.

Один из основных плановых показателей в сельском хозяйстве является урожайность. От ее уровня зависит и структура посевных площадей, валовой сбор продукции растениеводства и в значительной мере объем производимых продуктов животноводства. На ее основе производятся расчеты затрат и доходов и пр. Поэтому, ошибки, допускаемые при обосновании урожайности, сказываются на качестве планов в целом. Урожайность является важнейшим показателем использования ресурсов. Именно в её повышении кроется главная задача, как отдельных домашних хозяйств, так и государства в целом [6, с.440].

Рассмотрим расчет и интерпретацию уравнения многофакторной регрессии по фактическим данным 22 районов Минской области (см. приложение А). Представим исходные данные уровня урожайности зерновых и зернобобовых культур и четырех его факторов следующими условными обозначениями:- урожайность зерновых культур (результативный признак), ц/га –у. Факторные признаки: -энерговооруженность труда, л.с -х₁;внесено органических удобрений, тонн -х₂;внесено минеральных удобрений, кг. -х₃; качество пашни, балл -х_4.

Целесообразно провести корреляционно-регрессионный анализ взаимосвязи приведенных признаков с использованием пакета STATISTICA6.

Для этого вводим исходные значения анализируемых переменных в стартовую панель анализа, после чего вычисляем матрицу парных коэффициентов корреляции. Построенная матрица имеет вид представленный на рисунке 1.

Рисунок 1. Матрица парных коэффициентов корреляции.

Примечание. Источник [собственная разработка]

Согласно матрице парных коэффициентов корреляции , самая тесная прямая связь с результативной переменной У у фактора с X₄ (0,84), а самая слабая но тоже прямая связь у фактора X1 (0,13). Также глядя на связь У со всеми Х ,мы можем сказать , что с ростом факторов Хи значение У также увеличивается.

Матрица парных коэффициентов корреляции применительно к нашему примеру свидетельствует об отсутствии мультиколлиниарности факторов. Ни один из парных коэффициентов корреляции между самими факторами не превышает критического значения (r= 0,8). Это дает основание для включения всех четырех факторов в уравнение регрессии.

Далее, с помощью коэффициентов вариации, необходимо проверить показатели факторов на однородность. Коэффициенты вариации – это относительная мера вариации признака. Он рассчитывается как отношение среднеквадратического отклонения к средней. Если коэффициент вариации меньше 33%, то совокупность признается качественно однородной.

Для этого в пакете STATISTICA 6.0 рассчитываем среднеквадратическое отклонение и среднее значение. Расчет представлен на рисунке 2.

Рисунок 2. Результат расчета дескриптивных статистик

Примечание. Источник [собственная разработка]

Затем рассчитаем непосредственно коэффициенты вариации:

V_{энерговооруженность
на 1работника}= 10,68694/47,5х100=22,5%;

V_{органические удобрения
на 1га посевов}= 2,29522/3,725х100 = 61,62%;

V _{минеральные удобрения
на 1га посевов} = 52,86369/263,8591х100 = 20,03%;

V _{качество пашни} = 4,70503/31,7273 х100 = 14,83%.

Исходя из расчета мы можем сказать , что у нас не вся совокупность качественно однородная, т.к.коэффициент вариации переменной Х₂ превышает 33,3%.

После проверки совокупности, необходимо рассчитать уравнение регрессии. Рисунок 3.

Multiple Regression Results

Dependent: Y Multiple R = ,93188932 F = 28,04918

R?= ,86841771 df = 4,17

No. of cases: 22 adjusted R?= ,83745717 p = ,000000

Standard error of estimate: 3,545994584

Intercept: -22,89392137 Std.Error: 6,572207 t( 17) = -3,483 p = ,0028

X1 beta=,118 X2 beta=,309 X3 beta=,273

X4 beta=,488

(significant betas are highlighted)

Рисунок 3. Результаты множественной регрессии

Примечание. Источник [собственная разработка]

Анализ полученных результатов показывает, что связь между факторными признаками и откликом близка к единице (R=0,9319), а вариация результативного показателя на 86,8% (R²=0,868) почти на все 100% зависит от признаков – факторов.

Скорректированное значение множественного коэффициента детерминации нашего примера также имеется в таблице на рисунке 3.

Уточненный коэффициент множественной детерминации совпадает с его величиной, однако скорректированный коэффициент детерминации всегда ниже, чем нескорректированный. Величина различий зависит от числа факторов, включаемых в уравнение регрессии: при меньшем числе факторов меньше будут и расхождения.

Построения уравнения множественной регрессии. Нахождение параметров множественной регрессии на рисунке 4.

Рисунок 4. Уравнение линейной регрессии

Примечание. Источник [собственная разработка]

Уравнение множественной регрессии, составленное на основе протокола решения на ПЭВМ , имеет вид:

Y = -22,8939+0,0967Х₁+1,1841Х₂+0,0454Х₃+0,9116Х₄

Параметр =0,0967 означает, что с увеличением энерговооружённости на 1 л.с. урожайность зерновых культур возрастает в среднем на 0,0967 ц/га. Параметр =1,1841 означает, что с увеличением внесения органических удобрений на 1 тонн/га урожайность зерновых культур возрастает в среднем на 1,1841 ц/га. Параметр =0,0454 означает, что с увеличением внесения минеральных удобрений на 1 кг/га урожайность зерновых культур возрастает в среднем на 0,0454 ц/га. Параметр =0,9116 означает, что улучшение качества пашни на 1 балл увеличивается урожайность в среднем на 0,9116 ц/га. Параметр в определенной мере отражает влияние неучтенных в модели факторов.

Сейчас зная значения β – коэффициентов для каждой переменной: β₁ = 0,118; β₂= 0,309; β₃ = 0,273; β₄ = 0,488 вычислим частные коэффициенты детерминации.

R² ₁= 0,118 х 0,13= 0,015

R² ₂ = 0,309 х 0,74 = 0,229

R² ₃= 0,273 х 0,77 = 0,210

R² ₄= 0,488 х 0,84 = 0,410

Правильность расчетов можно проверить путем суммирования частных коэффициентов детерминации. Должен получится множественный коэффициент детерминации R². Так и получилось , R² = 0,015+0,229+0,210+0,410=0,86 или 86%.

Информация о работе Корреляционно-регриссионный анализ