Теоретический аспект изучения корреляционно-регрессионного анализа

Автор работы: Пользователь скрыл имя, 07 Марта 2014 в 09:52, контрольная работа

Краткое описание

Обработка статистических данных уже давно применяется в самых разнообразных видах человеческой деятельности. Сейчас очень трудно назвать ту сферу, в которой она бы не использовалась. Ни в одной области знаний и практической деятельности обработка статистических данных не играет такой исключительно большой роли, как в экономике, имеющей дело с обработкой и анализом огромных массивов информации о социально-экономических явлениях и процессах. Всесторонний и глубокий анализ этой информации, так называемых статистических данных, предполагает использование различных специальных методов, важное место среди которых занимает корреляционный и регрессионный анализы обработки статистических данных.

Прикрепленные файлы: 1 файл

Корреляционно-регрессионный анализ.doc

— 308.50 Кб (Скачать документ)

При линейной однофакторной связи t-критерий можно рассчитать по формуле:

 

      (25)

 

где (n – 2) – число степеней свободы при заданном уровне значимости α и объеме выборки n.

Полученное значение tрасч сравнивают с табличным значением t-критерия (для α = 0,05 и 0,01). Если рассчитанное значение tрасч превосходит табличное значение критерия tтабл, то практически невероятно, что найденное значение обусловлено только случайными колебаниями (то есть отклоняется гипотеза о его случайности).

После проверки адекватности, установления точности и надежности построенной модели (уравнения регрессии), ее необходимо проанализировать. Прежде всего нужно проверить, согласуются ли знаки параметров с теоретическими представлениями и соображениями о направлении влияния признака-фактора на результативный признак (показатель).

Для удобства интерпретации параметра a1 используют коэффициент эластичности. Он показывает средние изменения результативного признака при изменении факторного признака на 1% и вычисляется по формуле, %:

 

        (26)

 

Таким образом, мы рассмотрели все теоретические аспекты корреляционно-регрессионного анализа. Во второй главе курсовой работы исследуем практическое применение корреляционно – регрессионного статистического метода.

корреляционный связь регрессивный уравнение

2. Применение корреляционно-регрессионного метода на практике

 

Корреляционная связь между признаками проявляется не в индивидуальных случаях, а в массе случаев в среднем при большом числе наблюдений в форме тенденции.

Признаки по их значению в таких взаимосвязях делятся на два класса: признаки, обусловливающие изменение других, связанных с ними признаками, называются факторными (или экзогенными переменными), или просто факторами, а признаки, изменяющиеся под действием первых, факторных, называются результативными (или эндогенными переменными).

Статистическая связь двух признаков x и y называется парной корреляцией. Влияние же нескольких факторов на результативный признак y называется множественной корреляцией.

По направлению выделяются прямые и обратные связи (положительные и отрицательные корреляции):

  • при прямых связях с увеличением признака x увеличивается и признак y (например, автоматизация труда способствует росту рентабельности производства),
  • при обратных – с увеличением признака x признак y уменьшается (так, с увеличением уровня фондоотдачи снижается себестоимость единицы производимой продукции).

Для установления наличия корреляционной связи и формы регрессионной зависимости в случае парной корреляции широко используется графический метод построения диаграммы рассеяния, являющейся геометрическим местом точек с абсциссами, определяющимися значениями факторной переменной, и ординатами, которые определяются соответствующими значениями зависимой, результативной, переменной.

В качестве примера построим диаграмму рассеивания оценок 10 учащихся по математике и физике. В таблице 2.1. приведены баллы успеваемости школьников.

 

Таблица 2.1. Баллы успеваемости школьников

школьник

А

Б

В

Г

Д

Е

Ж

З

И

К

Математика

50

58

14

40

70

96

80

24

40

62

Физика

50

56

28

42

62

76

70

34

46

56


 

Рисунок 2.1

 

По диаграмме видно, что связь между x и y прямая, т.е. корреляция – положительная, а так как точки диаграммы лежат на прямой линии, между признаками имеется положительная линейная корреляция.

Другой пример. Диаграмма (рис. 2.2), построенная на основании таблицы успеваемости (таблица 2.2), изображает наличие отрицательной корреляции между значениями параметров.

 

Таблица 2.2

школьник

А

Б

В

Г

Д

Е

Ж

З

И

К

Математика

26

34

8

48

96

26

62

16

78

38

Литература

58

48

90

38

14

62

28

76

20

48


 

Диаграмма рассеивания приведена на рис. 2.2.

 

Рисунок 2.2

 

Но, поскольку точки на графике не лежат на прямой, связь между параметрами не является линейной.

 

 

Таблица 2.3. Баллы успеваемости школьников

школьник

А

Б

В

Г

Д

Е

Ж

З

И

К

Математика

21

63

42

75

12

97

49

71

37

95

Физкультура

41

25

21

62

89

21

52

89

72

91


 

Рисунок 2.3

 

Следующая диаграмма рассеяния (рис. 2.3), построенная по данным таблицы 2.3, отображает отсутствие корреляции между параметрами.

В качестве грубой количественной оценки корреляции используется коэффициенты корреляции рангов Спирмена и Кендалла, меняющиеся от –1 до +1, и чем ближе они по модулю к 1, тем теснее зависимость.

Ранг – это порядковый номер единицы совокупности в ранжированном ряду. Ранжировать оба признака необходимо в одном и том же направлении: либо от меньших значений к большим, либо наоборот.

Идея использования ранговых коэффициентов состоит в следующем: если проранжировать совокупность по двум признакам, то полное совпадение рангов означает максимально тесную прямую связь, а полная противоположность рангов – максимально тесную обратную связь.

Ранговый коэффициент Спирмена рассчитывается согласно формуле:

 

      (27)

 

Где – сумма квадратов разностей рангов,

 – разность рангов каждой пары значений x и y,

n – общее число вариант, имеющих оба признака (число наблюдений).

Ранговый коэффициент корреляции Кендалла использует несколько другую методику вычислений и определяется согласно формуле:

 

      (28)

 

Здесь – сумма положительных и отрицательных баллов (фактическая сумма рангов), где P – общая сумма числа рангов для каждого значения более высокого порядка (эти баллы учитываются со знаком «плюс»), Q – общая сумма числа рангов следующих для каждого значения , меньших по значению (эти баллы учитываются со знаком «минус»).

Рассмотрим методику вычислений обоих ранговых коэффициентов на примере измерения тесноты связи между объёмом выпуска продукции (y, млн руб.) и стоимостью основных производственных фондов (x, млн руб.) по данным 10 предприятий.

Расчет необходимых показателей (графы 3 – 8) на основе исходных данных (графы 1 и 2) дается в следующей таблице:

 

 

Таблица 2.4. Расчет ранговых коэффициентов

Х

У

Nx

Ny

D= Nx – Ny

D2

Подсчет баллов

+

-

1

2

3

4

5

6

7

8

1,5

3,9

1

3

-2

4

7

2

1,8

4,4

2

5

-3

9

5

3

2

3,8

3

2

1

1

6

1

2,2

3,5

4

1

3

9

6

0

2,3

4,8

5

6

-1

1

4

1

2,6

4,3

6

4

2

4

4

0

3

7

7

9

-2

4

1

2

3,1

6,5

8

8

0

0

1

1

3,5

6,1

9

7

2

4

1

0

3,8

8,2

10

10

0

0

-

-

-

-

-

-

-

SD2=36

Р=35

Q=-10


 

Коэффициент корреляции рангов Спирмена получается равным

 

 

Для расчета коэффициента корреляции рангов Кендэлла находим общую сумму баллов (эти баллы даны в графах 7 и 8): S = P + Q = 35 + (-10) = 25.

Тогда ранговый коэффициент Кендалла равен

 

 

Следует заметить, что коэффициент Кендалла всегда меньше, чем коэффициента Спирмена, так как .

Если значения, или точки, диаграммы рассеяния расположены строго на прямой или лежат на линии, приближающейся к прямой, то для установления тесноты парной связи используется линейный коэффициент корреляции (или называемый просто коэффициент корреляции).

Эмпирическая (т.е. выборочная) оценка этой характеристики вычисляется по следующим формулам:

 

  (29)

 

Здесь черта сверху означает операцию среднего арифметического:

 

 

Величина

 

      (30)

 

называется ковариацией и обозначается как cov (x, y).

Величину выборочного коэффициента корреляции следует считать достаточной для статистического обоснованного вывода о наличии корреляционной связи между исследуемыми переменными, если будет выполнено условие:

 

        (31)

 

Где – табличное значение квантили распределения Стьюдента с (n – 2) – мя степенями свободы и уровнем значимости, равным a/2.

В альтернативном случае неравенства принимается гипотеза об отсутствии корреляционной связи.

Доверительный интервал для теоретического (т.е. истинного) коэффициента корреляции r заключен в пределах:

 

th z1 < r< th z2,

 

где

 – квантиль нормального распределения с уровнем значимости a/2, причем величина

 

        (32)

 

находится при заданном по таблицам z-преобразования Фишера (или прямым вычислением).

По данным n = 39 предприятий получен коэффициент корреляции =-0,654, характеризующий тесноту связи между себестоимостью продукции (y) и производительностью труда (x). Найти доверительную оценку для r, задавшись 95%-й доверительной вероятностью (или 5%-м уровнем значимости).

Из таблиц z-преобразования Фишера (или прямым вычислением)

находим z = – 0,7823.

Тогда получим

Далее, по таблицам z-преобразования Фишера, но уже по значениям: функции и находим аргументы и = – 0,756, = – 0,420.

Информация о работе Теоретический аспект изучения корреляционно-регрессионного анализа