Методы изучения корреляционных связей

Автор работы: Пользователь скрыл имя, 24 Сентября 2012 в 20:44, контрольная работа

Краткое описание

В различных областях медицины, биологии, организации здравоохранения, социально-гигиенических и клинических исследованиях проводятся статистический анализ связей, изучение закономерностей и влияющих факторов.
Существуют два вида проявления количественных взаимосвязанностей между признаками (явлениями, факторами) – функциональные и корреляционные.

Прикрепленные файлы: 1 файл

Документ Microsoft Word.doc

— 250.50 Кб (Скачать документ)

Тема: Методы изучения корреляционных связей  

 

 

Вопросы:  
-     Корреляционный анализ (основные понятия)  
-     Коэффициент парной корреляции  
-     Ранговый коэффициент (Спирмена)  
-     Определение тесноты связи между качественными признаками (коэффициенты Шарлье, Юла, Пирсона)  
Продолжительность занятия: 4 часа  
Самостоятельная работа: лабораторная работа №7  
 
Теоретическая часть  

 

 

Корреляционный анализ

В различных областях медицины, биологии, организации здравоохранения, социально-гигиенических и клинических исследованиях проводятся статистический анализ связей, изучение закономерностей и влияющих факторов.  
Существуют два вида проявления количественных взаимосвязанностей между признаками (явлениями, факторами) – функциональные и корреляционные.  
При функциональных зависимостях каждому значению одной переменной величины соответствует одно вполне определенное значение другой переменной. Такие зависимости наблюдаются в математике и физике. Различные измерительные приборы основаны на функциональной зависимости (высота ртутного столбика дает однозначный ответ о температуре).  
Корреляционные или статистические связи, при которых численному значению одной переменной соответствует много значений другой переменной. Пример, между ростом и весом детей существует бесспорная зависимость, но это не значит, что определенному росту строго соответствует определенный вес. В силу участия в формировании веса многих других факторов, каждому значению роста соответствует несколько значений веса, которые могут быть выражены в виде распределения.  
Функциональная связь имеет место по отношению к каждому конкретному наблюдению. Корреляционная проявляется в среднем для всей совокупности наблюдений. выявления взаимодействия факторов, определение силы и направленности Практическое использование корреляционного анализа: выявление взаимодействия факторов, определение силы и направления влияния одних факторов на другие.  
Следует подчеркнуть, что определение наличия связи между явлениями и факторами – дело специалистов. Статистика лишь измеряет эту связь.  
Корреляционная зависимость отличается по форме связи, ее направлению и силе. Ориентировочное представление о характере зависимости между двумя изученными факторами дает графический анализ (так называемая «скэттер-диаграмма»), который позволяет рассмотреть концентрацию и рассеивание точек на пересечении координат изучаемых признаков в определенном направлении вокруг линии регрессии.  
Форма связи может быть прямолинейной и криволинейной. Прямолинейная связь – равномерные изменения одного признака соответствуют равномерным изменениям второго признака при незначительных отклонениях. Криволинейная связь – равномерные изменения одного признака соответствуют неравномерным изменениям второго признака.  
Направление связи может быть прямое (положительное) или обратное (отрицательное). Если с увеличением одного признака второй также увеличивается или с уменьшением одного другой тоже уменьшается, зависимость прямая, положительная. Если с увеличением одного признака другой уменьшается или с уменьшением первого признака второй увеличивается, зависимость обратная, отрицательная.  
По силе связи зависимость может быть сильная (сильно выражена), средняя (умеренно выражена), слабая (слабо выражена).  

Оценка силы связи по величине коэффициента корреляции

Размер связи 

Характер связи 

Прямая (+) 

Обратная (-) 

Отсутствует 

Слабая 

От 0 до +0,29 

От 0 до -0,29 

Средняя 

От +0,3 до +0,69 

От -0,3 до -0,69 

Сильная 

От +0,7 до +0,99 

От -0,7 до -0,99 

Полная (функциональная) 

+1,0 

-1,0 


Количественная характеристика взаимосвязи изучаемых признаков может быть дана на основании вычисления показателей силы связи между ними (коэффициенты корреляции) и определения зависимости одного признака от изменения другого (коэффициент регрессии).  

 

 

Коэффициент парной корреляции

Коэффициент парной корреляции вычисляется по формуле:  
 или   
Алгоритм расчета коэффициента парной корреляции:  
1)     записывают исходные данные в два вариационных ряда – x и y;  
2)     вычисляют среднюю арифметическую ряда x и y;  
3)     определяют разность между членом ряда и средними величинами;  
4)     перемножают разности ряда x и y между собой;  
5)     находят сумму перемножаемых разностей (с учетом арифметического знака);  
6)     возводят в квадрат каждую разность (отклонение) ряда х и у;  
7)     определяют сумму квадратов отклонений (разностей) для ряда х и у отдельно;  
8)     подставляют полученные данные в исходную формулу и вычисляют коэффициент парной корреляции.  
 
Пример. Определить корреляционную связь между строками введения противодифтерийной сыворотки и летальностью от этого заболевания. 

День введения сыворотки (х) 

Летальность (у) 

d

d

dx

dy

dx*d

1-й 

2,0 

-2 

-5 

25 

10 

2-й 

3,0 

-1 

-4 

16 

3-й 

7,0 

4-й 

9,0 

+1 

+2 

5-й 

14,0 

+2 

+7 

49 

14 

x= 3 

x= 7.0 

Sdx=0 

Sdy=0 

Sdx2=10 

Sdy2=94 

Sdx*d=30 


 
Коэффициент корреляции равен +0,98. Связь  положительная, сильная. Следовательно, между сроками введения сыворотки  и летальностью от дифтерии имеется  очень тесная зависимость. Число  больных в этом примере равно 900.  
Можно определить достоверность коэффициента корреляции, вычислив его среднюю ошибку для большого числа наблюдений (n>50) по формуле:  
, или при меньшем числе наблюдений:   
С достаточно большой надежностью можно утверждать, что зависимость неслучайна, если численное значение rxy превышает свою среднюю ошибку не менее чем в 3 раза.  
 
 
Т.е. связь между признаками считается статистически значимой, если коэффициент корреляции превышает свою ошибку в 3 и более раз  
В том случае, когда отношение коэффициента корреляции к его средней ошибки меньше 3, существование связи между изучаемыми явлениями нельзя признать доказанным.  
Для малого числа наблюдений (n£30) степень надежности коэффициента корреляции может определяться по специальной таблице. При этом число наблюдений таблицы К (число степеней свободе n ) равно числу наблюдений в исследовании без двух, т.е. К = n-2. Как правило, коэффициент корреляции рассчитывается при числе коррелируемых пар не менее 5.  
В медицинских и биологических исследованиях связь между признаками считается статистически значимой, если величина коэффициента корреляции больше или равна табличной при Р=0,05  
Показатели оценки коэффициента корреляции при малом числе наблюдений 

0,1 

0,05 

0,02 

0,01 

0,988 

0,997 

0,9995 

0,99988 

900 

950 

980 

990 

800 

878 

934 

959 

729 

811 

882 

917 

669 

754 

883 

874 

662 

707 

789 

834 

582 

666 

750 

798 

549 

632 

716 

765 

521 

602 

685 

735 

10 

497 

576 

658 

708 

11 

476 

532 

634 

684 

12 

458 

532 

612 

661 

13 

441 

514 

592 

641 

14 

426 

497 

574 

623 

15 

412 

482 

558 

606 

16 

400 

468 

542 

590 

17 

389 

456 

528 

575 

18 

378 

444 

516 

561 

19 

369 

433 

503 

549 

20 

360 

423 

492 

537 

25 

323 

381 

445 

487 

30 

296 

349 

409 

449 

35 

275 

325 

381 

418 

40 

257 

304 

358 

393 

45 

243 

288 

338 

354 

50 

231 

273 

322 

354 

60 

211 

250 

295 

325 

70 

195 

232 

274 

302 

80 

183 

217 

256 

283 

90 

173 

205 

242 

267 

100 

164 

195 

230 

254 


Пример. В районах изучалась  зависимость между охватом населения  прививками и уровнем заболеваемости. Полученный коэффициент корреляции по этим двум признакам был равен 0,81. Число наблюдений – 8 районов (пар), следовательно, К равно 6 (8-2). По таблице  находим строку 6 и сравниваем полученный коэффициент. При данном числе степеней свободы (К) коэффициент корреляции превышает табличный для вероятности Р=0,05 (графа 3). Отсюда с вероятностью, большей, чем 95%, можно утверждать, что зависимость между охватом населения прививками и заболеваемостью не случайна, и эта связь сильная, т.е. чем больше процент привитых, тем меньше уровень заболеваемости.  
Ранговый коэффициент (Спирмена)  
Ранговый коэффициент корреляции более пригоден по сравнению с обычным коэффициентом для характеристики корреляций в случаях нелинейной связи и для данных, распределение которых отличается от нормального. Кроме того, данные для расчета рангового коэффициента могут быть представлены в полуколичественных измерениях. Достаточно ориентировочных данных об уровне признака. Вычисление коэффициента проводится по формуле:  
.  
Алгоритм расчета коэффициента корреляции рангов:  
1)     заменяют количественные (или полуколичественные, или качественные) признаки ряда х и у на ранги, ранжируя при этом строго от меньшей величины к большей (или строго от большей к меньшей по усмотрению исследователя);  
2)     определяют условные отклонения (а), т.е. разность рангов по каждой строке;  
3)     возводят условные отклонения в квадрат;  
4)     определяют сумму квадратов условных отклонений;  
5)     подставляют полученные данные в известную формулу и вычисляют коэффициент корреляции.  
Пример. Измерить корреляцию между смертностью от рака молочной железы и рака матки (материалы смертности 5 внеевропейских стран за 1950 – 1952 гг.), 

Страна 

Смертность от рака молочной железы на 100000 женщин  
х 

Смертность от рака матки  на  
 100000 женщин  
у 

Порядковые номера (ранги) по размерам смертности от рака 

Разность рангов  
а 

Квадрат разности рангов  
а

молочной железы 

матки 

Новая Зеландия 

28,6 

14,9 

Австралия 

23,5 

13,4 

ЮАР 

21,1 

16,3 

Чили 

5,8 

15,3 

Япония 

3,3 

19,1 

16 

           

2=36 


 
Поскольку вычисление коэффициента корреляции рангов обычно производится на малом  числе наблюдений (число пар в  рядах х, у), особое значение приобретает  оценка статистической значимости (достоверности) этого коэффициента. Это тем более важно, так как ранговый коэффициент всегда менее точен, нежели парный коэффициент корреляции.  
Оценка достоверности коэффициента корреляции рангов проводится разными методами в зависимости от числа наблюдений. При числе парных наблюдений, равномерном или менее 9 (n£9), оценка значимости производится по специальной таблице. При числе наблюдений от 10 и более оценка значимости может осуществляться с помощью критерия t по формуле:  
.  
Используя таблицу значений t Стьюдента, при числе степеней свободы без двух (n`=n-2), сравнивают вычисленное значение с табличным. Коэффициент признается значимым при условии, если расчетное t>t0,05 табличного.  
Критическое значение коэффициентов корреляции Спирмена –  r 

Уровни значимости 

Уровни значимости 

5% 

1% 

5% 

1% 

1,000 

 

16 

0,425 

0,601 

0,900 

1,000 

18 

0,399 

0,564 

0,829 

0,843 

20 

0,377 

0,534 

0,714 

0,893 

22 

0,359 

0,508 

0,643 

0,833 

24 

0,343 

0,485 

0,600 

0,783 

26 

0,329 

0,465 

10 

0,564 

0,746 

28 

0,317 

0,448 

12 

0,506 

0,712 

30 

0,306 

0,435 

14 

0,456 

0,645 

     

Информация о работе Методы изучения корреляционных связей