Теория вероятностей и медицинская статистика
Автор работы: Пользователь скрыл имя, 13 Января 2014 в 20:20, лекция
Краткое описание
Статистическая гипотеза – предположение о виде распределения или о величинах неизвестных параметров
генеральной совокупности. Примеры статистических гипотез: 1. генеральная совокупность распределена по закону Пуассона; 2.дисперсии двух нормальных совокупностей равны между собой.
Содержание
1.
Определение термина статистическая гипотеза
2.
Статистические критерии
3.
Алгоритм проверки статистических гипотез
4.
Проверка гипотез о виде распределения,
критерии согласия
5.
Проверка гипотез о параметрах нормально
распределенных совокупностей
Прикрепленные файлы: 1 файл
СТАТИСТИЧЕСКИЕ ГИПОТЕЗЫ
Лекция №6
Теория вероятностей и
медицинская статистика
Кафедра медицинской информатики РУДН
Содержание лекции
1.
Определение термина статистическая гипотеза
2.
Статистические критерии
3.
Алгоритм проверки статистических гипотез
4.
Проверка гипотез о виде распределения,
критерии согласия
5.
Проверка гипотез о параметрах нормально
распределенных совокупностей
ПОНЯТИЕ О ГИПОТЕЗЕ
СТАТИСТИЧЕСКИЕ КРИТЕРИИ
АЛГОРИТМ ПРОВЕРКИ ГИПОТЕЗ
Статистическая проверка
статистических гипотез
Что такое гипотеза?
Статистическая гипотеза – предположение о виде
распределения или о величинах неизвестных параметров
генеральной совокупности.
Примеры статистических гипотез:
1.
генеральная совокупность распределена по закону Пуассона;
2.
дисперсии двух нормальных совокупностей равны между собой.
Нулевая (основная) гипотеза – выдвинутая гипотеза;
гипотеза, истинность которой проверяется.
H
0
Конкурирующая (альтернативная) гипотеза – гипотеза,
которая противоречит нулевой.
H
1
Примеры:
H
0
: µ= 5
(математическое ожидание нормального распределения равно 5)
H
1
: µ ≠
5;
µ
>
5;
µ
<
5
(математическое
ожидание
не
равно
5,
больше
или
меньше
чем
5)
H
0
: µ
1
= µ
2
( математические ожидания двух случайных величин равны)
H
1
: µ
1
≠ µ
2
;
µ
1
<µ
2
; µ
1
>µ
2
(математические
ожидания
двух
величин
не
равны)
Простой называют гипотезу, содержащую только одно предположение.
Сложной называют гипотезу, которая состоит из конечного или
бесконечного числа простых гипотез.
Примеры:
1. Пример простой гипотезы: если λ - параметр показательного
распределения, то гипотеза H
0
: λ = 5 - простая.
2. Пример сложной гипотезы: сложная гипотеза H : λ > 5 состоит из
бесчисленного множества простых вида H
i
: λ = b
i
, где b
i
– любое число,
большее 5.
Простые и сложные гипотезы
В результате статистической проверки гипотезы может быть
принято как правильное, так и неправильное решение:
Все мы ошибаемся
Гипотеза H
0
Принимается
Отвергается
Верна
Правильное решение
Ошибка I рода
Не верна
Ошибка II рода
Правильное решение
Существует два вида (рода) ошибок:
Ошибка первого рода состоит в том, что будет отвергнута правильная нулевая гипотеза.
Ошибка второго рода состоит в том, что будет принята неправильная нулевая гипотеза.
Все мы ошибаемся
Вероятность совершить ошибку I рода принято обозначать через
α
; ее
называют уровнем значимости.
Вероятность совершить ошибку II рода принято обозначать через
β.
Тогда вероятность не допустить ошибку II рода будет равна (1 − β); ее
называют мощностью критерия (или функцией мощности) .
Гипотеза H
0
H
0
принимается
H
1
принимается
H
0
верна
P (H
0
|H
0
) = 1 - α
P (H
0
|H
1
) = α
H
1
верна
P (H
0
|H
1
) = β
P (H
1
|H
1
) = 1 - β
Все мы ошибаемся
Вероятность ошибки I и II рода связаны между собой.
При одинаковом размере выборки:
Одновременно снизить вероятность ошибки I и II рода
можно только увеличив объем выборки!
Выбор
α
относится к фазе планирования исследования.
β
α
↑
⇔
↓
(
)
2
2
2
2
Δ
+
+
=
kontr
osn
x
S
x
S
Z
Z
n
β
α
Пример формулы для расчета минимального объема выборки для сравнения показателя
в двух независимых группах (например, необходимо сравнить достигнутые показатели АД
у двух групп пациентов):
2
,
,
Δ
kontr
osn
Sx
Sx
Z
Z
β
α
- Критические значения нормального распределения, соответствующие
заданным уровням ошибок I и II рода.
- Стандартные отклонения сравниваемых параметров в основной и
контрольной группах.
- Требуемая величина различий между средними значениями
Как определить объем выборки?
Пусть СКО в основной и контрольной группах равны 10 и 15 соответственно, величина
различий в АД, которую исследование должно выявить равно 10 мм рт.ст., Z
α
= 1,96 (для
α = 5%), Z
β
= 1,65 (для β = 10%). Тогда:
(
)
42
100
225
100
13
10
15
10
65
,1
96
,1
2
2
2
2
≈
+
⋅
=
+
+
=
n
(
)
67
100
225
100
6,
20
10
15
10
96
,1
58
,2
2
2
2
2
≈
+
⋅
=
+
+
=
n
Если одновременно уменьшить уровень ошибки I рода до 1%, а ошибки II рода до 5%,
то количество больных, включенную в каждую группу исследования должно быть уже не
менее:
Как определить объем выборки?
Пример 1:
Проводится диагностическое исследование на наличие вирусного гепатита B.
H
0
: человек здоров
H
1
: человек инфицирован гепатитом
Ошибка I рода – тест показал, что человек болеет гепатитом, хотя на самом деле он
здоров.
(ложноположительный результат)
Ошибка II рода – инфицированного человека ошибочно посчитали здоровым
(ложноотрицательный результат)
К чему приводят ошибки
Пример 2:
Проводится авторизация пользователя в системе интернет-банкинга.
H
0
: пользователь ввел правильные логин и пароль
H
1
: введенные логин и пароль не зарегистрированы в системе безопасности
Ошибка I рода – авторизованный (надежный) пользователь классифицируется как
нарушитель (в доступе отказано)
Ошибка II рода – хакер классифицирован как авторизованный пользователь
К чему приводят ошибки
К чему приводят ошибки
Пример 3:
Работает программа распознавания текста.
H
0
: Это буква «А»
H
1
: Это другая буква (например, «Н»)
Ошибка I рода – подозрительно много согласных в русском алфавите
Ошибка II рода – программу явно делали в Мааскве
Для проверки нулевой гипотезы используют специально подобранную случайную величину, точное
или приближенное распределение которой известно.
В частности, для этой цели можно использовать нормально распределенную случайную величину
(Z), величину, распределенную по закону Фишера (F), Стьюдента (t), Хи-квадрат (χ
2
) и т.д. В общем виде
обозначим эту величину через K.
Статистическим критерием (или просто критерием) называют случайную
величину K, которая служит для проверки нулевой гипотезы.
Статистические критерии
Для проверки гипотезы по данным выборок вычисляют частные значения входящих в критерий
величин и таким образом получают частное (наблюдаемое) значение критерия
Наблюдаемым значением K
набл
(или статистикой критерия) называют
значение критерия, вычисленное по выборкам.
Статистические критерии
После выбора определенного критерия множество всех его
возможных значений разбивают на два непересекающихся
подмножества: одно из них содержит значения критерия, при которых
нулевая гипотеза отвергается, а другая – при которых она принимается.
Критической областью называют совокупность значений
критерия, при которых нулевую гипотезу отвергают.
Областью принятия гипотезы (областью допустимых значений)
называют совокупность значений критерия, при которых гипотезу
принимают.
Критическими точками (границами) k
cr
называют точки,
отделяющие критическую область от области принятия гипотезы.
Критическая
область
Область принятия
гипотезы
Критическая точка
Если наблюдаемое значение критерия принадлежит критической
области - гипотезу отвергают, если наблюдаемое значение критерия
принадлежит области принятия гипотезы - гипотезу принимают.
Общая схема проверки статистических гипотез
1. Формулируем нулевую и альтернативную гипотезы
Определяется не желанием исследователя, а методом
статистического анализа. Обычно за нулевую
гипотезу принимают отсутствие различий.
2. Задаем величину уровня значимости α
Обычно не более 0.05, чем меньше α, тем больше
выборка, дороже исследование.
3. Выбираем подходящую функцию – статистику критерия. Находим
закон распределения для обеих гипотез.
В качестве критерия может быть использовано одно из
хорошо изученных распределений. Выбор зависит от
метода анализа и характера выборки.
4. На основе закона распределения и уровня значимости α разбиваем
область значений статистики на критическую и область принятия
гипотезы. (находим критические точки)
Критические значения зависят от выбранной
статистики, параметров выборки (объем), значения
α. Чем больше n, тем меньше К
крит
; чем меньше α, тем
больше К
крит
.
5. На основе выборки вычисляют значение статистики критерия
(K
набл
) и выясняют в какую из областей попадает ее значение. Если
это область принятия гипотезы – нулевую гипотезу принимают,
иначе – отвергают.
Для одностороннего критерия:
если К ≤ К
крит
то принимаем H
0
Для двустороннего критерия:
если |К| ≤ К
крит
то принимаем H
0
КРИТЕРИИ СОГЛАСИЯ
Проверка гипотезы о виде
распределения
Проверка гипотезы о виде распределения
Когда закон распределения параметра генеральной совокупности неизвестен, но по
имеющейся выборке есть основания предположить, что он имеет определенный вид,
необходимо провести проверку гипотезы о виде распределения.
Суть проверки состоит в сравнении
эмпирических (наблюдаемых) частот и
теоретических частот (вычисленных в
предположении, что случайная величина
распределена по определенному закону).
Проверка гипотезы о виде распределения
I.
Формулируем гипотезы:
H
0
:
- «случайная величина распределена по закону Гаусса (Пауссона)»
- «между эмпирическим законом распределения и теоретической
моделью закона нет существенных различий»
H
1
:
- «закон распределения случайной величины (параметра
генеральной совокупности) отличается от закона Гаусса (Пуассона)
II.
Задаем уровень значимости
α
:
α
= 0.05, 0.01, и т.д.
Проверка гипотезы о виде распределения
III.
Выбираем статистику критерия (критерий согласия):
Критерием согласия называют критерий проверки гипотезы о
предполагаемом законе неизвестного распределения.
критерий согласия Хи-квадрат Пирсона;
критерий согласия Колмогорова;
критерий согласия Смирнова;
другие критерии.
Проверка гипотезы о виде распределения
IV.
Проверка гипотезы (критерий χ
2
-Пирсона):
χ
2
=
(h
i
−h
ti
)
2
h
ti
i=1
m
∑
,
m ≈ n
Объем выборки n > 50
Теоретическая функция распределения
k=2 для распределения Пуассона
k=3 для распределения Гаусса
Значение критерия χ
2
набл
вычисляем по формуле:
Находим χ
2
крит
:
1. Если χ
2
набл
≤ χ
2
крит
, то различия между эмпирическим и
теоретическим распределением не значимо, принимаем
гипотезу H
0
.
H
0
S=1-α
S=α
2. Если χ
2
набл
> χ
2
крит
, то существуют значимые различия,
основная гипотеза (H
0
) отбрасывается. Принимаем
гипотезу H
1
.
Проверка гипотезы о виде распределения
IV.
Проверка гипотезы (критерий Колмогорова-Смирнова):
Объем выборки может быть любым
1. Находим выборочное среднее (x’) и СКО (s)
2. Строим эмпирическую функцию распределения: сортируем x
i
и определяем абсолютную и кумулятивную (Yi) частоты.
3. Нормируем значение xi по формуле:
4. По таблице (Лапласа) находим значение функции Гаусса Y (u
i
)
для каждого u
i
.
5. Вычисляем различия между наблюдаемой (Yi) и
теоретической Y (u
i
) частотой распределения признака:
По таблице находим d
крит
:
1. Если d
набл
≤ d
крит
, принимаем гипотезу H
0
.
u
i
=
(x
i
− x)
s
d
i
=Y
i
−Y(u
i
)
n
11
12
13
14
15
d
0.251
0.242
0.234
0.226
0.219
n
16
17
18
19
20
d
0.213
0.207
0.202
0.197
0.192
2. Если d
набл
> d
крит
, принимаем гипотезу H
1
.
ГИПОТЕЗА О РАВЕНСТВЕ СРЕДНЕГО ЧИСЛУ
ГИПОТЕЗЕ О РАВЕНСТВЕ СРЕДНИХ ЗНАЧЕНИЙ
ГИПОТЕЗА О РАВЕНСТВЕ ДИСПЕРСИЙ
Проверка гипотез о параметрах нормально
распределенных совокупностей
Гипотеза о равенстве среднего определенному числовому
значению при известной дисперсии
I.
H
o
: µ=µ
0
(среднее значение равно числу µ
0
)
H
1
: µ≠µ
0
II.
Находим выборочное среднее:
III.
В качестве критерия применяем функцию нормального распределения.
Статистика критерия вычисляется по формуле:
IV.
Задаем уровень значимости α и находим U
крит
из уравнения
V.
Если |U| ≤ U
крит
то принимаем H
0
Если |U| > U
крит
то принимаем H
1
U = n
x −
µ
0
σ
x =
1
n
x
i
i=1
n
∑
α
2
=
φ
(u)du
U
êð
∞
∫
Гипотеза о равенстве среднего определенному числовому
значению при неизвестной дисперсии
I.
H
o
: µ=µ
0
(среднее значение равно числу µ
0
)
H
1
: µ≠µ
0
II.
Находим выборочное среднее:
и дисперсию:
III.
В качестве критерия применяем распределение Стьюдента с n-1 свободы.
Статистика критерия вычисляется по формуле:
IV.
Задаем уровень значимости α и по таблицам находим t
крит
V.
Если |t| ≤ t
крит
то принимаем H
0
Если |t| > t
крит
то принимаем H
1
t = n
x −
µ
0
s
x =
1
n
x
i
i=1
n
∑
s
2
=
1
n−1
(x
i
− x)
2
k=1
n
∑
Гипотеза о равенстве средних значений двух нормально
распределенных совокупностей при неизвестных дисперсиях
I.
H
o
: µ
x
=µ
y
;
(µ
x
-
µ
y
) = 0
H
1
: µ
x
≠µ
y
II.
Находим точечные оценки среднего и дисперсии обеих выборок.
III.
Статистика критерия вычисляется распределена по закону Стьюдента с (n+m-2) свободы
и вычисляется по формуле:
IV.
Задаем уровень значимости α и по таблицам находим t
крит
V.
Если |t| ≤ t
крит
то принимаем H
0
Если |t| > t
крит
то принимаем H
1
t =
x − y
(n−1)⋅s
x
2
+(m−1)⋅s
y
2
(n+m+2)
n⋅m
n+m
Гипотеза о равенстве дисперсий двух нормально
распределенных совокупностей
I.
H
o
: σ
2
x
=σ
2
y
H
1
: µ
x
≠µ
y
II.
Находим точечную оценку дисперсии обеих выборок
F =
s
x
x
s
y
2
IV. Задаем уровень значимости α и по таблицам
находим F
крит
V. Если |F| ≤ F
крит
то принимаем H
0
Если |F| > F
крит
то принимаем H
1
III.
В качестве статистики критерия используется распределение Фишера с (n-1; m-1) степенями свободы.
F
набл
вычисляем по формуле:
Средние значения известны
Средние значения не известны
s
x
2
=
1
n−1
(x
i
− x)
2
i=1
n
∑
s
y
2
=
1
n−1
(y
i
− y)
2
i=1
m
∑
s
x
2
=
1
n−1
(x
i
−µ
x
)
2
i=1
n
∑
s
y
2
=
1
n−1
(x
i
−µ
y
)
2
i=1
n
∑
Инструментарий для
статистического анализа
Способы проведения статистического анализа
Ручной (или аналоговый)
Автоматизированный (почти) – с
помощью специальных программ
ПО для статистического анализа
SPSS (IBM)
Возможности почти безграничные. Очень
требовательна к ресурсам системы. Требует спец.
подготовки.
3000 – 20000 $
Statistica (StatSoft)
Мощная, популярная программа с графическим
интерфейсом и большим набором встроенных
модулей. Раюотает только под Windows.
3000 – 10000 $
SAS (SAS Institute
Статистическая обработка данных любой
сложности. Большое количество дополнительных
модулей. Есть режим командной строки и GUI.
2000 - 5000 $
STATA (StataCorp)
Графический интерфейс, встроенный язык
программирования. Прост в обращении, но
содержит все необходимые аналитические
возможности.
1500 - 2500 $
MedCalc
Функциональные возможности небольшие, но
адаптированы для медицинских исследований.
Работает только под Windows&
300 $
R
Достаточно большой набор функций. Отсутствует
дружественный графический интерфейс – только
командная строка
Бесплатная
Информация о работе Теория вероятностей и медицинская статистика