Автор работы: Пользователь скрыл имя, 29 Сентября 2013 в 12:32, лекция
Установление закономерностей, которым подчинены массовые случайные явления, основано на изучении методами теории вероятностей статистических данных — результатов наблюдений.
Первая задача математической статистики — указать способы сбора и группировки статистических сведений, полученных в результате наблюдений или в результате специально поставленных экспериментов.
Вторая задача математической статистики — разработать методы анализа статистических данных в зависимости от целей исследования. Сюда относятся:
а) оценка неизвестной вероятности события; оценка неизвестной функции распределения; оценка параметров распределения, вид которого известен; оценка зависимости случайной величины от одной или нескольких случайных величин и др.;
, если повторяется в выборке то
Известна формула Dξ=Mξ2 – m2, где m=Mξ. Статистический аналог - , тогда
, очевидно, что является несмещенной оценкой для Dξ.
Теорема 4. Выборочная дисперсия является состоятельной оценкой генеральной дисперсии Dξ.
Следствие: исправленная выборочная дисперсия является состоятельной оценкой Dξ
Замечание: из несмещенности не следует несмещенность S.
7. Эффективность оценок. Информация Фишера
Несмещенные оценки с меньшей дисперсией предпочтительнее остальных, поэтому возникает задача нахождения эффективных оценок.
Пусть дана некоторая выборка (x1 x2, … xn)=х она является случайным. По существующим n случайных величин пусть их совместная плотность распределения имеет вид f(t1,t2,…tn,Θ) неслучайная действительная переменная, которая зависит от параметра Θ. По выборке найдена оценка параметра Θ – Θ*, которая является случайной функцией зависящей от выборочных значений Θ* = φ(x1 x2, … xn)
МΘ* = φ (t1,t2,…tn)
f(t1,t2,…tn,Θ) dt1, dt2,…,dtn – зависит от Θ поэтому МΘ* = g(Θ) некоторая функция от Θ. Наложим условие, позволяющее дифференцировать под знаком Θ
МΘ* = g(Θ)= * dt
Определение Информация Фишера относительно плоскости распределения f(t, Θ)
называется:
I (Θ)=M()2
математическое ожидание квадрата произведенной ln плотности f(t, Θ) по параметру Θ
Неравенство Рао – Крамера
Неравенство устанавливающее нижнюю границу риска в задаче статистич. оценивания неизвестного параметра относительно квадратичной функции потерь. Пусть распределение вероятностей случайного вектора X=(X1, ..., Х n), принимающего значения в n-мерном евклидовом пространстве , задается плотностью вероятности , и пусть в качестве оценки неизвестного скалярного параметра q Используется статистика Т= Т(X).такая, что где b(q) - некоторая дифференцируемая функция, называемая с м е щ е н и е м статистики Т. В таком случае при определенных условиях регулярности семейства имеет место неравенство Р а о - К р а м е р устанавливающее нижнюю границу для среднеквадратичной ошибки всех оценок Т неизвестного параметра q, имеющих одну и ту же функцию смещения b(q). В частности, если статистика Т является несмещенной оценкой параметра q. Таким образом, в этом случае Р.- К. н. показывает нижнюю границу для дисперсий несмещенных оценок Тпараметра q, к-рая равна , и, кроме того, Р.- К . н. демонстрирует, что существование состоятельных оценок связано с неограниченным ростом информационного количества Фишера I(q) при . В случае если в Р.- К. н. достигается равенство для какой-то Несмещенной оценки Т, то она является наилучшей в смысле минимума квадратичного риска в классе всех несмещенных оценок и называется Эффективной оценкой.
8. Методы нахождения оценки.
Пусть - независимая выборка из распределения случайной величины с плотностью распределения зависимая от r параметров.
Пусть моменты случайной величины
Начальный момент k-го порядка
Они также яв-ся конечными.
Теоретические начальные моменты k-го порядка
Пусть они тоже конечные.
Метод моментов состоит в приравнивании эмпирических и теоретических моментов и выражений неизвестных значений параметров.
Запишем систему уравнений , где k=1,2,..,r.
Пусть эта система однозначно разрешима относительно и её решение однозначно задается обратными функциями .
Теорема
Если система уравнений , где k=1,2,..,r однозначно разрешима относительно , причем обратные функции - непрерывные, то оценки , полученные как решения этой системы являются состоятельными.
Док-во.
По т. Чебышева . Это означает, что .
Поскольку - непрерывн, то отсюда следует, что . Поэтому оценки - состоятельны.
II. Метод наибольшего правдоподобия.
Пусть - независимая выборка из распределения случайной величины с плотностью распределения зависящей от одного параметра .
(1)
Рассматриваемую как функцию от называют функцией наибольшего правдоподобия
Оценкой наибольшего правдоподобия называют оценку , при которой функция правдоподобия принимает наибольшее значение.
Если дифференцируема по параметру , то оценку наибольшего правдоподобия можно найти решая уравнение (2), называемое уравнением наибольшего правдоподобия (2)
Можно доказать теорему о том, что уравнение (2) при соблюдении определенных условий всегда имеет решение , которые являются самостоятельной оценкой параметра , причем эта оценка асимптотически эффективна
.
Если имеет дискретное распределение, то вместо плотности рассматриваются вероятности:
Если параметр многомерен т.е. , то задача сводится к решению системы r уравнений системы с частными производными.
Замечание: Поскольку функции и принимают наибольшее значение в одной и той же точке, то удобно предварительно логарифмировать функцию правдоподобия.
9.
Возник вопрос о погрешности, допуск. при замене Θ на Θ*.потому возникла задача нахождения точки области, к-уго с высокой вероятностью попадает значение параметра.
Если пар-р Θ многомерный, то эта об-ть многомерна Q=(Θ1 , Θ2 , … Θн). Это нек-ый интервал на числовой осн. В этом случае говорят об интервальном оцениванием да-ого пар-ра. Длина такого интервала при заданной вероятн. Попадания в него истинного значения Q хар-ет точность оценивания, поэтому желательно находить интервал наименьшей длины . По да-ой выборке нахд. 2 значения Θ1* и Θ2*, такие что наперед задал вер. γ вып. след. P(Θ1*< Θ < Θ2*)= γ тогда интервал (Θ1*;Θ2*)поз. Доверитель. Интервалом. Вер. γ поз. довер. границами или значениями (Θ1*;Θ2*)явл. случ. интервалом, в к-ом с вер.γ cодержится истинное значение Θ. Θ явл. не случайным, поэтому говорят, что случ. интервал ( Θ1*; Θ2*) с задал. вер. γ « накрывает» истинное значение Θ γ , как правило , близка к 1 γ дов. вер. или надежность.
По известному правилу « 3 сигм» с доверит. информац. γ ≈0, 9973. Нормал. распред. случ. величина ξ . (α- 3δ; α+ 3δ)- довер. интервал, к-ый с надежностью 0,9973 «накрывает» истинное значение случ. величины
Построение
доверит. интервала для параметра
α нормально- распред. случайной величины.
Пусть случ. величина ξ имеет норм. распред. α и Θ. , т.е. плотность распред.
F(x)= * , M=α Дξ=δ2
Пусть производила независимая выборка X1, X2, …Xn объема n и задача доверит. вероятность γ. Построим доверит. интервал с задач. надежность γ накрывает значение пар-ра α
I. значение δ известно
X –ср = xi
Mξ≈
α≈ x-ср
выбор. Значение X1; X2; …. Xn явл. случ. величинами, распределенные по тому же самому закону. что и ξ т. Е. по норм. законк с теми же пар-ми α, ξ. МXi= α. ДXi=δ2, потому Х-ср явл. случ. велич. Имеющие норм. распред. Мх-ср= М ξ =α
Дх-ср ==
По извест. Ф-ле из TB
P(IX-ср – αI < δ) = 2Ф ()
Θx-ср= =
P ( IХ-ср – αI < δ ) = 2Ф ( * )
* = t δ= t
P ( Ix-ср – αI < δ) = 2Ф (t)
Полагая 2Ф (t) = γ (1) имеет P( X-ср – δ < α < Х-ср + δ) = γ
Решая (1) найдем значение t I по табл. ф-ции
(Х-ср – t ; Х-ср + t ) – довер интервал, к-ый с задач. надежностью γ накрывает значение α
II. Θ- не известно Θ≈S
В отчич. от случ. вел. , имеющей норм. распрад. 0 и 1, к-ие исп. В пулке I
имеет распределение, отличие от нормального
Теорема 1 Если Х1, Х2, … Хn не зависит выборка из нормального распред. с пар-ми α и Θ, то выборочные хар-ки Х-ср и S^2 не зависимые величины S^2 (n-1) /Θ^2 имеет распределение Х^2 c(n-1)
Теорема 2 Величина = , найденная по независим. выборке Х1, Х2, … Хn из норм. распределения с парам.α, Θ имеют распределение Стьюдента с (n- 1) степенями свободы.
10.
Пусть случайная величина с параметрами а и имеет нормальное распределение. Произведена независимая выборка и найдено выборочное значение . - точечная оценка среднего квадратичного отклонения. Задана вероятность и следует построить доверительный интервал, который с надежностью накрывает значение .
I значение а известно, -не известно.
Нет необходимости вычислять . В качестве оценки параметра можно взять , где . - имеет распределение
Обозначим , тогда
Пусть q<1
С помощью интеграла найдем вероятность. Пусть -плотность распределения .
Найдем значение q, это делается по таблице распределения .
Интервал, который с заданной надежностью накрывает значение :
Замечание!
II значение а- не известно.
Тогда найдем , где
Обозначим
Пусть q<1, тогда
Известно, что имеет распределение .
Пусть -плотность распределения .
Решая это уравнение, найдем q, а затем
Доверительный интервал, который с заданной надежностью накрывает значение параметра :
Замечание! При
11. Понятие статистической гипотезы.
Статистической гипотезой называется всякое предположение о виде или свойствах распределения, наблюдаемое в эксперименте случайных величин.
Пример:1) случайная величина имеет показательное распределение; 2) дисперсии двух нормально распределенных случайных величин равны между собой.
Если выдвинутая гипотеза оказывается неверной, то имеет место противоречащая ей гипотеза.
Выдвинутую гипотезу называют основной или нулевой гипотезой. Обозначение: Н0.
Гипотеза, которая противоречит нулевой гипотезе, называют конкурирующей или альтернативной гипотезой. Обозначение: Н1.
Пример: Н0 : мат. Ожидание случайной величины ; Н1: или .
Гипотеза называется простой, если она состоит только из одного предположения, и называется сложной, если состоит из бесконечного число предположений.
Пример: гипотеза относительно параметра Q, состоящая в том, что является простой, если - единственное фиксированное число, если -является сложной.
Выдвинутая гипотеза может оказаться истинной или ложной. При проверке гипотезы может быть достигнута ошибка.
Ошибка I рода состоит в том, что будет отвергнута правильная нулевая гипотеза Н0.
Ошибка II рода - будет принята неправильная нулевая гипотеза Н0.
Вероятность ошибки I рода обозначается и называется уровнем значимости.
Например, если -это означает, что в среднем в 1 случае из 100 мы допускаем риск совершить ошибку I рода, т. е. отвергнуть правильную нулевую гипотезу.
Вероятность ошибки II рода обозначают .
Н0: 1) верна: а) нет ошибки - принята; б) ошибка I рода – отвергнута;
2) неверна: а) ошибка II рода – принята; б) нет ошибки – отвергнута.
Пример: 1) -риск поставщика при забраковке товара, который на самом деле является доброкачественным.
-риск потребителя при приемке партии товара, который на самом деле является бракованным.
2) -вероятность вынесения судом обвинительного приговора невиновному человеку.
-вероятность вынесения судом
оправдательного приговора
Для проверки Н0 используют специально подобранную случайную величину К, точное или приближенное значение распределение которой известно.
Статистическим критерием называют случайную величину К, которая служит для проверки нулевой гипотезы.
С помощью величины К установлены правила, по которым гипотезу Н0 отвергают или принимают.
Это правило тоже называют статистическим критерием.
Множество значений критерия К, при которых Н0 отвергают, называют критической областью.
Множество значений критерия К, при которых Н0 принимают, называется областью принятия гипотез.
Критическими точками называются точки, отделяющие критическую область от области принятия гипотезы.
Критическая область называется правосторонней, если она определена неравенством , левосторонней, если определена неравенством .
Двусторонней, если она задается двумя неравенствами , .
Мощностью критерия К называется вероятность попадания значения критерия в критическую область при условии Н0 –неверная, а верная конкурирующая гипотеза Н1.
Мощность критерия означает вероятность того, что гипотеза Н0 будет отвергнута при условии, что верна конкурирующая гипотеза Н1.
Поэтому мощность критерия =1- , -вероятность принятия Н0 , если верна Н1., 1- -вероятность отвергнуть Н0, если верна Н1.
12.Отыскание критической области
Пусть задан уровень значимости α и критерий К. Правостороннюю критическую область находят из предположения истинности Н0 так, чтобы вероятность попадания значения критерия в эту область была равна α.
РНо (К > k кр.) = α.
(α – очень маленькая вероятность)
Если в эксперименте наблюдаем значение К, которое попадает в критическую область, то это маловероятное событие считаем практически невозможным, т.к. оно противоречит нулевой гипотезе Н0. Если все же оно произошло, то сам этот факт дает основание усомниться в правильности гипотезы Н0, что позволяет её отвергнуть.
Информация о работе Основные задачи математической статистики