Понятие робастности

Автор работы: Пользователь скрыл имя, 24 Февраля 2013 в 15:17, курсовая работа

Краткое описание

Робастные методы — новое направление в математической статистике. Методы могут применяться в оценке параметров статистических моделей, применяются также в экономико-математических моделях функциональных комплексов автоматизированных систем управления.
При решении задач статистического анализа и, в частности, при вычислении оценок параметров распределений проблема наличия в выборке аномальных измерений имеет чрезвычайно важное значение. Присутствие единственного аномального наблюдения может приводить к оценкам, которые совершенно не согласуются с выборочными данными.

Содержание

Введение……………………………………………………………………2
Понятие робастности……………………………………………………..3
Основные подходы………………………………………………………..6
Группирование данных как метод робастной статистики…………..7
Грубые ошибки…………………………………………………………….10
Метод выявления грубых ошибок Смирнова-Грабса……………….12
Список литературы………………………………………………………..16

Прикрепленные файлы: 1 файл

КУРСОВАЯ.docx

— 1.39 Мб (Скачать документ)

Содержание 

Введение……………………………………………………………………2

Понятие робастности……………………………………………………..3

Основные подходы………………………………………………………..6

Группирование данных как  метод робастной статистики…………..7

Грубые ошибки…………………………………………………………….10

Метод выявления грубых ошибок Смирнова-Грабса……………….12

Список литературы………………………………………………………..16

 

                                         Введение

    Робастные методы — новое направление в математической статистике. Методы могут применяться в оценке параметров статистических моделей, применяются также в экономико-математических моделях функциональных комплексов автоматизированных систем управления.

   При решении задач статистического анализа и, в частности, при вычислении оценок параметров распределений проблема наличия в выборке аномальных измерений имеет чрезвычайно важное значение. Присутствие единственного аномального наблюдения может приводить к оценкам, которые совершенно не согласуются с выборочными данными.            

 В борьбе с грубыми  погрешностями измерений, если  они не были обнаружены в  процессе измерений, используют  два подхода:

-      исключение резко выделяющихся аномальных измерений из дальнейшей обработки;

-      использование робастных методов обработки.           

 В данной работе  остановимся на комплексе взаимосвязанных  вопросов: “простом” способе робастного оценивания параметров непрерывных законов распределения, мощности критериев согласия и достаточно эффективном параметрическом методе отбраковки аномальных наблюдений.

    

                                     Понятие робастности

   Термин "робастность" (robustnes) образован от англ. robust - крепкий, грубый. Сравните с названием одного из сортов кофе - robusta. Имеется в виду, что робастные статистические процедуры должны "выдерживать" ошибки, которые теми или иными способами могут попадать в исходные данные или искажать предпосылки используемых вероятностно-статистических моделей.

   Термин "робастный" стал популярным в нашей стране в 1970-е годы. Сначала он использовался фактически как сужение термина "устойчивый" на алгоритмы статистического анализа данных классического типа (не включая теорию измерений, статистику нечисловых и интервальных данных). Затем реальная сфера его применения сузилась.

    Под робастностью в статистике понимают нечувствительность к различным отклонениям и неоднородностям в выборке, связанным с теми или иными, в общем случае неизвестными, причинами. Это могут быть ошибки детектора, регистрирующего наблюдения, чьи-то добросовестные или не очень попытки «подогнать» выборку до того, как она попадёт к статистику, ошибки оформления, вкравшиеся опечатки и многое другое. Например, наиболее робастной оценкой параметра сдвига закона распределения является медиана, что на интуитивном уровне вполне очевидно (для строгого доказательства следует воспользоваться тем, что медиана является усечённой М-оценкой). Помимо непосредственно «бракованных» наблюдений также может присутствовать некоторое количество наблюдений, подчиняющихся другому распределению. Ввиду условности законов распределений, а это не более, чем модели описания, сама по себе выборка может содержать некоторые расхождения с идеалом.

Тем не менее, параметрический подход настолько вжился, доказав свою простоту и целесообразность, что нелепо от него отказываться. Поэтому и возникла необходимость приспособить старые модели к новым задачам.

Стоит отдельно подчеркнуть  и не забывать, что отбракованные  наблюдения нуждаются в отдельном, более пристальном внимании. Наблюдения, кажущиеся «плохими» для одной  гипотезы, могут вполне соответствовать  другой. Наконец, отнюдь не всегда резко  выделяющиеся наблюдения являются «браком». Одно такое наблюдение для генной инженерии, к примеру, стоит миллионов других, мало отличающихся друг от друга.

      В выборке могут присутствовать отклонения от предположений двух видов. Допустим, что наблюдаемая выборка действительно принадлежит тому закону распределения, оценки которого мы пытаемся найти. В этом случае отклонения могут быть связаны с наличием аномальных наблюдений, появление которых в выборке определяется самыми различными причинами, в том числе засорением значениями, принадлежащими другому закону. Если не учитывать наличие аномальных наблюдений, попытки оценивания параметров распределения могут привести к самым плачевным результатам. Что же делать? Естественно, надо отбраковать аномальные измерения, а затем искать оценки параметров. К сожалению, реализовать отбраковку наблюдений в общем случае оказывается совсем не просто. Наблюдения, аномальные с позиций одного закона распределения, являются естественным проявлением закономерностей второго. Если нет надежной процедуры отбраковки или практических соображений, связанных с физикой наблюдаемой величины, пытаются выйти из положения одним из следующих способов. В первом случае усекают выборку, отбрасывая определенную часть минимальных и/или максимальных наблюдений, и по оставшейся части оценивают параметры распределения, то есть используют так называемые -урезанные оценки (отбрасывается  наименьших и  наибольших значений выборки ). Во втором - перед процедурой оценивания винзорируют выборку: всем наблюдениям левее и/или правее определенных значений присваивают одинаковые значения. Эти два подхода используются при обработке наблюдений ещё с XIX века и связаны с именами Пуанкаре и Винзора. Обе эти процедуры далеко не всегда приводят к положительным результатам. Кроме того, в обоих случаях мы имеем дело с новой генеральной совокупностью, которой принадлежит видоизмененная выборка. Более правильным следует считать третий подход, когда выборку цензурируют. Для наблюдений, попавших левее и/или правее определенных значений, фиксируют лишь факт попадания в соответствующий интервал, опуская конкретные значения этих наблюдений. По такой цензурированной выборке оценивают параметры закона.         

 Другая ситуация. В  выборке нет аномальных наблюдений, но наблюдаемый закон распределения отличается от предполагаемого. Такая ситуация присутствует практически всегда, так как множество законов распределения вероятностей бесконечно, а количество моделей, используемых на практике для описания наблюдаемых случайных величин, очень ограничено. Чем существенней вид предполагаемой модели отличается от реально наблюдаемого закона, тем сильнее это отражается на оценках параметров.          

 Очевидно, что в наблюдаемых  на практике выборках и закон, пусть мало, но отличается от используемой модели, и обычно налицо аномальные наблюдения. Поэтому применение цензурирования, одностороннего или двустороннего, далеко не всегда приносит желаемый эффект.

                                   Основные подходы

Для того, чтобы ограничить влияние неоднородностей, либо вовсе его исключить, существует множество различных подходов. Среди них выделяются два основных направления:

Сгруппировать данные, не отбраковывая отдельные наблюдения, таким образом значительно снизив возможность порчи выборки отдельными выпадами. После чего с достаточной степенью уверенности пользоваться классическими методами статистики.

Отслеживать выбросы непосредственно  в процессе анализа. Например, для  определения параметров закона распределения использовать итерационную процедуру с усечёнными или th-сниженными M-оценками .

         Группирование данных как метод робастной статистики

Посредством группирования  выборки можно резко снизить  влияние отдельных наблюдений, не отбрасывая их. Разбиение на интервалы  не представляет особых трудностей и  даёт весьма ощутимый результат. Существует три наиболее распространённых способа  разбиения:

Разбиение на интервалы равной длины. Наиболее простой и потому распространённый способ.

Разбиение на интервалы равной вероятности, также называемое равно частотным группированием, что отражает практическую реализацию этого метода. В результате такого группирования выборки осуществляется максимизация величины информационной энтропии , где и достигается наибольшая асимптотическая мощность критерия согласия , либо критерия отношения правдоподобия.

Разбиение на асимптотически оптимальные интервалы. При таком  разбиении минимизируются потери информации в результате группирования, то есть максимизируется фишеровская информация , где  — оцениваемый параметр закона. Для многих законов распределения удалось получить инвариантные относительно параметров границы интервалов, и были составлены соответствующие таблицы. Такое разбиение позволяет максимизировать мощность критерия.

Грубая ошибок

 

 

 

 

 

 

 


 

 

 

Метод выявления грубых ошибок Смирнова-Грабса.


 

 

 

 

                                  

 

 

 

Список литературы

1.      Хьюбер П. Робастность в статистике. - М.: Мир, 1984. - 303 с.

2.      Лемешко Б.Ю., Постовалов С.Н. К вопросу о распределениях статистик непараметрических критериев согласия // Сб. научных трудов НГТУ. - 1997. - №1. (в печати).

3.      Лемешко Б.Ю. Статистический анализ одномерных наблюдений случайных величин: Программная система. - Новосибирск: Изд-во НГТУ. - 1995. - 125 с.

4.      Лемешко Б.Ю., Постовалов С.Н. Статистический анализ одномерных наблюдений по частично группированным данным // Изв. вузов. Физика. -  Томск, 1995. - № 9. - С. 39-45.

5.      Лемешко Б.Ю., Постовалов С.Н. Вопросы обработки выборок одномерных случайных величин // Научный вестник НГТУ, 1996. - № 2. - C.3-25.

6.      Лемешко Б.Ю., Постовалов С.Н. К вопросу о робастности оценок по группированным данным // Сб. научных трудов НГТУ. - 1996. - №2. (в печати).

7.      Куллдорф Г. Введение в теорию оценивания по группированным и частично группированным выборкам. - М.: Наука, 1966. - 176 с.

8.      Денисов В.И., Лемешко Б.Ю., Цой Е.Б. Оптимальное группирование, оценка параметров и планирование регрессионных экспериментов: В 2 ч. / Новосиб. гос. техн. ун-т. - Новосибирск, 1993. - 346 с.

 

 

 


Информация о работе Понятие робастности