Метод однофакторного дисперсионного анализа

Автор работы: Пользователь скрыл имя, 08 Декабря 2013 в 15:14, реферат

Краткое описание

Цель работы: познакомится с таким статистическим методом, как однофакторный дисперсионный анализ.

Содержание

Введение
Основная часть
Заключение
Список используемой литературы

Скачать полностью (107.14 Кб) Сколько стоит заказать работу?

Прикрепленные файлы: 1 файл

биостатистика.docx

— 136.76 Кб (Скачать документ)

Тема: «Метод однофакторного дисперсионного анализа» Канжагалинова Адия

АО «Медицинский университет Астана»

Кафедра информатики, математики с курсом биостатистики

РЕФЕРАТ

На тему: «Метод однофакторного дисперсионного анализа»

Выполнил: Канжагалинова Адия 207 стом

Проверил: Алтаева А. У

Срок сдачи:_______________

Оценка: ______

Астана, 2013

План:

Введение
Основная часть
Заключение
Список используемой литературы

Введение:

Цель работы: познакомится с таким статистическим методом, как однофакторный дисперсионный анализ.

Дисперсионный анализ (от латинского Dispersio – рассеивание) – статистический метод анализа результатов наблюдений, зависящих от различных, одновременно действующих факторов, выбор наиболее важных факторов и оценка их влияния . Метод был разработан биологом Р. Фишером в 1925 году и применялся первоначально для оценки экспериментов в растениеводстве. В дальнейшем выяснилась общенаучная значимость дисперсионного анализа для экспериментов в психологии, педагогике, медицине, науке, технике и др.

Факторами обычно называют внешние условия, влияющие на эксперимент. Это, например, температура и атмосферное давление, сила тяготения, тип оборудования и т.п. Нас интересуют факторы, действие которых значительно и поддается проверке. В условиях эксперимента факторы могут варьировать, благодаря чему можно исследовать влияние контролируемого фактора на эксперимент. В этом случае говорят, что фактор варьирует на разных уровнях или имеет несколько уровней.

Целью дисперсионного анализа является проверка значимости различия между средними с помощью сравнения дисперсий. Дисперсию измеряемого признака разлагают на независимые слагаемые, каждое из которых характеризует влияние того или иного фактора или их взаимодействия. Последующее сравнение таких слагаемых позволяет оценить значимость каждого изучаемого фактора, а также их комбинации.

При истинности нулевой гипотезы (о равенстве средних в нескольких группах наблюдений, выбранных из генеральной совокупности), оценка дисперсии, связанной с внутригрупповой изменчивостью, должна быть близкой к оценке межгрупповой дисперсии.

При проведении исследования рынка часто встает вопрос о сопоставимости результатов. Например, проводя опросы по поводу потребления какого-либо товара в различных регионах страны, необходимо сделать выводы, на сколько данные опроса отличаются или не отличаются друг от друга. Сопоставлять отдельные показатели не имеет смысла и поэтому процедура сравнения и последующей оценки производится по некоторым

усредненным значениям и отклонениям от этой усредненной оценки. Изучается вариация признака. За меру вариации может быть принята

дисперсия. Дисперсия – мера вариации, определяемая как средняя из отклонений признака, возведенных в квадрат.

На практике часто возникают задачи более общего характера – задачи проверки существенности различий средних выборочных нескольких совокупностей. Например, требуется оценить влияние различного сырья на качество производимой продукции, решить задачу о влиянии количества удобрений на урожайность с/х продукции.

Основная часть:

Теория:

В процессе наблюдения за исследуемым объектом качественные факторы произвольно или заданным образом изменяются. Конкретная реализация фактора (например, определенный температурный режим, выбранное оборудование или материал) называется уровнем фактора или способом обработки. Модель дисперсионного анализа с фиксированными уровнями факторов называют моделью I, модель со случайными факторами - моделью II. Благодаря варьированию фактора можно исследовать его влияние на величину отклика. В настоящее время общая теория дисперсионного анализа разработана для моделей I.

В зависимости от количества факторов, включенных в анализ, различают классификацию: по одному признаку – однофакторный анализ, по двум признакам – двухфакторный анализ и многостороннюю классификацию – перекрестную классификацию, изучением которой занимается многофакторный анализ.

Основными схемами организации исходных данных с двумя и более факторами являются:

- перекрестная классификация, характерная для моделей I, в которых каждый уровень одного фактора сочетается при планировании эксперимента с каждой градацией другого фактора;

- иерархическая (гнездовая) классификация, характерная для модели II, в которой каждому случайному, наудачу выбранному значению одного фактора соответствует свое подмножество значений второго фактора.

Если одновременно исследуется зависимость отклика от качественных и количественных факторов, т.е. факторов смешанной природы, то используется ковариационный анализ.

При обработке данных эксперимента наиболее разработанными и поэтому распространенными считаются две модели. Их различие обусловлено спецификой планирования самого эксперимента. В модели дисперсионного анализа с фиксированными эффектами исследователь намеренно устанавливает строго определенные уровни изучаемого фактора. Термин «фиксированный

эффект» в данном контексте имеет тот смысл, что самим исследователем фиксируется количество уровней фактора и различия между ними. При повторении эксперимента он или другой исследователь выберет те же самые уровни фактора. В модели со случайными эффектами уровни значения фактора выбираются исследователем случайно из широкого диапазона значений фактора, и при повторных экспериментах, естественно, этот диапазон будет другим.

Таким образом, данные модели отличаются между собой способом выбора уровней фактора, что, очевидно, в первую очередь влияет на возможность обобщения полученных экспериментальных результатов. Для дисперсионного анализа однофакторных экспериментов различие этих двух моделей не столь существенно, однако в многофакторном дисперсионном анализе оно может оказаться весьма важным.

При проведении дисперсионного анализа должны выполняться следующие статистические допущения: независимо от уровня фактора величины отклика имеют нормальный (Гауссовский) закон распределения и одинаковую дисперсию. Такое равенство дисперсий называется гомогенностью. Таким образом, изменение способа обработки сказывается лишь на положении случайной величины отклика, которое характеризуется средним значением или медианой. Поэтому все наблюдения отклика принадлежат сдвиговому семейству нормальных распределений.

Говорят, что техника дисперсионного анализа является "робастной". Этот термин, используемый статистиками, означает, что данные допущения могут быть в некоторой степени нарушены, но несмотря на это, технику можно использовать.

При неизвестном законе распределения величин отклика используют непараметрические (чаще всего ранговые) методы анализа.

Практика:

В общем виде задачу можно поставить следующим образом: пусть мы наблюдаем m независимых нормально распределенных случайных величин (1) предполагая, что все они имеют одинаковую дисперсию (эту

гипотезу можно проверить с помощью F-критерия). Средние значения случайных величин (2) вообще говоря, различны. Пусть в одинаковых экспериментальных условиях над каждой из переменных (1) производится некоторая серия наблюдений (для простоты ограничимся случаем равночисленных наблюдений, хотя это обстоятельство несущественно для теории). Данные k-й серии пусть будут (k=1,2,…..,m) (3).

Опираясь на эти статистические данные, мы хотим проверить гипотезу, согласно которой средние значения (2) равны, т.е. a₁=a₂=…..=a_m(4)

Если проверяемая гипотеза, называемая нулевой гипотезой, верна. поставив средние в каждой серии, мы не должны получить ш расхождения между ними; если такое расхождение обнаружено то гипотезу (3) приходится отбросить.

Примером подобной ситуации может служить статистическое исследование урожайности сельскохозяйственной культуры в зависимости от 1 из m сортов почвы при некотором способе ее обработки. Истинное значение урожайности для каждого из m сортов почвы неизвестно, а экспериментально наблюдаемые урожайности (3) в каждом из n экспериментов на этих сортах почвы содержат ошибки, возникающие из-за тех или иных случайных причин. Будет ли одинаковой урожайность на всех сортах почвы, если предположить, что измерения (3) проводились с ‚одинаковой точностью и в одинаковых условиях? Иначе говоря, мы хотим проверить влияние одного фактора сорта почвы — на урожайность .сельскохозяйственной культуры. В другой постановке та же задача возникает, если мы хотим проверить, насколько влияют и влияют ли вообще на плодородие почвы источники загрязнения. В этом случае сорт почвы может меняться и давать разную урожайность в зависимости от удаленности обрабатываемого участка земли от источника загрязнения.

Таблица результатов измерений будет иметь следующий вид (табл. 1):

Результаты измерений урожайности

Номер сорта почвы	Номер эксперимента
Номер сорта почвы	1	2	3	…	n
1	x₁₁	X₁₂	X₁₃	…	X_1n
2	X₂₁	X₂₂	X₂₃	…	X_2n
3	X₃₁	X₃₂	X₃₃	…	X_3n
…	…	…	…	…	…
m	X_m1	X_m2	X_m3	…	x_nm

Обозначим через среднее арифметическое из n наблюдаемых урожайностей на почве первого сорта, через — среднее из урожайностей в почве второго сорта и т. д., так, что

, …,

Систематические ошибки наблюдений урожайностей на разных почвах неодинаковы, то мы должны ожидать повышенного рассеивания выборочных средних.

Обозначим через общее среднее арифметическое всех n m измерений так, что .(5)

Суммирование по k при постоянном i дает сумму по всем наблюдениям i-той серии (т.е. по i-му сорту почвы). Дальнейшее суммирование по i дает итог по всем сортам почвы. Так как

, то .

В то же время

,(6)

причем

Но , так как представляет собой сумму отклонений наблюдений i-й серии от средней этой же серии и потому S=0. (7)

По этому приняв во внимание, что

,(8)

мы можем основное тождество (6) записать в следующем виде

, (9) или в сокращенном виде ,(10)

где , ,

Таким образом, общая сумма квадратов ‚ распадается на две составные части, первая из которых связана с оценкой дисперсии урожайности между сортами почвы, а вторая — с оценкой дисперсии внутри всех сор почвы.

Предположим теперь, что гипотеза (4) верна, и потому нормальные распределения всех величин (урожайностей) тождественны. имеют одинаковые среднее значение и дисперсию .Тогда же nm наблюдений можно рассматривать как выборку из одной и той же нормальной совокупности .

Можно показать, что при этой гипотезе статистики , и распределены по закону соответственно с ,, степенями свободы, а по тому Q, Q₁, Q₂ могут быть использованы в этом случае для

оценки . Эта оценка может быть поведена с помощью несокращенных характеристик

, , .

При более детальном изучение показывает, что Q₁ и Q₂ при нашей гипотезе независимы друг от друга. Заметим, этот вывод справедлив при любых предположениях относительно a_i.

Из сказанного вытекает, что критерий

(11) в гипотезе (4) будет следовать F-распределению с и степенями свободы. Выбирая q%-й уровень значимости при известных , , найдем по таблице 20 в приложение соответствующий q% предел так, что P(F>F_q).

Информация о работе Метод однофакторного дисперсионного анализа