Автор работы: Пользователь скрыл имя, 31 Октября 2013 в 19:24, контрольная работа
Шкала интервалов является первой метрической шкалой. Собственно, начиная с нее, имеет смысл говорить об измерениях в узком смысле этого слова – о введении меры на множестве объектов. Шкала интервалов определяет величину различий между объектами в проявлении свойства. С помощью шкалы интервалов можно сравнивать два объекта. При этом выясняют, насколько более или менее выражено определенное свойство у одного объекта, чем у другого.
Вопрос 1.1 Какие виды средних используются на интервальной шкале измерения……………………………………………………………………..…..3
Вопрос 1.2 Где применяются взвешенные средние………………………….4
Вопрос 1.3 Что такое паказатели вариации……………………………………7
ТЕМА 2
Вопрос 2.1 Что такое несмещенная оценка……………………………………..9
Вопрос 2.2 Как определяется функция правдоподобия….………………….11
Вопрос 2.3 В каких случаях применяются параметрические критерии……..12
ТЕМА 3
Вопрос 3.1 Как проводится проверка гипотезы о равенстве групповых ожиданий…………………………………………………………………………15
Вопрос 3.2 Нарисуйте таблицу однофакторного дисперсионного анализа..17
ТЕМА 4
Вопрос 4.1 Укажите недостатки иерархических алгоритмов………………17
Вопрос 4.2 Когда используется расстояние Евклида…………………………19
Вопрос 4.2 Что такое такс………………………………………………………20
ТЕМА 5
Вопрос 5.1 Что такое уравнение регрессии…………………………………..21
Вопрос 5.2 В чем смысл метода наименьших квадратов……………………21
Вопрос 5.3 Назовите виды экономических моделей…………………………22
Используемая литература
СПИСОК ЛИТЕРАТУРЫ
1. Елисеева И.И., Юзбашев М.М. Общая теория статистики. – Москва: Финансы и статистика, 2004. – 656с.
2. Ефимова М.Р., Петрова Е.В., Румянцев В.Н. Общая теория статистики. – М.: Инфра-М, 2004. – 416с.
3. Общая теория статистики/ под ред. О.Э. Башиной, А.А. Спирина.– М.: Финансы и статистика, 2005. – 440с.
4. Сизова Т.М. Статистика. - СПб.: СПбГУ ИТМО, 2005. - 190 с.
5. Теория статистики/ под ред. Г.Л.Громыко. – М.: Инфра-М, 2005. – 476с.
6. Теория статистики/ под ред. Р.А.Шмойловой. – М.: Финансы и статистика, 2009. –656с.
7. Корреляционный и регрессионный анализ // http://dvo.sut.ru/
8. Множественная регрессия// http://www.statsoft.ru/
9. Регрессия// http://ru.science.wikia.com/wiki/%D0%A0%D
10. Регрессионный анализ// http://www.kgafk.ru/kgufk/html/korandreg3.html
11. Статистический анализ данных, моделирование и прогноз// http://miit.bsu.edu.ru/resources/inf/excel/excel06.htm
даже когда n невелико. Н. о. играют важную роль в статистическом контроле массовой продукции.
Вопрос 2.2 Как определяется функция правдоподобия
Пусть Х – дискретная случайная величина, которая в результате п испытаний приняла значения х1, х2, …, хп. Предположим, что нам известен закон распределения этой величины, определяемый параметром Θ, но неизвестно численное значение этого параметра. Найдем его точечную оценку.
Пусть р(хi, Θ) – вероятность того, что в результате испытания величина Х примет значение хi. Назовем функцией правдоподобия дискретной случайной величины Х функцию аргумента Θ, определяемую по формуле:
L(х1, х2, …, хп; Θ) = p(x1,Θ)p(x2,Θ)…p(xn,Θ).
Тогда в качестве точечной оценки параметра Θ принимают такое его значение Θ* = Θ(х1, х2, …, хп), при котором функция правдоподобия достигает максимума. Оценку Θ* называют оценкой наибольшего правдоподобия.
Поскольку функции L и lnL достигают максимума при одном и том же значении Θ, удобнее искать максимум ln L – логарифмической функции правдоподобия.
Для этого нужно:
1) найти производную;
2) приравнять
ее нулю (получим так называемое уравне
3) найти вторую производную ; если она отрицательна в критической точке, то это – точка максимума.
Достоинства метода наибольшего правдоподобия: полученные оценки состоятельны (хотя могут быть смещенными), распределены асимптотически нормально при больших значениях п и имеют наименьшую дисперсию по сравнению с другими асимптотически нормальными оценками; если для оцениваемого параметра Θ существует эффективная оценка Θ*, то уравнение правдоподобия имеет единственное решение Θ*; метод наиболее полно использует данные выборки и поэтому особенно полезен в случае малых выборок.
Недостаток метода наибольшего правдоподобия: сложность вычислений.
Для непрерывной
случайной величины с известным
видом плотности распределения
L(х1, х2, …, хп; Θ) = f(x1,Θ)f(x2,Θ)…f(xn,Θ).
Оценка наибольшего
Вопрос 2.3 В каких случаях применяют параметрические критерии
Критерии принято
делить на параметрические и
И те, и другие критерии имеют свои преимущества и недостатки. В тех случаях, когда переменная измерена в шкале интервалов и ее распределение близко к нормальному, лучше пользоваться параметрическими критериями, т.к. они оказываются более мощными, чем непараметрические. Но в том случае, если эти условия не выполняются, более эффективными окажутся непараметрические критерии, так как им ''все равно'' в каких шкалах измерены переменные и соответствует распределение нормальному или нет. В ряде случаев непараметрическим критериям нет замены, особенно если признак определялся не количественно, а качественно.
Если вид
распределения или функция
Параметрические критерии
В группу параметрических критериев методов математической статистики входят методы для вычисления описательных статистик, построения графиков на нормальность распределения. Эти методы основываются на предположении о том, что распределение выборок подчиняется нормальному (гауссовому) закону распределения. Среди параметрических критериев статистики нами будут рассмотрены критерий Стьюдента и Фишера.
1. Критерий Стьюдента (t-критерий)
Критерий позволяет найти вероятность того, что оба средних значения в выборке относятся к одной и той же совокупности. Данный критерий наиболее часто используется для проверки гипотезы: «Средние двух выборок относятся к одной и той же совокупности».
При использовании критерия можно выделить два случая. В первом случае его применяют для проверки гипотезы о равенстве генеральных средних двух независимых, несвязанных выборок (так называемый двухвыборочный t-критерий). В этом случае есть контрольная группа и экспериментальная (опытная) группа, количество испытуемых в группах может быть различно.
Во втором случае, когда одна и та же группа объектов порождает числовой материал для проверки гипотез о средних, используется так называемый парный t-критерий.
Выборки при этом называют зависимыми, связанными.
Статистика критерия для случая несвязанных, независимых выборок равна:
(1)
где , — средние арифметические в экспериментальной и контрольной группах,
- стандартная ошибка разности средних арифметических. Находится из формулы:
, (2)
где n1 и n2 соответственно величины первой и второй выборки.
Если n1=n2, то стандартная ошибка разности средних арифметических будет считаться по формуле:
(3)
где n величина выборки.
Подсчет числа степеней свободы осуществляется по формуле:
k = n1 + n2 – 2. (4)
При численном равенстве выборок k = 2n - 2.
Далее необходимо сравнить полученное значение tэмп с теоретическим значением t—распределения Стьюдента (см. приложение к учебникам статистики). Если tэмп<tкрит, то гипотеза H0 принимается, в противном случае нулевая гипотеза отвергается и принимается альтернативная гипотеза.
В случае связанных выборок с равным числом измерений в каждой можно использовать более простую формулу t-критерия Стьюдента, по формуле:
(5)
где — разности между соответствующими значениями переменной X и переменной У, а d - среднее этих разностей;
Sd вычисляется по следующей формуле:
(6)
Число степеней свободы k определяется по формуле k=n-1.
Критерий Фишера позволяет сравнивать величины выборочных дисперсий двух независимых выборок. Для вычисления Fэмп нужно найти отношение дисперсий двух выборок, причем так, чтобы большая по величине дисперсия находилась бы в числителе, а меньшая – в знаменателе. Формула вычисления критерия Фишера такова:
(8)
где - дисперсии первой и второй выборки соответственно.
Так как, согласно условию критерия, величина числителя должна быть больше или равна величине знаменателя, то значение Fэмп всегда будет больше или равно единице.
Вопрос
3.1 Как проводится проверка гипотезы
о равенстве групповых
Проверка гипотезы о равенстве математических ожиданий двух случайных величин
Пусть есть две независимые выборки значений нормально распределенной величины x: х1, х2, ..., xn - всего n элементов, и нормально распределенной величины y: y1, y2, ..., ym - m элементов.
Предполагается, что Dx = Dу.
(Предположение о равенстве
Гипотеза Н0 состоит в том, что Мх = Му. Это, пожалуй, наиболее распространенный тип гипотез в технологических, биологических, даже педагогических экспериментах. В обеих выборках существует одинаковый разброс, но важно определить, значимо ли на фоне этого разброса, отличаются средние значения выборок. Проверяемая гипотеза состоит в том, что математические ожидания не отличаются. Критерием проверки служит, как и в разделе 3.2, случайная величина t, но построенная более сложным образом.
Напомним, что по известному закону Стьюдента распределена величина
, где z ~ N(0, 1), V ~ Χ2ν.
Возьмем в качестве z комбинацию
(3.5)
Учитывая, что x ~ N(Mx, Dx), y ~ N(My, Dy), соответственно
~ N(Mx, Dx / n), ~ N(My, Dy / m), x и y независимы и поэтому дисперсия разности их среднеарифметических равна сумме дисперсий, а матожидание разности матожиданий, и помня о равенстве Dx и Dy, получим, что z, определенное по (3.5), действительно распределено нормально с параметрами Mz = 0, Dz = 1.
В качестве V возьмем V = (n
- 1) Sx2 / σ2 + (m - 1) Sy2
/ σ2 ~ Χ2n+m-2,
что следует из определения Χ2 и
формулы (2.1). В результате получим
(3.6)
Критическая область - опять двухсторонняя, т.е. гипотеза отвергается, если | t | > tq.
В качестве примера проверим гипотезу о том, что средняя светоотдача по старой и новой технологии одинакова согласно данным примера из предыдущего раздела. Выберем α = 0.05 и по таблице t-распределения найдем, что при ν = 9 + 10 - 2 = 17 tq = 2.1. Теперь вычисляем:
Вывод: | tэ | < tq. Гипотеза о равенстве средних значений светоотдачи ламп, изготовленных по старой и новой технологии, проверена по t критерию на уровне значимости 5% и принята.
Вопрос 3.1 Нарисуйте таблицу однофакторного дисперсионного анализа
Таблица 1. Однофакторного дисперсионого анализа |
||||||||||||
№ п/п |
Наименование |
Аппарат |
Веста 1 |
Веста 2 |
Отделение срочного социального обслуживания |
Отделение дневного прибывания |
Отделение ребилитации инвалидов |
|||||
1 |
2 |
3 |
4 |
5 |
6 |
7 |
||||||
1 |
Количество штатных единиц |
16 |
21 |
23 |
10 |
15 |
17 |
|||||
2 |
Итого по учреждению: |
102 |
||||||||||
Вопрос 4.1 Укажите недостатки иерархических алгоритмов
При большом количестве наблюдений иерархические методы кластерного анализа не пригодны. В таких случаях используют неиерархические методы, основанные на разделении, которые представляют собой итеративные методы дробления исходной совокупности. В процессе деления новые кластеры формируются до тех пор, пока не будет выполнено правило остановки.
Такая неиерархическая
кластеризация состоит в
Алгоритм k-средних (k-means)
Наиболее распространен среди неиерархических методов алгоритм k-средних, также называемый быстрым кластерным анализом. Полное описание алгоритма можно найти в работе Хартигана и Вонга (Hartigan and Wong, 1978). В отличие от иерархических методов, которые не требуют предварительных предположений относительно числа кластеров, для возможности использования этого метода необходимо иметь гипотезу о наиболее вероятном количестве кластеров.
Алгоритм k-средних строит k кластеров, расположенных на возможно больших расстояниях друг от друга. Основной тип задач, которые решает алгоритм k-средних, - наличие предположений (гипотез) относительно числа кластеров, при этом они должны быть различны настолько, насколько это возможно. Выбор числа k может базироваться на результатах предшествующих исследований, теоретических соображениях или интуиции.
Общая идея алгоритма: заданное фиксированное число k кластеров наблюдения сопоставляются кластерам так, что средние в кластере (для всех переменных) максимально возможно отличаются друг от друга.
Недостатки алгоритма k-средних:
1. алгоритм слишком чувствителен к выбросам, которые могут искажать среднее. Возможным решением этой проблемы является использование модификации алгоритма - алгоритм k-медианы;
2. алгоритм может медленно работать на больших базах данных. Возможным решением данной проблемы является использование выборки данных.
Среди новых масштабируемых алгоритмов также можно отметить алгоритм CURE - алгоритм иерархической кластеризации, и алгоритм DBScan, где понятие кластера формулируется с использованием концепции плотности (density).
Основным недостатком
алгоритмов BIRCH, Clarans, CURE, DBScan является то
обстоятельство, что они требуют
задания некоторых порогов