Основные задачи математической статистики

Автор работы: Пользователь скрыл имя, 29 Сентября 2013 в 12:32, лекция

Краткое описание

Установление закономерностей, которым подчинены массовые случайные явления, основано на изучении методами теории вероятностей статистических данных — результатов наблюдений.
Первая задача математической статистики — указать способы сбора и группировки статистических сведений, полученных в результате наблюдений или в результате специально поставленных экспериментов.
Вторая задача математической статистики — разработать методы анализа статистических данных в зависимости от целей исследования. Сюда относятся:
а) оценка неизвестной вероятности события; оценка неизвестной функции распределения; оценка параметров распределения, вид которого известен; оценка зависимости случайной величины от одной или нескольких случайных величин и др.;

Прикрепленные файлы: 1 файл

мат. статистика.docx

— 412.67 Кб (Скачать документ)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

18. Ранговая корелляция.

Пусть изучаются 2 качественных признака и . Причем все объекты генеральной совокупности обладают  различными качествами по обоим признакам. Расположим объекты выборки сначала по степени ухудшения кач-ва признака  а затем по степени ухудшения . Получим две последовательности номеров(рангов). - по признакам ; - по признаку . . Возможны 2 случая:а)ранги совпадают . Ухудшение кач-ва по влечет за собой ухудшение кач-ва по признаку . Прямая зависимость. Б) если и т.д. тогда имеется противоположная зависимость. Когда ухудшение кач-ва по признаку  влечет улучшение кач-ва по признаку . На практике встречается смешанный вариант когда для одних объектов ухудшение по влечет улучшение по , а для других ухудшение по . Будем считать ранги по выборочными значениями по признаку , а ранги по выборочными значениями случайной величины . ;

. .          . Обозначим .

Выразим . т.о получили формулу -выборочный коэф-т корреляции  Спирмэна. Замечание: часто используют выборочный коэф-т корреляции Кендалла где , -число ранговбольших которые лежат правее ; рангов больших которые лежат правее ; … - число рангов больших ,которые лежат правее

 

19. проверка гипотезы  о значимости выборочного коэффициента  корреляции

Пусть двумерная случайная  величина (ξ, η) распределена по двумерному нормальному закону. Пусть по опытным данным найден который оказался отличным от 0. Значение случайное, т.к. сама выборка случайная. Выберем уровень значимости α для проверки гипотезы о равенстве генерального коэф. корреляции. r=0, при r0. Доказано, что случайная величина имеет распределение Стьюдента с (n-2) степенями свободы. Ее можно выбрать в качестве проверки . При этом наибольшая мощность критерия достигается, когда левая и правая критические точки выбраны так что, и . Распределение Стьюдента симметрично: , сл-но достаточно найти только правую границу . Если >, то нулевая гипотеза отвергается, и делается вывод, что коэф. корреляции значимо отличается от 0, а ξ и η связаны линейной корреляционной зависимостью, т.е. коррелированны, в противном случае нет основания отвергнуть нулевую гипотезу, это значит что коэф. корреляции статистически незначим, т.е.  незначимо отличается от 0, т.е ξ и η некоррелированы. Замечание: Для проверки значимости выборочного коэффициента корел. Кендалла, используют критерий   который имеет нормальное распределение с параметрами 0 и 1. Критическая точка: .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

20. Криволинейная  корреляция

Если график регрессии  — кривая линия, то корреляцию называют

криволинейной, В частности, в случае параболической корреляции

второго порядка выборочное уравнение регрессии  Y на X имеет вид

 

Неизвестные параметры А, В и С находят (например, методом Гаусса)

из системы уравнений:

(

(

(

Аналогично находится  выборочное уравнение регрессии  X на Y:

 

Для оценки силы корреляции Y на X служит выборочное корреляционное отношение (отношение межгруппового среднего квадратического отклонения к общему среднему квадратическому отклонению признака Y)

 или в других обозначениях. Здесь

 

где n—объем выборки (сумма всех частот); — частота значения х признака X; —частота значения y признака Y; — условная средняя признака Y; —общая средняя признака Y.Аналогично определяется выборочное корреляционное отношение X к У:

Воспользуемся методом наименьших квадратов. Пусть опытные данные, близкие к линейной функции,  записаны в таблицу вида:

X

x1

x2

x3

xn

Y

y1

y2

y3

yn


Подбираем y=ax+b таким образом, чтобы сумма квадратов отклонений была наименьшей. Чтобы найти минимум функции надо вычислить частные производные по каждому из параметров а и b и приравнять их к нулю.  Обозначим сумму квадратов отклонений (Σεi2) через S, тогда: 

   

S зависит от a и b, т.е.  функция двух переменных принимает  наименьшее значение в стандартной  точке, которая находится из  условия:

  Приравняем каждую частную производную к нулю:   

 

 

21. Сложение дисперсий

Пусть все значения количественного  признака объектов некоторой совокупности (безразлично, генеральной или выборочной), разбиты на  k групп. Рассмотрим каждую группу как самостоятельную совокупность, можно найти групповые средние и групповые дисперсии: – выборочная групповая средняя j-той группы. – выборочная групповая дисперсия j-той группы.

Т1: общая средняя равна средней арифметической групповых средних, взвешенной по объемам групп: .

Док-во:

О: внутренней групповой дисперсией называется среднее арифметическое групповых дисперсий, взвешенных по объемам групп. .

О: межгрупповой дисперсией называется дисперсия групповых средних относительно общей средней. .

Т2: если совокупность разбита на несколько групп, то общая дисперсия равна сумме внутренней групповой и межгрупповой дисперсий.

Док-во: разобьем на 2 группы и докажем для них: к=2. . Выпишем отдельно первую сумму и преобразуем:

Аналогично можно показать, что вторая сумма равна: =

 

 

 

 

 

 

 

 

 

 

 

 

 

22. Выборочное корреляционное отношение и его свойства.

Пусть имеется выборка  для двумерных случайных величин (ξ,η): (),…,(). Общая дисперсия выборочной случайной величины η: =. Рассмотрим групповые средние :-межгрупповая дисперсия. . Аналогично: Общая дисперсия выборочных значений случайной величины ξ равна =. Рассмотрим групповые средние : Межгрупповая дисперсия: ; . О. Выборочным корреляционным отношением называется отношение выборочных межгруппового среднего квадратичного отклонения к общему среднему квадратичному отклонению. выборочное корреляционное отношение η к ξ. -выборочное корреляционное отношение ξ к .η. Свойства: 1. 0< <1, так как это отношение не отрицательных чисел. ; 1=;    2. Если =0, то не η связана с ξ корреляционной зависимостью. Действительно , то есть , то есть при каждом значении ξ=х групповая средняя равна числу То есть все групповые средние равны между собой и равны . Поэтому η не зависит от значений принимаемой случайной величины ξ, то есть не связана с ней корреляционной зависимостью. 3.Если , то велечина η связана с ξ функциональной зависимостью. Действительно: , так как , то Из формулы внутри групповой дисперсии следует, что в этом случае дисперсия каждой группы равна 0, а значит каждому ξ=х соответствует единственное значение величины  η. Поэтому η функционально зависит от ξ. 4. Если η связана с ξ функциональной зависимостью, то Действительно: каждому значению ξ=х соответствует не более одного значения η. 5. Выборочное корреляционное отношение не меньше абсолютной величины коэффициента корреляции 6. Если , то имеет место точная линейная корреляционная зависимость. 7.При возрастании ν корреляционная связь становится более тесной Если ν⟶0, то то есть дисперсия каждой группы уменьшается. Замечание: ν является характеристикой тесноты связи любой формы. Тогда как является характеристикой оценки тесноты исключительно прямолинейной связи. В этом преимущество ν в сравнении с Недостатком ν является то, что оно не оценивает на сколько близко расположены эксперементальные точки к графику функции регрессии.

 

 

 

 

 

 

 

23.Множественная  корреляция. Коэффициент детерминации.

Во многих случаях приходится исследовать взаимосвязь между  тремя и даже большим числом признаком, характер. явления. Рассмотрим систему 3х случ. величин . Коэфф. корреляции между и равен: . Аналогично между и равен: , между и : . Оценкой коэфф. явл. выборочный коэфф. корреляции , т.е. , аналогично и для других. Встреч. различ. формы взаимосвязи между 3мя случ. величинами. В частности, она может быть линейной: , где a,b,c-некоторые числа, которые можно найти методом наименьших квадратом(МНК). Удобно искать ур-ние в виде: , где . МНК получ.: , . Можно составить матрицу из коэфф. корреляции: . Очевидно, что , , . Парные коэфф. ,, оценивают тесноту связи 2х случ. величин. Оценкой связи случ. величины с явл. совок. выбор. коэфф. корреляции , причем . Тесноту связи между при фиксированном оценив. частным коэфф. коррел. : . Аналогично между и при фиксированном . В общем случае рассм. система из m случ. величин Составл. матрица из парных коэфф. коррел. , где . Очевидно, что , поэтому . Характер тесноты связи случ. величины с остальными (m-1) величинами явл. множественный (совокупный) коэфф. коррел. , где , - алгебраические дополнения. Харак. тесноты связи случ. величин и при фиксиров. значении остальных (m-2) величин явл. частный коэфф. коррел. Множеств. коэфф. коррел. заключен в  отрезке [0;1]. Он не меньше, чем абсолютная величина любого парного и частного коэфф. коррел. с тем же первичным индексом. Делается вывод о тесноте взаимосвязи, но не о ее направлении. Квадрат множест. (совокупного) коэфф. коррел. называется множественным коэфф. детерминации. Он показывает какую долю вариации исследования случ. величины объясняет вариацию других случ. величин.  

 

 

Билет 24. Парная и  множестенная регрессионные модели.

Рассмотри ф-цию регрессии  .

В силу воздействия случайных  факторов и причин наблюдение   будет в большей или меньшей степени откланяться от значения  .

 

где случайная величина характеризующая отклонение от ф-ции регрессии, которую называют возмущающей или возмущением, а т.к. остаточной или остатком. Тоесть её называют ошибкой. В частности ф-ция регрессии может быть линейной

 

Пусть произведена выборка  и получено n-пар значений

Тогда запишем

 

Равенство (1) называется парной линейной регрессионной моделью.

Оценки параметров  осуществляется методом наименьших квадратов.

 – называется  объясняющей переменной

– называется объясняемой  переменной

На практике часто приходится рассчитывать не 1 , а несколько объясняемых  переменных.

Тогда рассчитывается равенство

 

Равенство (2) называется моделью  множественной линейной регрессии.

 – значение  первой объясняющей переменной

 – значение 2-й объясняющей переменной

...

– значение объясняемой  переменной

В матричной форме, – столбец (вектор) значений объясняемой переменной.

 

 – столбец  (вектор) параметров

 

 – матрица значений объясняющих переменных

 – матрица  (вектор) значений возмущений (остатков)

 

Тогда равенство (2) запишется  в матричной форме

 

По выбранным данным могут  быть найдены оценки параметров и оценки возмущений . Тогда оценкой регрессионной модели (3) будет служить равенство

 

где ,

Для нахождения оценки параметров применяется метод наименьших квадратов

Составим сумму квадратов  отклонений и исследуем её на минимум.

 

Из равенства (4)

 

 

 

 

 

Т.о нужно исследовать на минимум

 

Продифференцируем по параметру 

 

Т.к доказано что

 

По аналогии

 

 

 

 

 

Равенство (5) оценка параметров полученная методом наименьших квадратов.

 

 

 

 

 

 

 

 

25.Основные идеи  дисперсионного анализа. Пусть исслед. случ. величина , которая при определенном комплексе условий, имеет дисперсию . Требуется выяснить, влияет ли на некоторый фактор , до сих пор не принимавш. во внимание. Пусть производится выборка при воздействии фактора , т.е. в новых условиях, когда воздействие на контролировалось и найдена дисперсия . Если не оказывает влияния на , то , если , то оказывает влияние на , тогда , где –доля дисперсии, обусловленная влиянием фактора . Если кроме воздействует на , то , где –доля дисперсии, обусловленная совместным воздействием 2х факторов и на . Сказанное можно распространить на случай m факторов. Например, m=3: . Сущность дисперсионного анализа состоит в представлении дисперсии случ. величины в виде суммы слагаемых, обусловленных влиянием контролируемых и неконтролируемых условий опыта на случ. величину и выяснение степени влияния контролируемых условий опыта (факторов) на . Практически задача решается путем расщепления общей дисперсии выборки на слагаемые, выражающие влияние факторов и влияние неконтролируемых причин и определенной значимости влияния факторов на . – остаточная дисперсия, – факторная дисперсия. Каждый фактор может иметь несколько уровней.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

26. Однофакторный и двухфакторный дисперсионный анализ

Пусть исслед случ величина ξ,котор при опред комплексе услов имеет дисперсию D0 и треб-ся вычислить, влияет ли на ξ некотор фактор F,до сих пор не принимав-ся во внимание. Пусть произвед выборка x1,x2…xn при воздейств фактора F, т.е. в новых условиях,тогда воздейств фактора F на ξ контролировалось и найдена дисперсия Dξ. Если фактор F не оказ влияния на ξ,то Dξ=D0ξ, если Dξ>D0ξ, то фактор F оказывает влияние на ξ,тогда Dξ=D0ξ+DFξ,где DFξ – доля дисперсии, обусловлен влиян фактора F. Если кроме фактора F на случ велич ξ воздейств еще другой фактор Ф. то Dξ=D0ξ+DFξ+DФξ+DFФξ, DFФξ – доля дисперсии,обусловлен совместным воздейств двух факторов F и Ф на случ велич ξ. Можно распростр на случай m факторов. I. Пусть на колич-ый норм-о распред признак ξ возд фактор Ғ, имеющ р-ур-ей и пусть q – число  наблюд на кажд ур-не. Ур-ни ф-ра F:

№набл

Ғ1

Ғр

1

x11

 

2

x21

x2p

q

xq1

xqp


групп сред

Ғ1

Ғр

   

 

Dобщ=Dвн+Dмежгр

Q=Q0+QF,где Q= - общ сумма квад отклон наблюд знач от общей сред. - факторн сумма кв-ов отклон групп-ых ср-их от общ ср-ей. .Q0 – остаточ сумма квадр отклон наблюд знач групп от своих групп-ых средних. QF – хар-ет степень возд фактора F на случ велич ξ. Действит, если F оказ существ влиян на ξ,то группы знач на одном опред Ур-не должны отличаться от групп знач на других Ур-ях,поэтому существ отлич групповые сред-е. Если Ғ влияет на ξ незнач, то групп средн близки друг к другу. Q0 хар-ет влияние всех других неконтрол факторов кроме Ғ.Действ-но, чем сильнее влиян неконтрол факторов, тем больше будет разброс знач в кажд гр-е и Q0 будет больше. Q отраж влиян как ф-ра Ғ, так и всех других факторов,т.к. Q=QF+Q0. n=p*q. Исправ дисперсия  . . - общ испр выб-ая дисперсия. - факторн испр. -ост-ая испр дисп. Выберем ур-нь знач α для проверки: Н0=М1ξ=…=Мрξ о рав-ве генер-ых группов мат ожиданий. При р=2 решаем з-чу. При p>2 попар сравн недост,поэт прих исп методы дисперс анализа. Если Н0 верна, то выборочн групп средние различ незначит, а значит фактор F – оказ несущ влияние на ξ. Поэтому, сост мал долю в общ дисперсии. Если Н0 неверна, то гр средн различ существ, поэтому - сущест отлич от т.к. сост знач долю общ дисперсии. С возраст различий между групп ср-ни,увелич число - набл знач Крит Фишера-Следекора для проверки гипотезы о рав-ве дисперсий, т.о. з-ча реш-ся с помощью Крит. Фишера-Следекора. И провер-ся значимость различ между .Зам:1) Этот Крит примен в предполож,что генер-ые дисп-ии = между собой. Если в этом нет увер-ти,то предварит надо пров гипот о рав-ве ген дисп (критерий Кочрена с k=q-1 степенями свободы Крит т. мах по α,p,q-1. 2) Если , то Ғ влияет несуществен, нет необх примент критерий Фишера-След.3)нетруд преобр ф-лы к след виду Q=, QF=, Q0=Q- QF. II Пусть на ξ возд 2 ф-ра: F и Ф. ф-р F имеет p ур-ей, а ф-р Ф имеет r ур-ей. Пусть n –кол-во повторн наблюд, одинак для сочетаний по 2 всех ур-ей фак-ов. Выборочных знач  к случ велич ξ,сгруппир в блоках наблюдаются при одних и тех же(внутри каждого блока) уровнях обоих факторов, поэтому их дисперсия,наряду со случайными (неучтенными) фак-ми  обусловл совместн воздейств факторов F и Ф при каждой паре уровней. Чтобы выявить компоненту дисперсии DFФξ обусловленную совместными действиями двух факторов необход найти сумму квадратов центральных отклонений для блоков ( )

Информация о работе Основные задачи математической статистики