Автор работы: Пользователь скрыл имя, 09 Июня 2013 в 12:14, курсовая работа
Теория вероятностей является одним из классических разделов математики. Вероятностные и статистические методы в настоящее время глубоко проникли в приложения. Они используются в физике, технике, экономке, биологии и медицине. Особенно возросла их роль в связи с развитием вычислительной техники.
Введение…………………………………………………………………..5
1.Обработка одномерной случайной выборки…………………………..6
1.1. Нахождение точечных оценок для не сгруппированной выборки…………………………………………………………………….6
1.2. Нахождение точечных оценок для сгруппированной выборки…………………………………………………………………....7
1.3. Построения гистограммы функций распределения……………............................................................................9
1.4. Расчёт критерия Пирсона…………………………………...15
1.5. Расчёт критерия Колмогорова……………………………...17
2. Обработка двумерной случайной выборки………………………….17
2.1. Построение поля рассеивания, гипотеза о виде корреляционной зависимости……………………………………….…18
2.2. Построение корреляционной таблицы……………………..22
2.3.Расчёт коэффициентов уравнения прямой регрессии……….23
2.4. Нахождение выборочного коэффициента корреляции….….25
2.5.Расчёт коэффициентов уравнения криволинейной регрессии…………………………………………………………………27
2.6. Нахождение корреляционного отношения…………………28
2.7.Расчёт критерия Фишера……………………………………...29
Заключение……………………………………………………………….31
Литература………………………………………………………………..
Корреляция
изучается на основании экспериментальных
данных, представляющих собой измеренные
значения (xi, yi) двух
признаков. Если экспериментальных данных
немного, то двумерное эмпирическое распределение
представляется в виде двойного ряда значений xi
и yi. При этом корреляционную
зависимость между признаками можно описывать
разными способами. Соответствие между
аргументом и функцией может быть задано
таблицей, формулой, графиком и т. д.
Корреляционный анализ, как и другие статистические
методы, основан на использовании вероятностных
моделей, описывающих поведение исследуемых
признаков в некоторой генеральной совокупности,
из которой получены экспериментальные
значения xi и yi.
Когда исследуется корреляция между количественными
признаками, значения которых можно точно
измерить в единицах метрических шкал
(метры, секунды, килограммы и т.д.), то очень
часто принимается модель двумерной нормально
распределенной генеральной совокупности.
Такая модель отображает зависимость
между переменными величинами xi и yi графически в виде
геометрического места точек в системе
прямоугольных координат. Эту графическую
зависимость называются также диаграммой
рассеивания или корреляционным полем.
Данная
модель двумерного нормального распределения
(корреляционное поле) позволяет дать
наглядную графическую
Если р = 0, то значения, xi, yi, полученные
из двумерной нормальной совокупности,
располагаются на графике в координатах х,
у в пределах области, ограниченной
окружностью (рисунок 2.1. Виды зависимости
а). В этом случае между случайными величинами Х
и Y отсутствует корреляция и они называются
некоррелированными. Для двумерного нормального
распределения некоррелированность означает
одновременно и независимость случайных
величин Х и Y.
Если р = 1 или р = -1, то между случайными
величинами Х и Y существует линейная
функциональная зависимость (Y = c + dX). В этом случае
говорят о полной корреляции. При р = 1 значения xi,
yi определяют точки, лежащие
на прямой линии, имеющей положительный
наклон (с увеличением xi значения yi также увеличиваются),
при р = -1 прямая имеет отрицательный наклон
(рисунок 2.1. Виды зависимости б).
В промежуточных
случаях (-1 < p < 1) точки, соответствующие
значениям xi, yi, попадают
в область, ограниченную некоторым эллипсом
(рисунок 2.1. Виды зависимости в, рисунок
2.1. Виды зависимости г), причем при p > 0 имеет место положительная
корреляция (с увеличением xi значения yi имеют тенденцию
к возрастанию), при p < 0 корреляция отрицательная.
Чем ближе р к ±1, тем уже эллипс и тем теснее
экспериментальные значения группируются
около прямой линии.
Здесь же следует обратить внимание на
то, что линия, вдоль которой группируются
точки, может быть не только прямой, а иметь
любую другую форму: парабола, гипербола
и т. д. В этих случаях мы рассматривали
бы так называемую, нелинейную (или криволинейную)
корреляцию (рисунок 2.1. Виды зависимости
д). Таким образом, визуальный анализ корреляционного
поля помогает выявить не только наличия
статистической зависимости (линейную
или нелинейную) между исследуемыми признаками,
но и ее тесноту и форму. Это имеет существенное
значение для следующего шага в анализе
ѕ выбора и вычисления соответствующего
коэффициента корреляции.
Модель корреляционного поля, полученного для данной двумерной выборки представлено на рисунке 2.1.Корреляционное поле.
2.1.Корреляционное поле.
Т.к. коэффициент корреляции для данной двумерной выборки равен +0,15, т.е. корреляционная зависимость очень слабая. Чему соответствует вид поля – широкий эллипс, почти круг, имеющий слабую тенденцию возрастания.
2.2. Построение корреляционной таблицы.
На практике в результате независимых наблюдений над величинами X и Y, как правило, имеют дело не со всей совокупностью всех возможных пар значений этих величин, а лишь с ограниченной выборкой из генеральной совокупности.
Первоочередной
задачей статистической обработки
экспериментального материала является
систематизация полученных данных и
выяснение формы
Таблицу
с группированными данными
Корреляционная таблица:
y/x |0,019-0,49|0,49-0,97|0,97- 1,4| 1,4- 1,9| 1,9- 2,4| 2,4- 2,9| 2,9- 3,3| 3,3- 3,8|Ny
-0,076-0,33| 0| 0| 1| 1| 5| 3| 2| 0| 12| 0,33-0,74 | 0| 1| 1| 6| 7| 5| 2| 2| 24| 0,74- 1,1 | 2| 0| 1| 3| 10| 7| 1| 4| 28| 1,1- 1,5 | 0| 1| 2| 3| 6| 8| 2| 1| 23| 1,5- 2 | 0| 0| 0| 0| 1| 3| 1| 0| 5| 2- 2,4 | 0| 0| 0| 0| 3| 1| 0| 0| 4| 2,4- 2,8 | 0| 0| 0| 0| 0| 0| 1| 1| 2| 2,8- 3,2 | 0| 0| 0| 0| 0| 0| 0| 0| 0| Nx | 2| 2| 5| 13| 32| 27| 9| 8|
2.3.Расчёт коэффициентов уравнения прямой регрессии.
Выбрав вид функции регрессии, т.е. вид рассматриваемой модели зависимости Y от Х (или Х от У), например, линейную модель yx=a+bx, необходимо определить конкретные значения коэффициентов модели.
При различных значениях а и b можно построить бесконечное число зависимостей вида yx=a+bx т.е на координатной плоскости имеется бесконечное количество прямых, нам же необходима такая зависимость, которая соответствует наблюдаемым значениям наилучшим образом. Таким образом, задача сводится к подбору наилучших коэффициентов.
Линейную функцию a+bx ищем, исходя лишь
из некоторого количества имеющихся
наблюдений. Для нахождения функции
с наилучшим соответствием
Обозначим: Yi - значение, вычисленное по уравнению Yi=a+bxi. yi - измеренное значение, εi=yi-Yi - разность между измеренными и вычисленными по уравнению значениям, εi=yi-a-bxi.
В методе наименьших квадратов требуется, чтобы εi, разность между измеренными yi и вычисленными по уравнению значениям Yi, была минимальной. Следовательно, находим коэффициенты а и b так, чтобы сумма квадратов отклонений наблюдаемых значений от значений на прямой линии регрессии оказалась наименьшей:
Исследуя на экстремум эту функцию аргументов а и с помощью производных, можно доказать, что функция принимает минимальное значение, если коэффициенты а и b являются решениями системы:
Если разделить обе части нормальных уравнений на n, то получим:
Учитывая, что
Получим , отсюда, подставляя значение a в первое уравнение, получим:
При этом b называют коэффициентом регрессии; a называют свободным членом уравнения регрессии.
2.4. Нахождение выборочного коэффициента корреляции.
Понятие корреляции является одним из основных понятий теории вероятностей и математической статистики, оно было введено Гальтоном и Пирсоном.
Закон природы или общественного
развития может быть представлен
описанием совокупности взаимосвязей.
Если эти зависимости стохастичны,
а анализ осуществляется по выборке
из генеральной совокупности, то данная
область исследования относится
к задачам стохастического
В качестве измерителей степени тесноты парных связей между количественными переменными используются коэффициент корреляции (или то же самое "коэффициент корреляции Пирсона") и корреляционное отношение.
Пусть при проведении некоторого опыта
наблюдаются две случайные
Выборочная ковариация k(X,Y) величин X и Y определяется формулой
где а x*, y*- выборочные средние величин X и Y
Выборочный коэффициент
где - выборочные средние квадратические отклонения величин X и Y.
Выборочный коэффициент
2.5. Расчёт коэффициентов уравнения криволинейной регрессии.
Это уравнение
вида Y = b0 +b1X1 + b2X2;
1) Найтин еизвестные b0, b1,b2
можно, решим систему трехлинейных уравнений
с тремя неизвестными b0,b1,b2:
Для решения
системы можете воспользоваться решение системы методом Крамера
2) Или использовав формулы^
Выборочные дисперсии эмпирических коэффициентов множественной регрессии можно определить следующим образом:
Здесь z'jj - j-тый диагональный элемент матрицы
Z-1 =(XTX)-1.
При этом:
где m - количество объясняющих переменных
модели.
2.6. Нахождение корреляционного отношения.
Корреляционное отношение в криволинейной регрессии играет ту же роль, что и коэффициент корреляции в линейной, показывая тесноту группировки данных вокруг линии регрессии. Именно по этой причине анализ силы связи по 0 называют корреляционным, какова бы ни была изучаемая регрессия.
Эмпирическое корреляционное отношение
определяется по формуле:
, где
- межгрупповая дисперсия;
- общая дисперсия.
2.7.Расчёт критерия Фишера.
Критерием Фишера (F-критерием, φ*-критерием) — называют любой статистический критерий, тестовая статистика которого при выполнении нулевой гипотезы имеет распределение Фишера (F-распределение).
Статистика теста так или
иначе сводится к отношению выборочных
дисперсий (сумм квадратов, деленных на
"степени свободы"). Чтобы статистика
имела распределение Фишера необходимо,
чтобы числитель и знаменатель
были независимыми случайными величинами
и соответствующие суммы
Тест проводится путем сравнения значения статистики с критическим значением соответствующего распределения Фишера при заданном уровне значимости. Известно, что если , то , . Кроме того, квантили распределения Фишера обладают свойством F1-α=1/Fα. Поэтому обычно на практике в числителе участвует потенциально большая величина, в знаменателе - меньшая и сравнение осуществляется с "правой" квантилью распределения. Тем не менее тест может быть и двусторонним и односторонним. В первом случае при уровне значимости используется квантиль Fα/2, а при одностороннем тесте Fα.
Более удобный способ проверки гипотез - с помощью p-значения p(F) - вероятностью того, что случайная величина с данным распределением Фишера превысит данное значение статистики. Если p(F) (для двустороннего теста – 2p(F) меньше уровня значимости α, то нулевая гипотеза отвергается, в противном случае принимается.