Обработка двумерной случайной выборки

Автор работы: Пользователь скрыл имя, 09 Июня 2013 в 12:14, курсовая работа

Краткое описание

Теория вероятностей является одним из классических разделов математики. Вероятностные и статистические методы в настоящее время глубоко проникли в приложения. Они используются в физике, технике, экономке, биологии и медицине. Особенно возросла их роль в связи с развитием вычислительной техники.

Содержание

Введение…………………………………………………………………..5
1.Обработка одномерной случайной выборки…………………………..6
1.1. Нахождение точечных оценок для не сгруппированной выборки…………………………………………………………………….6
1.2. Нахождение точечных оценок для сгруппированной выборки…………………………………………………………………....7
1.3. Построения гистограммы функций распределения……………............................................................................9
1.4. Расчёт критерия Пирсона…………………………………...15
1.5. Расчёт критерия Колмогорова……………………………...17
2. Обработка двумерной случайной выборки………………………….17
2.1. Построение поля рассеивания, гипотеза о виде корреляционной зависимости……………………………………….…18
2.2. Построение корреляционной таблицы……………………..22
2.3.Расчёт коэффициентов уравнения прямой регрессии……….23
2.4. Нахождение выборочного коэффициента корреляции….….25
2.5.Расчёт коэффициентов уравнения криволинейной регрессии…………………………………………………………………27
2.6. Нахождение корреляционного отношения…………………28
2.7.Расчёт критерия Фишера……………………………………...29
Заключение……………………………………………………………….31
Литература………………………………………………………………..

Скачать полностью (1.89 Мб) Сколько стоит заказать работу?

Прикрепленные файлы: 1 файл

записка тв.docx

— 1.94 Мб (Скачать документ)

Корреляция изучается на основании экспериментальных данных, представляющих собой измеренные значения (x_i, y_i) двух признаков. Если экспериментальных данных немного, то двумерное эмпирическое распределение представляется в виде двойного ряда значений x_i и y_i. При этом корреляционную зависимость между признаками можно описывать разными способами. Соответствие между аргументом и функцией может быть задано таблицей, формулой, графиком и т. д.
Корреляционный анализ, как и другие статистические методы, основан на использовании вероятностных моделей, описывающих поведение исследуемых признаков в некоторой генеральной совокупности, из которой получены экспериментальные значения x_i и y_i.
Когда исследуется корреляция между количественными признаками, значения которых можно точно измерить в единицах метрических шкал (метры, секунды, килограммы и т.д.), то очень часто принимается модель двумерной нормально распределенной генеральной совокупности. Такая модель отображает зависимость между переменными величинами x_i и y_i графически в виде геометрического места точек в системе прямоугольных координат. Эту графическую зависимость называются также диаграммой рассеивания или корреляционным полем.

Данная модель двумерного нормального распределения (корреляционное поле) позволяет дать наглядную графическую интерпретацию коэффициента корреляции, т.к. распределение в совокупности зависит от пяти параметров: m_x, m_y – средние значения (математические ожидания); s_x,s_y – стандартные отклонения случайных величин Х и Y и р – коэффициент корреляции, который является мерой связи между случайными величинами Х и Y.
Если р = 0, то значения, x_i, y_i, полученные из двумерной нормальной совокупности, располагаются на графике в координатах х, у в пределах области, ограниченной окружностью (рисунок 2.1. Виды зависимости а). В этом случае между случайными величинами Х и Y отсутствует корреляция и они называются некоррелированными. Для двумерного нормального распределения некоррелированность означает одновременно и независимость случайных величин Х и Y.

Рисунок 2.1. Виды зависимости.

Если р = 1 или р = -1, то между случайными величинами Х и Y существует линейная функциональная зависимость (Y = c + dX). В этом случае говорят о полной корреляции. При р = 1 значения x_i, y_i определяют точки, лежащие на прямой линии, имеющей положительный наклон (с увеличением x_i значения y_i также увеличиваются), при р = -1 прямая имеет отрицательный наклон (рисунок 2.1. Виды зависимости б).

В промежуточных случаях (-1 < p < 1) точки, соответствующие значениям xi_, y_i, попадают в область, ограниченную некоторым эллипсом (рисунок 2.1. Виды зависимости в, рисунок 2.1. Виды зависимости г), причем при p > 0 имеет место положительная корреляция (с увеличением x_i значения y_i имеют тенденцию к возрастанию), при p < 0 корреляция отрицательная. Чем ближе р к ±1, тем уже эллипс и тем теснее экспериментальные значения группируются около прямой линии.
Здесь же следует обратить внимание на то, что линия, вдоль которой группируются точки, может быть не только прямой, а иметь любую другую форму: парабола, гипербола и т. д. В этих случаях мы рассматривали бы так называемую, нелинейную (или криволинейную) корреляцию (рисунок 2.1. Виды зависимости д). Таким образом, визуальный анализ корреляционного поля помогает выявить не только наличия статистической зависимости (линейную или нелинейную) между исследуемыми признаками, но и ее тесноту и форму. Это имеет существенное значение для следующего шага в анализе ѕ выбора и вычисления соответствующего коэффициента корреляции.

Модель корреляционного поля, полученного для данной двумерной выборки представлено на рисунке 2.1.Корреляционное поле.

2.1.Корреляционное поле.

Т.к. коэффициент корреляции для данной двумерной выборки равен +0,15, т.е. корреляционная зависимость очень слабая. Чему соответствует вид поля – широкий эллипс, почти круг, имеющий слабую тенденцию возрастания.

2.2. Построение корреляционной таблицы.

На практике в результате независимых наблюдений над величинами X и Y, как правило, имеют дело не со всей совокупностью всех возможных пар значений этих величин, а лишь с ограниченной выборкой из генеральной совокупности.

Первоочередной задачей статистической обработки экспериментального материала является систематизация полученных данных и выяснение формы соответствующей генеральной совокупности.

Таблицу с группированными данными называют корреляционной. В первой строке основной части таблицы в порядке возрастания перечисляются все промежутки, на которые разбита выборка X. В первом столбце также промежутки, на которые разбита выборка Y. На пересечении соответствующих строк и столбцов указываются количество точек, которые попадают в этот участок. Последний столбец и последняя строка содержат суммы соответствующих строк и столбцов.

Корреляционная таблица:

y/x |0,019-0,49|0,49-0,97|0,97- 1,4| 1,4- 1,9| 1,9- 2,4| 2,4- 2,9| 2,9- 3,3| 3,3- 3,8|Ny

-0,076-0,33| 0| 0| 1| 1| 5| 3| 2| 0| 12| 0,33-0,74 | 0| 1| 1| 6| 7| 5| 2| 2| 24| 0,74- 1,1 | 2| 0| 1| 3| 10| 7| 1| 4| 28| 1,1- 1,5 | 0| 1| 2| 3| 6| 8| 2| 1| 23| 1,5- 2 | 0| 0| 0| 0| 1| 3| 1| 0| 5| 2- 2,4 | 0| 0| 0| 0| 3| 1| 0| 0| 4| 2,4- 2,8 | 0| 0| 0| 0| 0| 0| 1| 1| 2| 2,8- 3,2 | 0| 0| 0| 0| 0| 0| 0| 0| 0| Nx | 2| 2| 5| 13| 32| 27| 9| 8|

2.3.Расчёт коэффициентов уравнения прямой регрессии.

Выбрав вид функции регрессии, т.е. вид рассматриваемой модели зависимости Y от Х (или Х от У), например, линейную модель y_x=a+bx, необходимо определить конкретные значения коэффициентов модели.

При различных значениях а и b можно построить бесконечное число зависимостей вида y_x=a+bx т.е на координатной плоскости имеется бесконечное количество прямых, нам же необходима такая зависимость, которая соответствует наблюдаемым значениям наилучшим образом. Таким образом, задача сводится к подбору наилучших коэффициентов.

Линейную функцию a+bx ищем, исходя лишь из некоторого количества имеющихся наблюдений. Для нахождения функции с наилучшим соответствием наблюдаемым значениям используем метод наименьших квадратов.

Обозначим: Y_i - значение, вычисленное по уравнению Y_i=a+bx_i. y_i - измеренное значение, ε_i=y_i-Y_i - разность между измеренными и вычисленными по уравнению значениям, ε_i=y_i-a-bx_i.

В методе наименьших квадратов требуется, чтобы ε_i, разность между измеренными y_i и вычисленными по уравнению значениям Y_i, была минимальной. Следовательно, находим коэффициенты а и b так, чтобы сумма квадратов отклонений наблюдаемых значений от значений на прямой линии регрессии оказалась наименьшей:

Исследуя на экстремум эту функцию аргументов а и с помощью производных, можно доказать, что функция принимает минимальное значение, если коэффициенты а и b являются решениями системы:

Если разделить обе части нормальных уравнений на n, то получим:

Учитывая, что

Получим , отсюда, подставляя значение a в первое уравнение, получим:

При этом b называют коэффициентом регрессии; a называют свободным членом уравнения регрессии.

2.4. Нахождение выборочного коэффициента корреляции.

Понятие корреляции является одним из основных понятий теории вероятностей и математической статистики, оно было введено Гальтоном и Пирсоном.

Закон природы или общественного развития может быть представлен описанием совокупности взаимосвязей. Если эти зависимости стохастичны, а анализ осуществляется по выборке из генеральной совокупности, то данная область исследования относится к задачам стохастического исследования зависимостей, которые включают в себя корреляционный, регрессионный, дисперсионный и ковариационный анализы. В данном разделе рассмотрена теснота статистической связи между анализируемыми переменными, т.е. задачи корреляционного анализа.

В качестве измерителей степени тесноты парных связей между количественными переменными используются коэффициент корреляции (или то же самое "коэффициент корреляции Пирсона") и корреляционное отношение.

Пусть при проведении некоторого опыта наблюдаются две случайные величины X и Y, причем одно и то же значение x встречается n_xраз, y – n_y раз, одна и та же пара чисел (x,y) наблюдается n_xy раз. Все данные записываются в виде таблицы, которую называют корреляционной.

Выборочная ковариация k(X,Y) величин X и Y определяется формулой

где а x^*, y^*- выборочные средние величин X и Y

Выборочный коэффициент корреляции находится по формуле:

где - выборочные средние квадратические отклонения величин X и Y.

Выборочный коэффициент корреляции r(X,Y) показывает тесноту линейной связи между X и Y: чем ближе r(X,Y) к единице, тем сильнее линейная связь между X и Y.

2.5. Расчёт коэффициентов уравнения криволинейной регрессии.

Это уравнение вида Y = b₀ +b₁X₁ + b₂X₂;
1) Найтин еизвестные b₀, b₁,b₂ можно, решим систему трехлинейных уравнений с тремя неизвестными b₀,b₁,b₂:

Для решения системы можете воспользоваться решение системы методом Крамера
2) Или использовав формулы^

Выборочные дисперсии эмпирических коэффициентов множественной регрессии можно определить следующим образом:

Здесь z'_jj - j-тый диагональный элемент матрицы Z-1 =(XTX)-1.

При этом:

где m - количество объясняющих переменных модели.

2.6. Нахождение корреляционного отношения.

Корреляционное отношение в криволинейной регрессии играет ту же роль, что и коэффициент корреляции в линейной, показывая тесноту группировки данных вокруг линии регрессии. Именно по этой причине анализ силы связи по 0 называют корреляционным, какова бы ни была изучаемая регрессия.

Эмпирическое корреляционное отношение определяется по формуле:
, где

- межгрупповая дисперсия;

- общая дисперсия.

2.7.Расчёт критерия Фишера.

Критерием Фишера (F-критерием, φ*-критерием) — называют любой статистический критерий, тестовая статистика которого при выполнении нулевой гипотезы имеет распределение Фишера (F-распределение).

Статистика теста так или иначе сводится к отношению выборочных дисперсий (сумм квадратов, деленных на "степени свободы"). Чтобы статистика имела распределение Фишера необходимо, чтобы числитель и знаменатель были независимыми случайными величинами и соответствующие суммы квадратов имели распределение Хи-квадрат. Для этого требуется, чтобы данные имели нормальное распределение. Кроме того, предполагается, что дисперсия случайных величин, квадраты которых суммируются, одинакова.

Тест проводится путем сравнения значения статистики с критическим значением соответствующего распределения Фишера при заданном уровне значимости. Известно, что если , то , . Кроме того, квантили распределения Фишера обладают свойством F_1-α=1/F_α. Поэтому обычно на практике в числителе участвует потенциально большая величина, в знаменателе - меньшая и сравнение осуществляется с "правой" квантилью распределения. Тем не менее тест может быть и двусторонним и односторонним. В первом случае при уровне значимости используется квантиль F_α/2, а при одностороннем тесте F_α.

Более удобный способ проверки гипотез - с помощью p-значения p(F) - вероятностью того, что случайная величина с данным распределением Фишера превысит данное значение статистики. Если p(F) (для двустороннего теста – 2p(F) меньше уровня значимости α, то нулевая гипотеза отвергается, в противном случае принимается.

Информация о работе Обработка двумерной случайной выборки