Оглавление
ВВЕДЕНИЕ
Корреляционная связь— это
зависимость среднего значения результативного
признака от изменения факторного признака;
в то время как каждому отдельному значению
факторного признака Х может соответствовать
множество различных значений результативного(Y).
Очень важно понимать суть изучаемой
связи, поскольку корреляционная связь
может возникнуть между двумя следствиями
общей причины. Здесь можно привести множество
примеров. Так, классическим является
пример, приведенный известным статистиком
начала XX в. А.А.Чупровым. Если в качестве
признака Х взять число пожарных команд
в городе, а за признак Y — сумму убытков
в городе от пожаров, то между признаками
Х и Y в городах обнаружится значительная
прямая корреляция. В среднем, чем больше
пожарников в городе, тем больше убытков
от пожаров. В чем же дело? Данную корреляцию
нельзя интерпретировать как связь причины
и следствия, оба признака- следствия общей
причины- размера города. В крупных городах
больше пожарных частей, но больше и пожаров,
и убытков от них за год, чем в мелких.
Темой данной курсовой работы
является «Разработка программного модуля
на языке VBA для вычисления и проверки
статистической значимости коэффициента
корреляции для двух выборок, извлеченных
из различных генеральных совокупностей,
распределенных по нормальному закону».
В данной курсовой работе будет разработан
программный модуль на языке Visual Basic for
Applications для вычисления и проверки статистической
значимости коэффициента корреляции для
двух выборок.
Целью данной курсовой работы
является теоретическое изучение проверки
статистической значимости коэффициента
корреляции.
В процессе подготовки курсовой
работы решались следующие задачи:
- исследование литературных и
интернет-источников по теме курсовой
работы;
- теоретическое исследование математических формул применяемых при расчетах и проверки значимости коэффициента корреляции;
- изучение операторов VBA необходимых для разработки программного модуля;
- разработка программного модуля средствами VBA для вычисления и проверки статистической
значимости коэффициента корреляции;
- формулирование выводов и предложений по результатам работы.
При подготовке работы использовались
различные литературные источники отечественных
и зарубежных авторов, интернет-источники.
ОПИСАНИЕ
ЭКОНОМИЧЕСКОГО ОБЪЕКТА И ПОСТАНОВКА ЗАДАЧИ
Корреляция
Статистическая связь двух
переменных (количественных или порядковых),
показывающая, что большему значению одной
величины в определенной части случаев
соответствует большее (в случае положительной,
прямой корреляции) или меньшее (в случае
отрицательной, обратной корреляции) значение
другой величины.
Задачами корреляционного анализа
являются:
1) изучение степени тесноты
связи2 и более явлений;
2) отбор факторов, оказывающих
наиболее существенное влияние
на результативный признак;
3) выявление неизвестных
причинных связей. Исследование
корреляционных зависимостей включает
ряд этапов:
1) предварительный анализ
свойств совокупности;
2) установление факта
наличия связи, определение ее
направления и формы;
3) измерение степени тесноты
связи между признаками;
4) построение регрессионной
модели, т. е. нахождение аналитического
выражения связи;
5) оценку адекватности
модели, ее экономическую интерпретацию
и практическое использование.
Корреляционная связь между
признаками может возникать различными
путями. Важнейший путь-причинная зависимость
результативного признака (его вариации)
от вариации факторного признака.
Например, Х— балл оценки плодородия
почв, Y — урожайность сельскохозяйственной
культуры. Здесь ясно, какой признак выступает
как независимая переменная(фактор), а
какой как зависимая переменная
(результат).
Корреляция возникает и в случае,
когда каждый из признаков и причина, и
следствие. Например, при сдельной оплате
труда существует корреляция между производительностью
труда и заработком. С одной стороны, чем
выше производительность труда, тем выше
заработок. С другой— высокий заработок
сам по себе является стимулирующим фактором,
заставляющим работника трудиться более
интенсивно.
По направлению выделяют связь
прямую и обратную, по аналитическому
выражению— прямолинейную и нелинейную.
В начальной стадии анализа
статистических данных не всегда требуются
количественные оценки, достаточно лишь
определить направление и характер связи,
выявить форму воздействия одних факторов
на другие. Для этих целей применяются
методы приведения параллельных данных,
аналитических группировок и графический.
МАТЕМАТИЧЕСКАЯ МОДЕЛЬ И МЕТОД АНАЛИЗА
Пусть
,
,…,
- выборка из n наблюдений пары
переменных
.
Выборочный коэффициент корреляции r определяется
как
(1.1)
где,- выборочные средние,
определяющиеся следующим образом:
(1.2)
(1.3)
Свойства коэффициента корреляции r
r изменяется в интервале от
-1 до +1.
Знак r означает, увеличивается
ли одна переменная по мере того, как увеличивается
другая (положительный r), или уменьшается
ли одна переменная по мере того, как увеличивается
другая (отрицательный r).
Величина r величина указывает,
как близко расположены точки к прямой
линии. В частности, если
или
, то имеется абсолютная (функциональная)
корреляция по всем точкам, лежащим на
линии (практически это маловероятно);
если
, то линейной корреляции нет
(хотя может быть нелинейное соотношение).
Чем ближе r к крайним точкам
, тем больше степень линейной
связи.
Коэффициент корреляции r безразмерен,
т. е. не имеет единиц измерения.
Величина r обоснована
только в диапазоне значений x и y в выборке. Нельзя
заключить, что он будет иметь ту же величину
при рассмотрении значений x или y, которые значительно
больше, чем их значения в выборке.
x и y могут взаимозаменяться,
не влияя на величину r
.
Корреляция между x и у не обязательно
означает соотношение причины и следствия.
представляет собой долю вариабельности у, которая обусловлена
линейным соотношением с x.
Выборочный коэффициент корреляции
Пусть,
,
– набор значений двух факторов
на выборке объёма n.
Коэффициент корреляции, подсчитанный
таким образом, называется коэффициентом
корреляции Пирсона.
Корреляционный анализ
Метод обработки статистических
данных, заключающийся в изучении коэффициентов
корреляции между переменными.
При этом сравниваются коэффициенты
корреляции между одной парой или множеством
пар признаков для установления между
ними статистических взаимосвязей.
Корреляционный анализ применяется
только для анализа связи количественных
и/или качественных порядковых признаков.
Оценка достоверности коэффициента
корреляции.
Коэффициент парной корреляции,
исчисленный по выборочным данным, является
случайной величиной. С уменьшением числа
наблюдений надежность коэффициента корреляции
падает. С увеличением числа наблюдений(свыше500)
распределение коэффициента корреляции
r (не превышающее 0,9) стремится к нормальному.
Полученный из выборки коэффициент
корреляции r является оценкой коэффициента
корреляции ρ в генеральной совокупности.
Значимость коэффициента корреляции
можно проверить с помощью статистики
, имеющей распределение Стьюдента
с
степенями свободы.
Расчетное значение
вычисляется как
,
(1.6)
Критическое значение
определяется по таблице распределения
Стьюдента (приложение5) по уровню значимости
и числу степеней свободы
По общему правилу проверки
статистических гипотез:
— если
, нулевую гипотезу о том, что между
Х и Y отсутствует корреляционная связь
, нельзя отклонить на заданном уровне
значимости
;
— если
, нулевая гипотеза отклоняется в пользу
альтернативной о том, что коэффициент
корреляции значимо отличается от нуля
,т. е. о наличии линейной корреляционной
зависимости между Х и Y.
Критерий
подчиняется закону распределения
Стьюдента с
степенями свободы.
Определим доверительный интервал
для оценки истинного значения коэффициента
корреляции в
генеральной совокупности(ρ)
,
(1.4)
где
— среднеквадратическая ошибка выборочного
коэффициента парной корреляции;
,
(1.5)
— распределение Стьюдента
с числом степеней свободы
и уровнем значимости
,
.
РАЗРАБОТКА
ВХОДНЫХ И ВЫХОДНЫХ ФОРМ
При разработке данного программного
модуля использовались следующие входные
и выходные формы:
- Начальная форма при входе в программу представлена
на рисунке 1 На форме расположены
командная кнопка «Корреляции»
(CommandButton1) и командная кнопка «Очистить» (CommandButton2).
- Входная форма, открывающаяся при нажатии
кнопки «Корреляции» представлена на рисунке 2 пользовательской формой «Ввод исходных данных» (UserForm1).
Рисунок
2 - входная форма.
- Выходные формы представлены с помощью
диалоговых окон функцией MsgBox и в виде соответствующих им таблиц, выводящей данные на лист Excel
(рисунок 3 и рисунок 4)
Рисунок
3 – функция MsgBox- доверительного интервала
Рисунок
4 – итоговая таблица
СТРУКТУРА
ДАННЫХ И ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ
В разработанном программном
модуле на языке VBA для вычисления и проверки
статистической значимости коэффициента
корреляции для двух выборок, извлеченных
из различных генеральных совокупностей,
распределенных по нормальному закону используются
функция вызова (UserForm_.Show) и функция закрытия
(Unload Me) пользовательских форм:
Private Sub CommandButton1_Click()
UserForm1.Show
End Sub
Private Sub CommandButton5_Click()
Unload Me
End Sub
Следующая подпрограмма обеспечивает
ввод количество случайных чисел для двух
выборок:
Private Sub TextBox1_Change()
n = TextBox1.Text
Worksheets(1).Cells(1, 5).Value = n
End Sub
При написании подпрограммы
на командную кнопку для расчета генерации
случайных чисел по первой выборке, распределенных
по нормальному закону используется следующая
подпрограмма:
Private Sub CommandButton1_Click()
'объявляем переменные
Dim lRundNum, lMinNum, lMaxNum, kol, x, i As Double
' Присваивание входящих значений
x = 2
kol = TextBox1.Text
lMinNum = TextBox2.Text: lMaxNum = TextBox3.Text
Worksheets(1).Cells(1, 1) = "X"
'MsgBox "Ввод 1 множества"
'Генерация случайных
значений и запись в ячейки
Do While i < kol 'Начало
цикла
'Вызов рандома
Randomize
lRundNum = Int(lMinNum + (Rnd() * lMaxNum))
Cells(x, 1) = lRundNum ' Запись в ячейку
x = x + 1 'Увеличение ячеки на одну
позицию
i = i + 1 'Увеличение шага на единицу
Loop
End Sub
При написании подпрограммы
на командную кнопку для расчета генерации
случайных чисел по второй выборке, распределенных
по нормальному закону используется следующая
подпрограмма:
Private Sub CommandButton2_Click()
'объявляем переменные
Dim lRundNum, lMinNum, lMaxNum, kol, x, i As Double
' Присваивание входящих значений
x = 2
kol = TextBox1.Text
lMinNum = TextBox6.Text: lMaxNum = TextBox7.Text
Worksheets(1).Cells(1,
2) = "Y"
'MsgBox "Ввод
2 множества"
'Генерация случайных значений
и запись в ячейки
Do While i < kol 'Начало
цикла
'Вызов рандома
Randomize
lRundNum = Int(lMinNum + (Rnd() * lMaxNum))
Cells(x, 2) = lRundNum ' Запись в ячейку
x = x + 1 'Увеличение ячеки на одну
позицию
i = i + 1 'Увеличение шага на единицу
Loop
End Sub
При написании подпрограммы
на командную кнопку для вычисления и
проверки статистической значимости коэффициента
корреляции используется следующая подпрограмма:
Private Sub CommandButton3_Click()
Dim n As Integer
Dim x As Double
Dim y As Double
Dim Sumx As Double
Dim Sumy As Double
Dim xsr As Double
Dim ysr As Double
Dim chisl As Double
Dim zn1 As Double
Dim zn2 As Double
Dim koeff As Double
n = TextBox1.Value
Sumx = 0
For i = 1 To n
x = Cells(i + 1, 1).Value
Sumx = Sumx + x
Next i
xsr = Sumx / n
Sumy = 0
For i = 1 To n
y = Cells(i + 1, 2).Value
Sumy = Sumy + y
Next i
ysr = Sumy / n
chisl = 0
For i = 1 To n
chisl = chisl + (Worksheets(1).Cells(i + 1, 1).Value - xsr) * (Worksheets(1).Cells(i
+ 1, 2).Value - ysr)
Next i
For i = 1 To n
zn1 = zn1 + (CDbl(Worksheets(1).Cells(i + 1, 1).Value) - xsr) ^ 2