Автор работы: Пользователь скрыл имя, 20 Января 2014 в 22:26, шпаргалка
Работа содержит ответы на 20 вопросов по дисциплине "Педагогика".
Опишем теперь подробнее предлагаемую процедуру исследования и используемые математические методы.
Подготовка данных к анализу.
Прежде чем приступать к анализу, необходомо выполнить следующие действия: 1) проверить данные на наличие существенных ошибок; 2) выбрать метод работы с пропущенными значениями; 3) при необходимости сгладить выбросы. Рассмотрим каждый из этих моментов.
1) Ошибки ввода можно
условно разбить на две
2) Существует три основных
варианта работы с
3) Иногда выброс - не следствие
ошибки, а обьективный результат
исследования. Но в любом случае
он существенно искажает
Описательная статистика.
Результаты проведенного исследования интерпретируются как матрица данных T размера nґ р, строки которой соответствуют участникам исследования (случаи), а столбцы - значениям переменных или параметров. Пусть X - количественная переменная с набором значений xi, i=1,2,...n. Тогда основными параметрами её распределения являются:
D = 1/(n-1) ( S (xi - Xср)2)1/2, s = Ц D, (1)
m k = ( S (xi - Xср)k) / n , Ass( X)= m 3 / s3, Eks(X)= m 4/s4 - 3. (2)
Отметим, что m 1=0, m 2=s 2, и для нормально распределенной случайной переменной Х справедливы равенства Ass(X)=Eks(X)=0 (значительные отклонения этих параметров от нуля свидетельствуют о ненормальности распределения).
Для двух случайных переменных X, Y параметрами их совместного распределения служат корреляционный момент m xy (или коэффициент ковариации), коэффициент линейной корреляции r, корреляционные отношения h xy , h yx, определяемые следующим образом:
m xy = 1/ n (( S (xi - Xср) (yi -Yср) = (XY) ср - Xср Yср, (3)
r = m xy /(sxsy) = ( S nxy xy - n Xср Yср)/(n sxsy ), (4)
h yx = sмежгр / sy = (( S nx (yx - Y)2/( S ny (y - Y)2)1/2, (5)
h xy = sмежгр / sx = (( S ny (xy - Xср)2/( S nx (x - Xср)2)1/2. (6)
Здесь nx ny - частоты значений соответственно признака x в X и y в Y, xy , yx - условные средние. В большинстве статистических пакетов одновременно с коэффициентом корреляции определяется его уровень значимости a . Основное различие между коэффициентом корреляции r и корреляционными отношениями состоит в том, что первый измеряет тесноту линейной связи между переменными, в то время как корреляционнное отношение служит мерой уровня любой, в том числе и линейной, зависимости. Недостатком же корреляционного отношения является то, что оно не позволяет определить аппроксимирующую кривую связи между X и Y, так как при определении корреляционного отношения конкретный вид зависимости во внимание не принимается. При анализе ординальных переменных вместо коэффициента линейной корреляции К.Пирсона r используются коэффициенты ранговой корреляции Спирмена r и Кенделла t . Для этого набор значений переменных Х и Y предварительно ранжируется, и в качестве значений переменных берутся соответствующие ранги. Таким образом, набор значений ранжированной переменной есть некоторая перестановка натуральных чисел от 1 до n. Коэффициент r для рядов числовых значений xi и yi (i = 1,.., n) вычисляется по формуле r = 1- 6S/(n3 - n), где S = S (xi - yi )2. Для определения коэффициента t вводится статистика Кенделла К, определяемая как число инверсий в ряду xi, упорядоченном значениями yi. Тогда t = 1- 4K/(n(n -1)). Как и r, эти числа удовлетворяют неравенствам -1< r , t < 1, и крайние значения принимаются в случае полной предсказуемости одной ранговой последовательности по другой. Для выявления связи номинальных признаков используются таблицы сопряженности.
Параметрами многомерного распределения системы переменных {Хi}, определяемой матрицей данных T или ее подматрицей Tk, являются вектор средних и матрицы ковариаций М и корреляций R, элементами которых соответственно будут корреляционные моменты m i,j и коэффициенты парной корреляции ri,j. Диагональные элементы m i,i ковариационной матрицы М - это выборочные дисперсии Di. Обе матрицы симметричны , матрица R по сути есть нормирование М и обе они служат базой для последующего регрессионного и факторного анализа.
Регрессионный анализ. Задачей регрессионного анализа
является построение модели функциональной
связи между группой независимых переменных
(это могут быть номинальные параметры
- регрессоры либо случайные переменные,
называемые предикторами или предсказательными
переменными) и одномерной переменной
Y, называемой откликом. Рассмотрим уравнение
связи Y = f(X1, X2,...Xk , q ) + e (7), где f - n-мерная вектор-функция
от k переменных Xi и q - параметра связи; e -n-мерный случайный параметр,
отражающий отклонение от функциональной
зависимости (вектор остатков или ошибок).
В классической модели предполагается,
что координаты e независимы и одинаково распределены
по нормальному закону N(0,s 2). Рассматрим ситуацию,
когда f линейно зависит от q , т.е. задачу линейного регрессионного
анализа (с методами нелинейного анализа
можно ознакомиться в [4]). Тогда уравнение
(7) можно представить в виде Y = q 1 + q 2X1 + q 3X2 +...+ q
Наряду с изложенным выше
параметрическим подходом существуют
непараметрические методы построения
уравнений регрессии. Их преимуществом
является отсутствие предположений
относительно нормальности распределения
предикторов и ошибок, а недостатком
- меньшая мощность критериев. Одни
из таких методов используют идею
кластерного группирования
Дисперсионный анализ (ДА). Предположим, что в уравнении линейной регрессии (8) параметры q i могут принимать значения только 0 или 1. Тогда мы получим модель, в которой учитывается не степень влияния переменных Хi на Y, а сам факт этого влияния - модель дисперсионного анализа. Переменные Хi в этой модели назывются факторами, Y - откликом. В зависимости от числа факторов различают однофакторный, двухфакторный, мультифакторный виды анализа. Предполагается, что остатки e i независимы и одинаково распределены по закону N(0,s 2). Второе существенное условие - переменная Y должна быть нормально распределена. Общая идеология ДА заключается в том, чтобы представить общую дисперсию Y в виде суммы дисперсий, обусловленных влиянием факторов Хi и остаточного случайного параметра e , и, оценивая дисперсионные отношения, определить наличие и степень влияния факторов Хi на Y. Рассмотрим самую простую, и в то же время достаточно распространенную модель однофакторного анализа. Сгруппируем значения Y в k групп, параметризованных значениями фактора Х, обозначим через nj объемы соответствующих групп, через yi,j - i-е значение переменной Y в j-й группе, а yj ср - среднее в j-й группе. Тогда уравнение (8) можно представить в виде yi,j = aj + e i,j, j=1,..,k, i =1,..,n, где аj - неизвестные константы (генеральные средние по группам), e i,j независимы с распределением N(0,s 2). Будет проверяться гипотеза Н0: а1=...=аk. Для этого рассмотрим две оценки дисперсии s 2. Первая имеет вид: s * 2 = (S S (yi,j - yj ср)2 )/(n-k). Она не зависит от гипотезы и ассимптотически стремится к s 2. Вторая оценка получается через разбиение на группы, определяемые значениями фактора: s ў 2 =(S nj (yj ср - Y ср )2)/(k-1). Она зависит от Н0 и при её нарушении имеет тенденцию к возрастанию. Отношение этих оценок F = s ў 2 / s *2 имеет F - распределение с ( k-1, n-k) степенями свободы и не зависит от s . Таким образом, при наблюдаемом значении F большем, чем соответствующая a - процентная точка распределения F ( (1- a ) - квантиль F) гипотеза Н0 отвергается и принимается предположение о влиянии фактора Х на Y. Тогда можно ставить вопрос о доверительных интервалах для аi. Ответ следующий: |yj ср-aj | < s t1-a /Ц nj с доверительной вероятностью 1-2a , где t1-a - квантиль уровня (1-a ) распределения Стьюдента с n-k степенями свободы.
Отметим, что выводы ДА о равенстве или неравенстве сj довольно устойчивы даже при нарушении основных предположений о нормальном распределении и равенстве дисперсий остатков e i,j. Если же распределение переменной Y сильно отличается от нормального, или Y - ординальная переменная, лучше использовать непараметрические критерии связи, такие, как ранговый критерий Фридмана или критерий Пейджа для двухфакторного анализа (см. [8, 7.4.9]), а также ранговые критерии Краскела-Уоллеса и Джонхиера для однофакторного анализа ([8, 6.2]).
Факторный анализ (ФА). Рассмотрим набор нормированных случайных переменных Х1,..,Хk как векторов в n-мерном пространстве V. Задача ФА состоит в том, чтобы представить Хi в виде линейных комбинаций небольшого числа общих факторов Fj , т.е. в виде Хi = S ai,j Fj + Ei (9), где i= 1,..,k, p < k. Переменные Ei называются остатком (невязкой) или остаточными факторами. Обычно предполагается, что общие факторы либо некоррелированные случайные величины с дисперсией 1, либо неизвестные случайные параметры. Остаточные факторы имеют нормальное распределение и не коррелируют между собой и с общими факторами. Коэффициенты ai,j называются факторными нагрузками и совпадают с коэффициентами корреляции между Xi и Fj. Интерпретируя коэффициент корреляции ri,j как скалярное произведение (Xi, Хj), мы при этих предположениях получим геометрическую модель ФА: уравнение (9) есть разложение системы нормированных векторов Х1,...,Хk через ортогональную систему Ei, F1,..,Fp с максимальной суммарной информативностью I = SD(Fj) / S D(Xi). Матрица ковариации М для переменных Xi приводится к диагональному виду в базисе, состоящем из собственных векторов, и в качестве Fj выбираются собственные векторы с максимальными собственными значениями l j (метод главных компонент). При этом l j интерпретируются как дисперсии соответствующих факторов. Критерий информативности I может быть записан в виде I = S l j / k, т.е. он равен доле суммарной дисперсии переменных Хi, обьясненных первыми p главными компонентами - факторами. Чем ближе это значение к 1, тем более точно факторы Fj описывают переменные Хi. Помимо метода главных компонент, существуют и другие способы выделения факторов Fj - методы минимальных остатков, максимального правдоподобия, центроидный метод и др. Все они, как правило, приводят к близким результатам, так что более важным вопросомФА является не выбор способа извлечения факторов, а определение их количества и интерпретация латентных факторов в содержательном плане (это могут быть психофизиологические свойства личности, а также социальные, экономические факторы и т.п.). При выборе числа факторов полезно руководствоваться следующими соображениями: