Автор работы: Пользователь скрыл имя, 18 Ноября 2013 в 10:06, контрольная работа
1.Прикладное программное обеспечение
2.Дисперсионный анализ
ПО управления знаниями
ПО управления знаниями -
это широкий класс программных
средств, реализующих функции
OLAP-системы (OnLine Analitical Processing) предназначены для организации произвольных выборок из специально организованных массивов данных, группирования и визуализации выбранных данных в соответствии с указанными пользователем критериями и правилами. В отличие от СУБД, при их использовании пользователю не надо составлять запросы, поскольку здесь реализуются специальные интерфейсы манипулирования данными и настройки способов их представления. Простейшим примером OLAP-системы является средство “сводные таблицы” Excel. Однако существуют и более мощные инструменты организации выборок и визуализации данных. Они бывают необходимы для организации доступа к очень большим массивам данных, хранящимся в БД. Для ускорения доступа к очень большим БД, необходимые данные могут быть предварительно выбраны из БД и сгруппированы в так называемый “многомерный куб” - структуру, специально оптимизированную для выполнения анализа.
Data mining - это процесс автоматического выделения ранее неизвестной информации из больших баз данных. Системы Data mining позволяют автоматически формулировать гипотезы о наличии определенных взаимосвязей между данными. В основе систем Data Mining лежит математический аппарат, базирующийся на алгоритмах систем искусственного интеллекта (статистические методы, генетические алгоритмы, нейронные сети, алгоритмы распознавания образов и др.).
2.Дисперсионный анализ
Дисперсионный анализ.
Понятие, назначение дисперсионного анализа. Виды дисперсионного анализа.
Дисперсионный анализ – анализ изменчивости признака под влиянием каких-либо контролируемых переменных факторов.
(В зарубежной литературе
именуется ANOVA – «Analisis
Обобщенно задача дисперсионного анализа состоит в том, чтобы из общей вариативности признака выделить три частные вариативности:
- Вариативность, обусловленную действием каждой из исследуемых независимых переменных.
- Вариативность, обусловленную в
- Вариативность случайную, обусловленную всеми неучтенными обстоятельствами.
Вариативность, обусловленная
действием исследуемых
FэмпА = Вариативность, обусловленная действием переменной А / Случайная вариативность
FэмпБ = Вариативность, обусловленная действием переменной Б / Случайная вариативность
FэмпАБ = Вариативность, обусловленная взаимодействием А и Б / Случайная вариативность
В формулу расчета критерия F
В отличие от корреляционного анализа, в дисперсионном исследователь исходит из предположения, что одни переменные выступают как влияющие (именуемые факторами или независимыми переменными), а другие (результативные признаки или зависимые переменные) – подвержены влиянию этих факторов. Хотя такое допущение и лежит в основе математических процедур расчета, оно, однако, требует осторожности рассуждений об источнике и объекте влияния.
Например, если мы выдвигаем гипотезу о зависимости успешности работы должностного лица от фактора Н (социальной смелости по Кэттелу), то не исключено обратное: социальная смелость респондента как раз и может возникнуть (усилиться) вследствие успешности его работы – это с одной стороны. С другой: следует отдать себе отчет в том, как именно измерялась «успешность»? Если за ее основу взяты были не объективные характеристики (модные нынче «объемы продаж» и проч.), а экспертные оценки сослуживцев, то имеется вероятность того, что «успешность» может быть подменена поведенческими или личностными характеристиками (волевыми, коммуникативными, внешними проявлениями агрессивности etc.)
Представим смысл дисперсионного анализа графически.
|
В примере, взятом из (1), иллюстрируется исследование зависимости учебной успеваемости школьников от развития кратковременной памяти. В качестве фактора рассматривался уровень развития кратковременной памяти, а в качестве результативных признаков – успеваемость по предмету. Видно, например, что фактор, по-видимому, оказывает существенное влияние при обучении иностранному языку, и незначим для чистописания, что, впрочем, вполне согласуется со здравым смыслом.
Приведенный пример обращает внимание также и на то, какими именно должны быть факторы?
Здесь фактор имел градации, то есть его величина изменялась при переходе от одной градации к другой. Следует знать, что такое условие отнюдь не обязательно: фактор может иметь градации, никак не связанные между собой количественным отношением, и может быть представлен хоть в номинальной шкале. В общем (и это точнее) говорят не о градацияхфактора, а о различных условиях его действия. Возможность количественной градации фактора, таким образом, лишь частный случай.
В качестве иллюстрации этого положения скажем, что если отыщется исследователь, желающий определить зависимость яйценоскости от цвета курицы, то ничто не помешает ему применить дисперсионный анализ, и в качестве условий действия фактора «цвет» избрать, скажем, черных, белых и пестрых кур.
Формулировка
гипотез в дисперсионном
Нулевая гипотеза:
«Средние величины результативного признака во всех условиях действия фактора (или градациях фактора) одинаковы».
Альтернативная гипотеза:
«Средние величины результативного признака в разных условиях действия фактора различны».
Виды дисперсионного анализа.
Дисперсионный анализ схематически
можно подразделить на
При наличии одного фактора, влияние которого исследуется, дисперсионный анализ именуется однофакторным, и распадается на две разновидности:
- Анализ несвязанных (то
есть – различных) выборок.
Например, одна группа респондентов
решает задачу в условиях
- Анализ связанных выборок.
То есть: двух замеров, проведенных
на одной и той же группе
респондентов в разных
В случае, если исследуется одновременное воздействие двух или более факторов, мы имеем дело с многофакторным дисперсионным анализом, который также можно подразделить по типу выборки.
Если же воздействию факторов подвержено несколько переменных, - речь идет о многомерном анализе.
Ограничения дисперсионного анализа и подготовка данных.
Дисперсионный анализ следует применять тогда, когда известно (установлено), что распределение результативного признака является нормальным.
Для проверки следует провести расчеты ассимметрии и эксцесса по следующим формулам:
A = Σ (xi – xср)3 / ns3
mA= √6/n
E = (Σ (xi – xср)4 / ns4 ) - 3
mE= 2√6/n ,
где А и Е – ассимметрия и эксцесс, а mA и mE – их ошибки репрезентативности. После подстановки значений не должно оказаться так, чтобы ассимметрия и эксцесс превышали более, чем втрое свои ошибки репрезентативности. При соблюдении этого требования, распределение можно считать нормальным.
Будем называть данные, относящиеся
к одному условию действия фактора
(к одной градации) дисперсионн
Дисперсионный анализ требует
также, чтобы между комплексами
соблюдалось равенство
(В SPSS эта возможность представлена так: Данные – Выбор регистров – Случайный образец регистров (радиокнопка) – Образец… (кнопка)).
. . .
Однофакторный дисперсионный анализ для несвязанных выборок.
Назначение метода.
Метод однофакторного дисперсионного анализа применяется в тех случаях, когда исследуются изменения результативного признака (зависимой переменной) под влиянием изменяющихся условий или градаций какого-либо фактора.
Влиянию каждой из градаций
фактора подвержены разные выбо
Должно быть не менее трех градаций фактора и не менее двух наблюдений в каждой градации.
Описание метода.
Расчеты начинаются с расстановки всех данных по столбцам, относящимся к каждому из факторов соответственно.
Следующим действием будет нахождение сумм значений по столбцам (то есть – градациям) и возведение их в квадрат.
Фактически метод состоит в сопоставлении каждой из полученных и возведенных в квадрат сумм с суммой квадратов всех значений, полученных во всем эксперименте.
Графическое представление метода.
|
На рисунке схематически
представлены три градации какого-либо
фактора. Дисперсионный анализ позволяет
определить, что преобладает: влияние
фактора или случайная
Алгоритм расчета.
Промежуточные величины.
Tc |
суммы индивидуальных значений по каждому из условий |
Σ(T2c) |
сумма квадратов суммарных значений по каждому из условий |
с |
количество условий (градаций фактора) |
n |
количество значений в каждом комплексе (испытуемых в каждой группе) |
N |
общее количество индивидуальных значений |
(Σxi)2 |
квадрат общей суммы индивидуальных значений |
Σ(xi)2 / N |
константа, необходимая для вычитания из каждой суммы квадратов |
xi |
каждое индивидуальное значение |
Σ(xi)2 |
сумма квадратов индивидуальных значений |
Принятые в литературе сокращения:
СК или SS – сумма квадратов
SSфакт. – вариативность, обусловленная действием исследуемого фактора
SSобщ. – общая вариативность
SSсл. – случайная вариативность
MS – «средний квадрат» (математическое ожидание суммы квадратов, усредненная величина соответствующих SS)
df – число степеней свободы.
Основные вычисления.