Контрольная работа по "Информатике "

Автор работы: Пользователь скрыл имя, 18 Ноября 2013 в 10:06, контрольная работа

Краткое описание

1.Прикладное программное обеспечение
2.Дисперсионный анализ

Прикрепленные файлы: 1 файл

Прикладное программное обеспечение.docx

— 70.04 Кб (Скачать документ)

ПО  управления знаниями

ПО управления знаниями - это широкий класс программных  средств, реализующих функции искусственного интеллекта. Наиболее востребованными  на текущий момент являются:

    • системы аналитической обработки данных (OLAP-системы);
    • системы “раскопки данных” (Data Mining);

OLAP-системы (OnLine Analitical Processing) предназначены для организации произвольных выборок из специально организованных массивов данных, группирования и визуализации выбранных данных в соответствии с указанными пользователем критериями и правилами. В отличие от СУБД, при их использовании пользователю не надо составлять запросы, поскольку здесь реализуются специальные интерфейсы манипулирования данными и настройки способов их представления. Простейшим примером OLAP-системы является средство “сводные таблицы” Excel. Однако существуют и более мощные инструменты организации выборок и визуализации данных. Они бывают необходимы для организации доступа к очень большим массивам данных, хранящимся в БД. Для ускорения доступа к очень большим БД, необходимые данные могут быть предварительно выбраны из БД и сгруппированы в так называемый “многомерный куб” - структуру, специально оптимизированную для выполнения анализа.

Data mining - это процесс автоматического выделения ранее неизвестной информации из больших баз данных. Системы Data mining позволяют автоматически формулировать гипотезы о наличии определенных взаимосвязей между данными. В основе систем Data Mining лежит математический аппарат, базирующийся на алгоритмах систем искусственного интеллекта (статистические методы, генетические алгоритмы, нейронные сети, алгоритмы распознавания образов и др.).

 

                         

                            2.Дисперсионный анализ

 

Дисперсионный анализ.  

 

 

 

Понятие, назначение дисперсионного анализа. Виды дисперсионного анализа. 

 

 

  

 

Дисперсионный анализ – анализ изменчивости признака под  влиянием каких-либо контролируемых переменных факторов. 

 

(В зарубежной литературе  именуется ANOVA – «Analisis of Variance»)  

 

 

  

 

Обобщенно задача дисперсионного анализа состоит в том, чтобы  из общей вариативности признака выделить три частные вариативности:

- Вариативность, обусловленную  действием каждой из исследуемых независимых переменных.

- Вариативность, обусловленную взаимодействием исследуемых независмых переменных.

- Вариативность случайную, обусловленную всеми неучтенными обстоятельствами. 

 

Вариативность, обусловленная  действием исследуемых переменных и их взаимодействием соотносится со случайной вариативностью. Показателем этого соотношения является F– критерий Фишера (метод, не имеющий ничего общего, кроме автора, с «угловым преобразованием Фишера»). 

 

 

 

FэмпА = Вариативность, обусловленная действием переменной А / Случайная вариативность

FэмпБ = Вариативность, обусловленная действием переменной Б / Случайная вариативность

FэмпАБ = Вариативность, обусловленная взаимодействием А и Б / Случайная вариативность 

 

 

 

В формулу расчета критерия F взодят оценки дисперсий, и, следовательно, этот метод относится к разряду параметрических. Чем в большей степени вариативность признака обусловлена исследуемыми переменными или  их  взаимодействием,  тем выше эмпирические значения критерия F. 

 

В отличие от корреляционного  анализа, в дисперсионном исследователь исходит из предположения, что одни переменные выступают как влияющие (именуемые факторами или независимыми переменными), а другие (результативные признаки или зависимые переменные) – подвержены влиянию этих факторов. Хотя такое допущение и лежит в основе математических процедур расчета, оно, однако, требует осторожности рассуждений об источнике и объекте влияния.

Например, если мы выдвигаем гипотезу о зависимости  успешности работы должностного лица от фактора Н (социальной смелости по Кэттелу), то не исключено обратное: социальная смелость респондента как раз и может возникнуть (усилиться) вследствие успешности его работы – это с одной стороны. С другой: следует отдать себе отчет в том, как именно измерялась «успешность»? Если за ее основу взяты были не объективные характеристики (модные нынче «объемы продаж» и проч.), а экспертные оценки сослуживцев, то имеется вероятность того, что «успешность» может быть подменена поведенческими или личностными характеристиками (волевыми, коммуникативными, внешними проявлениями агрессивности etc.)  

 

 

  

 

 

 

Представим смысл  дисперсионного анализа графически.  

 

 
 




 

 

  

 

 

  

 

 

 

 

В примере, взятом из (1), иллюстрируется исследование зависимости учебной  успеваемости школьников от развития кратковременной памяти. В качестве фактора рассматривался уровень  развития кратковременной памяти, а  в качестве результативных признаков  – успеваемость по предмету. Видно, например, что фактор, по-видимому, оказывает  существенное влияние при  обучении иностранному языку, и незначим для чистописания, что, впрочем, вполне согласуется со здравым смыслом. 

 

Приведенный пример обращает внимание также и на то, какими именно должны быть факторы? 

 

Здесь фактор имел градации, то есть его величина изменялась при переходе от одной градации к другой. Следует знать, что такое условие отнюдь не обязательно: фактор может иметь градации, никак не связанные между собой количественным отношением, и может быть представлен хоть в номинальной шкале. В общем (и это точнее) говорят не о градацияхфактора, а о различных условиях его действия. Возможность количественной градации фактора, таким образом, лишь частный случай.

В качестве иллюстрации этого  положения скажем, что если отыщется исследователь, желающий определить зависимость  яйценоскости от цвета курицы, то ничто  не помешает ему применить дисперсионный  анализ, и в качестве условий действия фактора «цвет» избрать, скажем, черных, белых и пестрых кур. 

 

Формулировка  гипотез в дисперсионном анализе.  

 

Нулевая гипотеза:

«Средние величины результативного  признака во всех условиях действия фактора (или градациях фактора) одинаковы».  

 

Альтернативная  гипотеза:

«Средние величины результативного  признака в разных условиях действия фактора различны». 

 

 

  

 

Виды дисперсионного анализа. 

 

Дисперсионный анализ схематически можно подразделить на несколько категорий. Это деление осуществляется, смотря по тому, сколько, во-первых, факторов принимает участие в рассмотрении, во-вторых, - сколько переменных подвержены действию факторов, и, в-третьих, - по тому, как соотносятся друг с другом выборки значений. 

 

При наличии одного фактора, влияние которого исследуется, дисперсионный  анализ именуется однофакторным, и распадается на две разновидности: 

 

- Анализ несвязанных (то  есть – различных) выборок.  Например, одна группа респондентов  решает задачу в условиях тишины, вторая – в шумной комнате. (В этом случае, к слову, нулевая гипотеза звучала бы так: «среднее время решения задач такого-то типа будет одинаково в тишине и в шумном помещении», то есть не зависит от фактора шума.) 

 

- Анализ связанных выборок.  То есть: двух замеров, проведенных  на одной и той же группе  респондентов в разных условиях. Тот же пример: в первый раз  задача решалась в тишине, второй  – сходная задача – в условиях  шумовых помех. (На практике к подобным опытам следует подходить с осторожностью, поскольку в действие может вступить неучтенный фактор «научаемость», влияние которого исследователь рискует приписать изменению условий, а именно, - шуму.) 

 

В случае, если исследуется одновременное воздействие двух или более факторов, мы имеем дело с многофакторным дисперсионным анализом, который также можно подразделить по типу выборки.

Если же воздействию факторов подвержено несколько переменных, - речь идет о многомерном анализе.  

 

 

 

Ограничения дисперсионного анализа и подготовка данных. 

 

Дисперсионный анализ следует  применять тогда, когда известно (установлено), что распределение  результативного признака является нормальным. 

 

Для проверки следует провести расчеты ассимметрии и эксцесса по следующим формулам: 

 

A = Σ (xi – xср)/ ns3

mA= √6/n 

 

E = (Σ (xi – xср)/ ns) - 3

mE= 2√6/n , 

 

где А и Е – ассимметрия и эксцесс, а mA  и  m– их ошибки репрезентативности.  После подстановки значений не должно оказаться так, чтобы ассимметрия и эксцесс превышали более, чем втрое свои ошибки репрезентативности. При соблюдении этого требования, распределение можно считать нормальным. 

 

Будем называть данные, относящиеся  к одному условию действия фактора (к одной градации) дисперсионным комплексом.

Дисперсионный анализ требует  также, чтобы между комплексами  соблюдалось равенство дисперсий. В литературе по этому вопросу  предлагается (и доказана правомочность  предложения) удовлетворять такое  требование уравниванием числа значений в каждом из комплексов. Иными словами, если в тихой аудитории  решали задачу 10 человек, то и в шумную мы должны посадить столько же; если белых кур набралось 100, черных – 80, а пестрых – 70, - мы обязаны взять только по 70 кур каждого цвета. Причем, отбор следует осуществлять случайным образом.

(В SPSS эта возможность представлена так: Данные – Выбор регистров – Случайный образец регистров (радиокнопка) – Образец… (кнопка)). 

 

. . . 

 

 

 

Однофакторный дисперсионный  анализ для несвязанных выборок.  

 

Назначение метода.  

 

Метод однофакторного дисперсионного анализа применяется в тех  случаях, когда исследуются изменения  результативного признака (зависимой  переменной) под влиянием изменяющихся условий или градаций какого-либо фактора.

Влиянию каждой из градаций фактора подвержены разные выборки.

Должно быть не менее трех градаций фактора и не менее двух наблюдений в каждой градации. 

 

Описание метода.

Расчеты начинаются с расстановки  всех данных по столбцам, относящимся  к каждому из факторов соответственно.

Следующим действием будет  нахождение сумм значений по столбцам (то есть – градациям) и возведение их в квадрат.

Фактически метод состоит  в сопоставлении каждой из полученных и возведенных в квадрат сумм с суммой квадратов всех значений, полученных во всем эксперименте. 

 

Графическое представление  метода.

 
 





 

  

 

 

  

 

 

  

 

 

  

 

 

  

 

 

  

 

 

  

 

 

  

 

 

 

 

На рисунке схематически представлены три градации какого-либо фактора. Дисперсионный анализ позволяет  определить, что преобладает: влияние  фактора или случайная вариативность  внутри групп (тенденция, выраженная кривой или размах отрезков, ограниченных кружками)? 

 

Алгоритм расчета.  

 

Промежуточные величины. 

 

Tc

суммы индивидуальных значений по каждому из условий

Σ(T2c)

сумма квадратов суммарных  значений по каждому из условий

с

количество условий (градаций фактора)

n

количество значений в  каждом комплексе (испытуемых в каждой группе)

N

общее количество индивидуальных значений

(Σxi)2

квадрат общей суммы индивидуальных значений

Σ(xi)/ N

константа, необходимая для  вычитания из каждой суммы квадратов

xi

каждое индивидуальное значение

Σ(xi)2

сумма квадратов индивидуальных значений


 

  

 

Принятые в  литературе сокращения: 

 

СК или SS – сумма квадратов

SSфакт. – вариативность, обусловленная действием исследуемого фактора

SSобщ. – общая вариативность

SSсл. – случайная вариативность

MS – «средний квадрат» (математическое ожидание суммы квадратов, усредненная величина соответствующих SS)

df – число степеней свободы.  

 

Основные вычисления. 

Информация о работе Контрольная работа по "Информатике "