Автор работы: Пользователь скрыл имя, 21 Июня 2013 в 20:54, реферат
Международный рынок насчитывает более 1000 пакетов, решающих задачи статистического анализа данных в среде операционных систем Windows, DOS, OS/2.
Разнообразие статистических пакетов обусловлено многоплановостью задач обработки данных с применением различных типов статистических процедур анализа для поиска ответов на вопросы из различных областей человеческой деятельности.
Перед пользователями различных категорий встает вопрос выбора оптимального статистического пакета для поиска верных ответов на существующие вопросы. Очевидно, что оптимальным является вариант, сочетающий в себе необходимые функциональные возможности, высокое качество работы и умеренную цену.
Для визуализации результатов при
исследовании гипотез и предположений
в моделях дисперсионного анализа
имеется большое число
Вариант этого модуля, входящий в пакет Quick STATISTICA, имеет следующие ограничения: в нем можно анализировать одномерные планы с числом межгрупповых факторов не более четырех, одним фактором повторных измерений и одной ковариатой.
Модуль Компоненты дисперсии (дополняющий модуль Общая модель дисперсионного
ПОШАГОВЫЙ ДИСКРИМИНАНТНЫЙ АНАЛИЗМодуль Дискриминантный анализ содержит полную реализацию методов
пошагового дискриминантного анализа
с помощью дискриминантных функций.
Программа позволяет проводить анализ
с пошаговым включением или исключением
переменных или вводить в модель заданные
пользователем блоки переменных. В дополнение
к многочисленным графикам и статистикам,
описывающим разделяющую (дискриминирующую)
функцию, программа содержит также большой
набор средств и статистик для классификации
старых и новых наблюдений (для оценки
качества модели). В качестве результатов
выдаются: статистика лямбда Уилкса для каждой
переменной, частная лямбда, статистика F для включения (или исключения),
уровни значимости p, значения толерантности
и квадрата коэффициента множественной
корреляции. Программа выполняет полный
канонический анализ и выдает все собственные
значения (в непосредственном виде и кумулятивные),
их уровни значимости p, коэффициенты дискриминантной
(канонической) функции (в непосредственном
и стандартизованном виде), коэффициенты
структурной матрицы (нагрузки факторов),
средние значения дискриминантной функции
и дискриминантные веса для каждого объекта
(их можно автоматически добавить в файл
данных). Встроенные средства графической
поддержки включают: гистограммы канонических
весов для каждой группы (и общие по всем
группам), специальные диаграммы рассеяния
для пар канонических переменных (на которых
отмечено, к какой группе принадлежит
каждое наблюдение), большой набор категоризованных
(множественных) графиков, позволяющий
исследовать распределение и взаимосвязи
между зависимыми переменными для разных
групп (в том числе: множественные графики
типа диаграмм размаха, гистограммы, диаграммы
рассеяния и графики на нормальной вероятностной
бумаге) и многое другое. В модуле Дискриминантный анализ
можно также вычислить стандартные функции
классификации для каждой группы. Результаты
классификации наблюдений можно вывести
в терминах расстояний Махаланобиса, апостериорных вероятностей
и собственно результатов классификации,
а значения дискриминантной функции для
отдельных наблюдений (канонические значения)
можно просмотреть на обзорных пиктографиках
и других многомерных диаграммах, доступных
непосредственно из таблиц результатов.
Все эти данные можно автоматически добавить
в текущий файл данных для дальнейшего
анализа. Можно вывести также итоговую
матрицу классификации, где указано число
и процент правильно классифицированных
наблюдений. Имеются различные варианты
задания априорных вероятностей
принадлежности классам, а также условий
отбора, позволяющих включать или исключать
определенные наблюдения из процедуры
классификации (например, чтобы затем
проверить ее качество на новой выборке).
См. также раздел Деревья классификации и |
Модуль Непараметрическая статистика содержит всесторонний набор непараметрических статистик, Непараметрическая статистика включая все стандартные тесты и некоторые специальные прикладные статистики, в частности, критерий Вальда-Вольфовица, U тест Манна-Уитни (с точными вероятностями вместо нормальных аппроксимаций для малых выборок), критерии Колмогорова-Смирнова, критерий Вилкоксона парных сравнений, ранговый дисперсионный анализ Краскела-Уоллиса, медианный тест, критерий знаков, ранговый дисперсионный анализ Фридмана, Q- критерий Кохрена, критерий МакНемара, коэффициент конкордации Кендалла, tau (b, c) Кендалла, ранговая корреляция Спирмена R, точный критерий Фишера, критерии хи-квадрат, статистики V-квадрат, Фи, Гамма, d Соммера, коэффициенты сопряженности и другие (специальные непараметрические критерии и статистики входят также в состав некоторых других модулей, см. например, Анализ выживаемости и Анализ процессов). Все (ранговые) критерии могут работать с совпадающими рангами и вносят поправку на малый объем выборки и совпадающие ранги. Как и во всех других модулях системы STATISTICA, процедуры всех критериев интегрированы с графическим средствами (здесь доступны различные типы диаграмм рассеяния, специальные диаграммы размаха, линейные графики, гистограммы и много других двух- и трехмерных графиков).
С помощью функции Подгонка распределения можно сравнить имеющееся распределение переменной с различными теоретическими распределениями. К данным можно попытаться подогнать нормальное, прямоугольное, экспоненциальное, гамма, логнормальное, хи-квадрат распределение, распределения Вейбулла, Гомпертца, биномиальное, Пуассона, геометрическое и Бернулли. Точность подгонки может быть оценена с помощью критерия хи-квадрат или одновыборочного критерия Колмогорова-Смирнова (при этом можно контролировать параметры подгонки); кроме того, реализованы также критерии Лиллиефорса и Шапиро-Уилкса (см. выше). Подгонку гипотетического распределения определенного типа к эмпирическому распределению можно осуществлять при помощи настраиваемых гистограмм (обычных и кумулятивных) с наложенными на них подгоночными функциями; прямо из таблиц результатов можно строить графики и гистограммы для ожидаемых и наблюдаемых частот, отклонений и других показателей. Ряд других методов подгонки распределения реализован в модуле Анализ процессов - здесь можно получить оценку значений параметров по принципу максимума правдоподобия для распределений: бета, экспоненциального, эстремальных значений (типа I, Гумбеля), гамма, логнормального, Релея и Вейбулла. В этом модуле имеется возможность автоматически выбрать и подогнать распределение, в наибольшей степени согласующееся с данными, а также средства подгонки распределений через моменты (с помощью кривых Джонсона и Пирсона). На диаграммы могут быть наложены (в виде кривых и поверхностей) графики заданных пользователем функций. Эти функции могут изображать самые разные типы распределений: бета, биномиальное, Коши, хи-квадрат, экспоненциальное, экстремальных значений, F, гамма, геометрическое, Лапласа, логистическое, нормальное, логнормальное, Парето, Пуассона, Рэлея, t (Стьюдента) и Вейбулла, а также их интегралы и обратные распределения.
Модуль Факторный анализ содержит
широкий набор статистик и методов факторного
анализа (и иерархического факторного
анализа) с расширенной диагностикой и
большим многообразием исследовательских
и разведочных графиков. Здесь можно выполнять
анализ (общий и иерархический косоугольный)
главных компонент и главных факторов
для наборов данных, содержащих до 300 переменных
(модели большего объема можно исследовать
средствами модуля Моделирование структурными
уравнениями). Выходные результаты включают: собственные
значения (обычные, кумулятивные и относительные),
нагрузки факторов и коэффициенты факторных
баллов (которые можно добавить к файлу
входных данных, просмотреть на пиктографике
и в интерактивном режиме перекодировать),
а также некоторые боле специальные статистики
и диагностики. В распоряжении пользователя
имеются следующие методы вращения факторов:
варимакс, биквартимакс, квартимакс и
эквимакс (по нормализованным либо первоначальным
нагрузкам), а также косоугольные вращения.
Пространство факторов можно визуально
просматривать "срез за срезом" на
двух- или трехмерных диаграммах рассеяния
с отмеченными точками данных; среди других
графических средств - графики "каменистой
осыпи", различные типы диаграмм рассеяния,
гистограммы, линейные графики и др. После
того, как факторное решение определено,
пользователь может вычислить (воспроизвести)
корреляционную матрицу и оценить согласованность
факторной модели путем анализа остаточной
корреляционной матрицы (или остаточной
дисперсионной/ковариационной матрицы).
На входе можно использовать как исходные
данные, так и матрицы корреляций. Подтверждающий
факторный анализ и другие связанные с
ним виды анализа могут быть выполнены
средствами модуля Моделирование структурными
В модуле Многомерное шкалирование реализован полный набор методов (неметрического) многомерного шкалирования. Здесь можно анализировать матрицы сходства, различия и корреляций между переменными, а размерность пространства шкалирования может достигать 9. Начальная конфигурация может вычисляться программой (с помощью анализа главных компонент) или задаваться пользователем. Величина стресса и коэффициент отчуждения минимизируются с помощью специальной итерационной процедуры. Пользователь имеет возможность наблюдать итерации и следить за изменениями этих значений. Окончательную конфигурацию можно просмотреть в таблице результатов, а также на двух- и трехмерных диаграммах рассеяния в пространстве шкал с отмеченными точками-объектами. В качестве выходных результатов выдаются: нестандартизованный стресс (F), коэффициент стресса Краскела S и коэффициент отчуждения. Уровень согласия может быть оценен с помощью диаграмм Шепарда (с величинами "d с крышкой" и "d со звездочкой"). Как и все результаты анализа в системе STATISTICA, окончательная конфигурация может быть сохранена в виде файла данных
АНАЛИЗ СООТВЕТСТВИЙЭтот модуль содержит полную реализацию методов простого и многомерного анализа соответствий, в нем можно анализировать таблицы очень больших размеров. Программа воспринимает следующие типы файлов данных: файлы, содержащие категоризованные переменные, по которым строится матрица сопряженности (кросс-классификации); файлы данных, содержащие частотные таблицы (или какие-либо другие меры соответствия, связи, сходства, неупорядоченности и т.д.) и кодовые переменные, определяющие (перечисляющие) ячейки входной таблицы; файлы данных, содержащие частоты (или другие меры соответствия). Например, пользователь может непосредственно создать и проанализировать частотную таблицу. Кроме того, в случае многомерного анализа соответствий имеется возможность в качестве входных данных непосредственно задать матрицу Берта. В процессе работы программа вычисляет различные таблицы, в том числе - таблицу процентов по строкам, по столбцам и процентов от общего числа, ожидаемые значения, разности ожидаемых и наблюдаемых значений, стандартизованные отклонения и вклады в статистику хи-квадрат. Все эти статистики можно изобразить на трехмерных гистограммах и просмотреть с помощью специального метода динамического расслоения. В модуле Анализ соответствий вычисляются обобщенные собственные значения и собственные векторы и выдается стандартный набор диагностических величин, включающий сингулярные числа, собственные значения и долю инерции, приходящуюся на каждое измерение. Пользователь может либо сам выбрать число измерений, либо задать пороговое значение для максимального кумулятивного процента инерции. Программа вычисляет стандартные координаты для точек-строк и точек-столбцов. Пользователь может выбрать между стандартизацией по профилям строк, по профилям столбцов, по профилям строк и столбцов или каноническую стандартизацию. Для каждой размерности и для каждой точки-строки и точки-столбца программа вычисляет величины инерции, качества и косинус**2. Дополнительно пользователь может вывести (в окно результатов) матрицы обобщенных сингулярных векторов. Как и любые данные из рабочего окна, эти матрицы доступны для обработки с помощью программ на языке STATISTICA BASIC, например, для использования каких-либо нестандартных методов вычисления координат. Пользователь может вычислить координаты и соответствующие статистики (качество и косинус**2) для дополнительных точек (-столбцов или -строк) и сравнить результаты с исходными точками-строками и точками-столбцами. В многомерном анализе соответствий могут использоваться дополнительные точки. Помимо трехмерных гистограмм, которые могут быть вычислены для всех таблиц, пользователь может вывести на экран график собственных чисел, одно-, двух- и трехмерные диаграммы для точек-строк и точек-столбцов. Точки-строки и точки-столбцы могут отображаться одновременно на одной диаграмме вместе с любыми дополнительными точками (каждый тип точки использует свой цвет и уникальный маркер, так что различные точки будут легко различимы на диаграммах). Все точки имеют маркеры, и пользователь имеет возможность устанавливать размер маркера. |
Информация о работе Статистические пакеты для обработки и анализа данных