Статистические пакеты для обработки и анализа данных

Автор работы: Пользователь скрыл имя, 21 Июня 2013 в 20:54, реферат

Краткое описание

Международный рынок насчитывает более 1000 пакетов, решающих задачи статистического анализа данных в среде операционных систем Windows, DOS, OS/2.
Разнообразие статистических пакетов обусловлено многоплановостью задач обработки данных с применением различных типов статистических процедур анализа для поиска ответов на вопросы из различных областей человеческой деятельности.
Перед пользователями различных категорий встает вопрос выбора оптимального статистического пакета для поиска верных ответов на существующие вопросы. Очевидно, что оптимальным является вариант, сочетающий в себе необходимые функциональные возможности, высокое качество работы и умеренную цену.

Прикрепленные файлы: 1 файл

Статистические пакеты для обработки и анализа данных.doc

— 317.00 Кб (Скачать документ)

 

НАДЕЖНОСТЬ И ПОЗИЦИОННЫЙ  АНАЛИЗ

Этот модуль включает широкий набор процедур для разработки и оценки выборочных исследований и опросных листов. Как и во всех модулях системы STATISTICA, здесь могут быть проанализированы чрезвычайно большие массивы данных (за одно обращение к программе может быть обработана шкала, состоящая из 300 позиций). Имеется возможность вычислять статистики надежности для всех позиций шкалы, интерактивно выбирать подмножества и проводить сравнение между подмножествами позиций методом разбиения пополам ("split-half" или на две части - "split-part"). За одно обращение можно оценить надежность суммарной шкалы и подшкал. При интерактивном удалении позиций надежность результирующей шкалы вычисляется мгновенно без повторного обращения к файлу данных. В качестве результатов анализа выдаются: корреляционные матрицы и описательные статистики для позиций, альфа Кронбаха, стандартизованное альфа, средняя корреляция позиция-позиция, полная таблица дисперсионного анализа для шкалы, полный набор статистик, общих для всех позиций (включая коэффициенты множественной корреляции), split-half-надежность и корреляция между двумя половинками с поправкой на затухание. Имеется большой выбор графиков (включая встроенные диаграммы рассеяния, гистограммы, линейные и другие графики) и набор интерактивных процедур что-если, помогающих при разработке шкал. Например, при добавлении некоторого количества вопросов в шкалу пользователь может вычислить ожидаемую надежность или же оценить количество вопросов, которые нужно внести в шкалу, чтобы добиться нужной надежности. Кроме того, можно внести поправку на затухание между текущей шкалой и другим измерением (при заданной надежности текущей шкалы).

 

 

МЕТОДЫ КЛАСТЕРНОГО  АНАЛИЗА

В модуле Кластерный анализ реализован полный набор методов кластерного анализа данных, включая методы k-средних, иерархической кластеризации и двухвходового объединения. Данные могут поступать как в исходном виде, так и в виде матрицы расстояний между объектами. Наблюдения, переменные или и наблюдения, и переменные можно кластеризовать, используя различные меры расстояния (евклидово, квадрат евклидова, городских кварталов (манхэттеновское), Чебышева, степенное, процент несогласия и 1- коэффициент корреляции Пирсона) и различные правила объединения (связывания) кластеров (одиночная, полная связь, невзвешенное и взвешенное попарное среднее по группам, невзвешенное, взвешенное расстояние между центрами, метод Варда и другие). Матрицы расстояний можно сохранять для дальнейшего анализа в других модулях системы STATISTICA. При проведении кластерного анализа методом k-средних пользователь имеет полный контроль над начальным расположением центров кластеров. Могут быть выполнены чрезвычайно большие планы анализа: так например, при иерархическом (древовидном) связывании можно работать с матрицей из 90 тыс. расстояний. Помимо стандартных результатов кластерного анализа, в модуле доступен также разнообразный набор описательных статистик и расширенных диагностических методов (полная схема объединения с пороговыми уровнями при иерархической кластеризации, таблица дисперсионного анализа при кластеризации методом k-средних). Информация о принадлежности объектов к кластерам может быть добавлена к файлу данных и использоваться в дальнейшем анализе. Графические возможности модуля Кластерный анализ включают настраиваемые дендрограммы, двухвходовые диаграммы объединений, графическое представление схемы объединения, диаграмму средних при кластеризации по методу k-средних и многое другое.

 

ДЕРЕВЬЯ КЛАССИФИКАЦИИ  И РЕГРЕССИИ

Модуль Деревья классификации и регрессии системы STATISTICA содержит наиболее полную реализацию разработанных в последнее время методов эффективного построения и тестирования (метод деревьев классификации представляет собой определенный ("итерационный") способ предсказания класса, к которому принадлежит объект, по значениям предикторных переменных для этого объекта). Деревья классификации можно строить по категориальным или порядковым предикторам или смеси предикторов обоих типов посредством ветвлений по отдельным переменным или по их линейным комбинациям. В модуле также реализованы: выбор между полным перебором вариантов ветвления (как в пакетах THAID и CART) и дискриминантным ветвлением; несмещенный выбор переменных ветвления (как в пакете QUEST); явное задание правил остановки (как в пакете FACT) или отсечение от листьев дерева к его корню (как в пакете CART); отсечение по доле ошибок классификации или по функции отклонения; обобщенные меры согласия хи-квадрат, G-квадрат и индекс Джини. Априорные вероятности принадлежности классам и цены ошибок классификации можно положить равными, оценить по данным или задать вручную. Пользователь может также задавать кратность кросс-проверки во время построения дерева и для оценки ошибки, параметр SE-правила, минимальное число объектов в вершине отсечения, зерно датчика случайных чисел и параметр альфа для отбора переменных. Исследовать входные и выходные данные помогают встроенные графические средства.

ЛОГЛИНЕЙНЫЙ АНАЛИЗ

Этот модуль содержит полную реализацию процедур логлинейного анализа многовходовых таблиц частот. Могут анализироваться таблицы  с числом измерений до 7. Таблицы  могут содержать структурные  нули. Частотные таблицы могут  быть вычислены по исходным данным либо введены непосредственно. Реализованный в модуле Логлинейный анализ универсальный набор мощных методов моделирования в сочетании с гибким интерактивным окружением принципиально упрощает проведение разведочного и подтверждающего анализа сложных таблиц. В любой момент пользователь имеет возможность просмотреть всю наблюдаемую таблицу целиком и маргинальные таблицы, подогнанные (ожидаемые) значения, оценить качество подгонки для всех ассоциированных частных и маргинальных моделей и выбрать для подгонки к данным специфическую модель (маргинальную таблицу). Для выбора модели в программе реализована автоматическая система интеллектуальной поддержки; сначала она определяет нужный порядок взаимодействия, обеспечивающий подгонку модели к данным, а затем, путем обратного исключения, находит наилучшую из моделей, достаточно хорошо (в смысле заданного пользователем критерия) аппроксимирующую данные. В стандартный набор результатов входят: статистика G-квадрат (отношение максимального правдоподобия хи-квадрат) и стандартная статистика хи-квадрат Пирсона с соответствующим числом степеней свободы и уровнями значимости, наблюдаемая и подогнанная (ожидаемая) таблицы, маргинальные таблицы и другие статистики. Графические средства модуля Логлинейный анализ включают большое число двух- и трехмерных диаграмм для визуального представления двух- и многовходовых частотных таблиц (в том числе - управляемые пользователем каскады категоризованных гистограмм и трехмерные гистограммы, показывающие "срезы" многовходовых таблиц), диаграммы наблюдаемых и подогнанных частот, диаграммы различных типов остатков (стандартизованные, компоненты отношения максимального правдоподобия хи-квадрат, отклонения Фримена-Тьюки и др.) и различные другие средства.

ОБЩЕЕ НЕЛИНЕЙНОЕ ОЦЕНИВАНИЕ (включая логит/пробит)

В модуле Нелинейное оценивание реализованы методы, позволяющие осуществлять подгонку нелинейных моделей практически любого типа. Уникальная особенность этого модуля состоит в том, что (в отличие от обычных пакетов нелинейного оценивания) здесь нет никаких ограничений на размер обрабатываемого файла данных. Модель может подгоняться по методу наименьших квадратов, по критерию максимума правдоподобия или с помощью любой определенной пользователем функции потерь. Имеется возможность выбрать один из четырех мощных, но существенно различных по своим характеристикам методов оценивания (квази-ньютоновский, симплекс-метод, метод сдвига вектора параметров Хука-Дживиса и метод Розенброка), так что практически в любой задаче (даже очень сложной в вычислительном отношении) можно получить устойчивые оценки параметров. Пользователь может задать произвольный тип модели, вводя соответствующее уравнение в специальное окно редактора. Уравнения могут включать логические операторы, поэтому имеется возможность оценивать (кусочно-) разрывные модели регрессии и модели с индикаторами групп. В уравнениях могут быть использованы различные теоретические функции распределения (бета, биномиальное, Коши, хи-квадрат, экспоненциальное, экстремальных значений, F, гамма, геометрическое, Лапласа, логистическое, нормальное, логнормальное, Парето, Пуассона, Рэлея, t (Стьюдента) и Вейбулла). Пользователю предоставляется полный контроль над всеми аспектами процедуры оценивания (начальные значения, величина шага, критерий остановки итераций и т.д.). Наиболее распространенные нелинейные модели регрессии имеются в готовом виде в модуле Нелинейное оценивание и могут быть вызваны просто как пункты меню. В их числе - пошаговая пробит- и логит-регрессия, экспоненциальная и кусочно-линейная регрессия. Помимо различных описательных статистик, в стандартный набор результатов нелинейного оценивания входят: оценки параметров и их стандартные ошибки (которые вычисляются независимо от самих оценок с помощью специальных повышающих точность конечно-разностных методов), матрица дисперсий/ковариаций для оценок параметров, предсказанные значения, остатки и подходящие критерии согласия (лог-правдоподобие оцененной/нулевой моделей, критерий хи-квадрат для различий между средними, доля дисперсии, объясненная моделью, классификация наблюдений и отношение несогласия для моделей логит и пробит и др.). Предсказанные значения и остатки могут быть вставлены в файл данных для дальнейшего анализа. Для моделей логит и пробит автоматически производится пошаговая подгонка с добавлением/удалением параметров регрессионной модели (благодаря чему имеется возможность анализировать данные с помощью пошаговой процедуры нелинейного оценивания). Для всех результатов реализованы разнообразные возможности графического представления, в том числе интерактивные двух- и трехмерные графики подгоночной функции, с помощью которых можно визуально отслеживать качество подгонки, выявлять выбросы и наблюдать меру расхождения модели и данных; пользователь может интерактивно видоизменять уравнение подгоночной функции (см. иллюстрацию) без повторной обработки данных и визуализировать практически все этапы процедуры нелинейной подгонки; последовательностью графических экранов можно произвольным образом управлять (а также переслать ее в комбинированный отчет, содержащий числовую информацию и графики, или распечатать). Для оценки качества подгонки и визуализации результатов имеются также различные специальные графические средства: гистограммы всех выбранных переменных и значений остатков, графики зависимости наблюдаемых значений от предсказанных и предсказанных от остаточных значений, нормальные и полунормальные вероятностные графики остатков и различные другие возможности.

 

КАНОНИЧЕСКАЯ КОРРЕЛЯЦИЯ

В этом модуле реализован полный набор методов канонического анализа (дополняющий методы канонического анализа, встроенные в другие модули, в частности, Дисперсионный анализ и Дискриминантный анализ); работать можно как с файлами исходных данных, так и с корреляционными матрицами; вычисляются все стандартные статистики канонической корреляции (собственные векторы и собственные значения, коэффициенты избыточности, канонические веса, нагрузки, дисперсии, критерии значимости для каждого из корней и др.), а также некоторые расширенные диагностики. Для каждого наблюдения могут быть вычислены значения канонических переменных, которые затем можно просмотреть на встроенных пиктографиках (а также добавить к файлу данных). В модуле Каноническая корреляция имеется большой набор графических средств (включая диаграммы собственых значений и канонических корреляций, диаграммы значений канонических переменных и много других). Подтверждающий анализ структурных связей между латентными переменными может быть также выполнен средствами модуля SEPATH (Моделирование структурными уравнениями и анализ путей).

АНАЛИЗ ВЫЖИВАЕМОСТИ И ОТКАЗОВ

Этот модуль содержит широкий набор методов анализа  цензурированных данных, применяемых  в общественных науках, биологии, медицинских  исследованиях, а также в маркетинге и технике (контроль качества, оценка надежности и др.). После вычисления таблиц времен жизни, различных описательных статистик и множительных оценок Каплана-Мейера пользователь может сравнить функции выживания по группам, используя для этого различные методы (критерий Гехана-Вилкоксона, F-критерий Кокса, критерий Кокса-Ментела, лог-ранговый критерий и обобщенный критерий Пето-Вилкоксона). Диаграммы Каплана-Мейера могут быть построены для отдельных групп (при этом нецензурированные наблюдения изображаются на графиках с помощью особых символов). В модуле реализованы также процедуры подгонки различных типов функций выживания (включая экспоненциальную, линейной интенсивности, Гомпертца и Вейбулла) по методу невзвешенных или взвешенных наименьших квадратов (оценки максимума правдоподобия для параметров различных распределений, включая распределение Вейбулла, можно вычислять также в модуле Анализ процессов). Наконец, в программе в полном объеме реализованы четыре общие объясняющие модели (модель пропорциональных интенсивностей Кокса, экспоненциальная регрессионная модель, нормальная и лог-нормальная регрессионные модели) с расширенной диагностикой, включающей стратифицированный анализ и графики выживаемости для заданных пользователем значений предикторов. В регрессионной модели пропорциональных интенсивностей Кокса пользователь может решить, стратифицировать ли выборку, чтобы сделать возможным задание разных базовых функций интенсивности для разных слоев (но с общим вектором коэффициентов), или же допускать как различные базовые функций интенсивности, так и различные векторы коэффициентов. Кроме того, имеются средства для задания одной или нескольких зависящих от времени ковариат. Такие ковариаты задаются с помощью удобного формульного редактора через арифметические выражения, которые могут явным образом содержать время, все обычные логические операции (пример: timdep=age+age*log(t_)*(age>45); здесь t_ - время жизни), а также различные распределения. Как и во всех других модулях системы STATISTICA, пользователь имеет доступ и может изменять технические параметры всех процедур (или принять динамически определяемые значения по умолчанию). Интерпретировать результаты помогают реализованные в модуле многочисленные виды графиков и специализированных диаграмм (графики кумулятивной доли выживаний/отказов, структура цензурированных данных, графики функции интенсивности (обычный и кумулятивный) и плотности вероятности, сравнительные диаграммы для групп, графики подгонки распределений, различные графики остатков и другие).

АНАЛИЗ ВРЕМЕННЫХ РЯДОВ  И ПРОГНОЗИРОВАНИЕ

В модуле Временные ряды реализован широкий набор методов описания, построения моделей, декомпозиции и прогнозирования временных рядов как во временной, так и в частотной области. Все процедуры полностью интегрированы и результаты анализа одной модели (например, остатки, вычисленые для модели АРПСС) можно использовать для дальнейшего анализа (например, вычисления автокорреляции остатков). Имеются самые разнообразные возможности для просмотра и графического представления одномерных и многомерных рядов. Можно анализировать очень длинные ряды (более 100 тыс. наблюдений для компьютера с 8 Mb оперативной памяти). С многомерными рядами (в случае многомерных исходных данных или с рядами, полученными на различных этапах анализа) можно работать в активной рабочей области; здесь их можно просматривать и сопоставлять друг с другом. Программа автоматически отмечает все этапы анализа временного ряда и сохраняет полную историю преобразований и полученные результаты (остатки модели АРПСС, сезонную составляющую и т.д.). Поэтому пользователь всегда имеет возможность вернуться к более раннему этапу анализа или отобразить на графике исходный ряд и его преобразования. Информация о последовательных преобразованиях хранится в виде длинных меток переменных, поэтому при сохранении вновь полученных рядов в файле данных автоматически сохраняется вся "история" каждого из рядов. Далее описываются конкретные процедуры модуля Временные ряды.

Преобразования, построение моделей, графики, автокорреляции

С помощью различных  преобразований исходного временного ряда можно понять его структуру  и имеющиеся в нем закономерности; в модуле реализованы такие часто  используемые преобразования, как: удаление тренда, удаление автокорреляций, сглаживание скользящими средними (невзвешенными или взвешенными - с весами, заданными пользователем или вычисленными по методам Даниеля, Тьюки, Хэмминга, Парзена и Бартлета), медианное сглаживание (среднее заменено медианой), простое экспоненциальное сглаживание (подробное описание его вариантов см. далее), взятие разностей, суммирование, вычисление остатков, сдвиг, 4253H-сглаживание, косинус-сглаживание, преобразование Фурье, а также обратное преобразование Фурье и др. Можно выполнить анализ автокорреляций, частных автокорреляций и кросскорреляций.

АРПСС и анализ прерванных временных рядов (рядов с интервенциями)

Модуль Временные ряды включает полную реализацию модели авторегрессии и проинтегрированного скользяцего среднего (АРПСС). Модель может включать константу. Перед построением модели ряд может быть подвергнут преобразованию, которое автоматически будет отменено после построения прогноза по АРПСС, при этом предсказанные значения и их стандартные ошибки будут выражены через значения исходного (а не преобразованного) ряда. Могут быть вычислены приближенные и точные суммы квадратов из условия максимума правдоподобия; уникальной особенностью модели АРПСС модуля Временные ряды является способность анализировать модели с длинными периодами сезонности (с лагом до 30). Стандартный набор результатов содержит оценки параметров, стандартные ошибки и корреляции. Предсказанные значения могут быть представлены в числовой и графической форме и добавлены к исходному ряду. Имеются многочисленные дополнительные функции для исследования остатков модели АРПСС, в том числе большой набор графических средств. Реализация модели АРПСС в модуле Временные ряды позволяет проводить анализ прерванных временных рядов (рядов с интервенциями). Имеется возможность использовать одновременно несколько различных интервенций (до 6). Доступны следующие виды интервенций: однопараметрические скачкообразные, двупараметрические постепенные, временные (характер воздействия можно просмотреть на графике). Для всех прерванных моделей могут быть построены прогнозы, которые можно вывести на график (вместе с исходным рядом) и, если требуется, добавить прогнозы к исходному ряду.

Информация о работе Статистические пакеты для обработки и анализа данных