Статистические пакеты для обработки и анализа данных

Автор работы: Пользователь скрыл имя, 21 Июня 2013 в 20:54, реферат

Краткое описание

Международный рынок насчитывает более 1000 пакетов, решающих задачи статистического анализа данных в среде операционных систем Windows, DOS, OS/2.
Разнообразие статистических пакетов обусловлено многоплановостью задач обработки данных с применением различных типов статистических процедур анализа для поиска ответов на вопросы из различных областей человеческой деятельности.
Перед пользователями различных категорий встает вопрос выбора оптимального статистического пакета для поиска верных ответов на существующие вопросы. Очевидно, что оптимальным является вариант, сочетающий в себе необходимые функциональные возможности, высокое качество работы и умеренную цену.

Прикрепленные файлы: 1 файл

Статистические пакеты для обработки и анализа данных.doc

— 317.00 Кб (Скачать документ)

 

КОРРЕЛЯЦИИ

В системе имеется  большой набор методов для  исследования корреляций между переменными. Прежде всего, могут быть вычислены  все обычно используемые характеристики связи между переменными, в том числе: коэффициент корреляции Пирсона r, коэффициент ранговой корреляции Спирмена R, tau (b, c) Кендалла, Гамма, тетрахорический r, Phi, V Крамера, коэффициент сопряженности C, D Соммера, коэффициенты неопределенности, частные и получастные корреляции, автокорреляции, различные меры расхождения и т.д. (нелинейные корреляции, регрессия для цензурированных данных и другие более специальные меры корреляции реализованы в модулях Нелинейное оценивание, Анализ выживаемости и других). Корреляционные матрицы могут быть вычислены с построчным либо попарным удалением пропусков или с подстановкой среднего значения вместо пропущенных значений. Как и во всех других модулях системы STATISTICA, для достижения высокой - не имеющей аналогов среди других пакетов - точности результатов здесь можно производить вычисления с повышенной точностью (где требуется - с "учетверенной"). Как и вообще все численные результаты, корреляционные матрицы в системе STATISTICA выводятся в виде таблиц, имеющих богатые возможности форматирования данных (см. ниже) и визуализации численных результатов; так, можно "указать" на конкретный корреляционный коэффициент и вызвать для него контекстное меню всевозможных "описательных диаграмм" (диаграммы рассеяния с доверительными интервалами, различные объемные гистограммы двумерных распределений, вероятностные графики и т.д.). Богатые средства закрашивания позволяют выделять (или, наборот, затенять) отдельные точки на диаграмме рассеяния и таким образом оценивать их влияние на положение линии регрессии (и других подогнанных кривых). Таким образом исследуются, например, выбросы или резко выделяющиеся наблюдения. Поддерживаются разнообразные форматы глобального вывода корреляций; значимые коэффициенты корреляции могут автоматически выделяться цветом, каждую ячейку таблицы результатов можно расширить и посмотреть число n наблюдений, по которым вычислен коэффициент и уровень значимости p, можно запросить подробные результаты, включающие все описательные статистики (попарные средние и стандартные отклонения, B-веса, пересечения, и т.д.). В таблице результатов можно просматривать очень большие корреляционные матрицы (размером до 4096 x 4096), а с помощью процедуры больших корреляций и таблиц результатов модуля Менеджер мегафайлов можно вычислять матрицы практически неограниченного размера (до 32000 x 32000). Как и все численные результаты, корреляционные матрицы выводятся в виде таблиц, поддерживающих операцию масштабирования и интерактивно управляемый формат вывода значащих цифр (например, от +0.4 до +0.41358927645193); таким образом, матрицы больших размеров можно сжимать (с помощью операции уменьшения, либо изменением формата вывода, что делается перетягивнием границ столбцов с помощью мыши). Это облегчает зрительное восприятие и, в частности, помогает быстро находить коэффициенты, превосходящие заданную величину или имеющиее определенный уровень значимости (соответствующие ячейки в таблице результатов будут помечены красным цветом). Как и во всех других диалоговых окнах вывода, здесь доступны различные общие параметры графического вывода, позволяющие проводить дальнейшее изучение закономерностей и взаимосвязей между переменными; например, двух- и трехмерные диаграммы рассеяния (с метками наблюдений или без них) служат для выявления зависимостей по подмножествам наблюдений или последовательностям переменных. Корреляционные матрицы могут быть категоризованы группирующими переменными и представляться графически в виде категоризованных диаграмм рассеяния. Могут быть также выведены последовательности таблиц результатов "группировки корреляционных матриц" (по одной матрице на каждое подмножество наблюдений). Вся корреляционная матрица может быть представлена на одном графике (со сколь угодно большим разрешением) в виде матрицы диаграмм рассеяния; такие матрицы можно интерактивно просматривать, "увеличивая" нужные участки графика (или прокручивая график в режиме увеличения) [см. рис.]. Имеется также возможность строить категоризованные матричные диаграммы рассеяния (одна матричная диаграмма на каждое подмножество данных). Можно поступить иначе и построить матричные диаграммы рассеяния для нескольких подмножеств (например, задаваемых уровнями группирующей переменной или сколь угодно сложными условиями выбора наблюдений), где отдельные подмножества данных изображаются различными маркерами. Для визуализации корреляционных матриц и поиска в них глобальных закономерностей имеется еще много других графических методов (контурные графики, несглаженные поверхности, пиктограммы и т.д.). Все эти операции требуют лишь нескольких щелчков мыши, а для выбора параметров предоставляются различные средства быстрого доступа. Одновременно на экране можно открыть любое число таблиц результатов и графиков, что принципиально облегчает интерактивный разведочный и сравнительный анализ. См. также следующий раздел, посвященный быстрым основным статистикам.

 

 

ИНТЕРАКТИВНЫЕ БЫСТРЫЕ ОСНОВНЫЕ СТАТИСТИКИ И БЛОКОВЫЕ СТАТИСТИКИ

В дополнение к описательным статистикам и корреляциям (о них было рассказано в двух предыдущих разделах) и таблицам частот (см. далее) в системе имеются интерактивные средства, позволяющие одним щелчком мыши вычислять основные статистики и строить графики в любой момент в течение сеанса работы. Эти быстрые основные статистики доступны из всех панелей инструментов и контекстных меню и выдают результат немедленно без каких-либо промежуточных диалоговых окон (см. иллюстрацию), если только пользователь не выберет другой режим. Более того, по умолчанию эти быстрые процедуры даже не требуют, чтобы были выбраны переменные для анализа - они выбираются автоматически по выделенному блоку ячеек или диапазону столбцов (или строк) в открытой в данный момент таблице исходных данных или таблице результатов. Быстрые основные статистики - очень удобный способ быстро получать "общие" сведения об исследуемых переменных. Сюда входит полный набор описательных статистик (включая порядковые статистики), корреляции и таблицы частот вместе с ожидаемыми нормальными частотами и другие числовые характеристики, а также большой набор встроенных статистических графиков. Выходные результаты для всех статистик и графиков могут быть категоризованы (сгруппированы по значениям некоторой другой переменной). Кроме того, все входные и выходные таблицы системы STATISTICA поддерживают функции Блоковые статистики и Блоковые статистические графики (см. иллюстрацию), выдающие статистики и статистические графики для произвольного выделенного блока ячеек в открытой в данный момент таблице исходных данных или таблице результатов . Результаты можно выводить по столбцам или по строкам выделенного блока в зависимости от смысла содержащихся в нем данных (исходные данные, нагрузки факторов, средние значения, частоты и т.д.). Например, применив метод Монте-Карло из модуля SEPATH (Моделирование структурными уравнениями и анализ путей), можно выделить блок чисел (например, оценок параметров для последовательных испытаний) в таблице результатов и построить для них описательные статистики (средние значения, медианы, квартили), гистограммы, вероятностные графики, диаграммы размаха и т.д.

 

 

ИНТЕРАКТИВНЫЙ ВЕРОЯТНОСТНЫЙ КАЛЬКУЛЯТОР

Из любой панели инструментов системы STATISTICA доступен удобный интерактивный Калькулятор вероятностных распределений.В него заложено много типов стандартных распределений (бета, Коши, хи-квадрат, экспоненциальное, экстремальное (Гумбеля), F, гамма, Лапласа, логнормальное, логистическое, Парето, Релея, t (Стьюдента), Вейбулла и Z (нормальное)). Диалоговое окно содержит интерактивно обновляемые графики (плотности вероятности и функции распределения), позволяющие наглядно представить себе то или иное распределение, пользуясь при этом удобным инструментом - кнопками микропрокрутки. С помощью этих кнопок можно быстро менять последнюю (левой кнопкой мыши) или предпоследнюю (правой кнопкой) значащую цифру числа. Имеется возможность строить настраиваемые составные графики распределений для нужного диапазона. Таким образом, калькулятор дает возможность интерактивно исследовать структуру распределений (например, зависимость вероятности от параметров).

 

T-КРИТЕРИИ (и  другие критерии групповых различий)

В этом окне могут быть вычислены T-критерии для зависимых  и независимых выборок, а также  многомерный критерий T 2 Хотеллинга (относительно сравнений средних  значений для одномерных и многомерных  данных смотрите также раздел, посвященный модулю Дисперсионный анализ). Как и везде в системе, во всех меню результатов имеются функции подробной диагностики и графического представления. Так например, в случае t-критериев для независимых выборок имеется возможность вычислить t-критерий с раздельными оценками дисперсий и критерий Левена однородности дисперсии, построить различные диаграммы размаха, категоризованные гистограммы, вероятностные графики, категоризованные диаграммы рассеяния и т.д. Более специальные критерии групповых различий реализованы в некоторых дpугих модулях (Непараметрическая статистика, Анализ выживаемости, Надежность и позиционный анализ).

 

 

ТАБЛИЦЫ ЧАСТОТ, ТАБЛИЦЫ СОПРЯЖЕННОСТИ, ТАБЛИЦЫ  ФЛАГОВ И ЗАГОЛОВКОВ, АНАЛИЗ МНОГОМЕРНЫХ  ОТКЛИКОВ

В системе имеются развитые средства для табуляции непрерывных и категориальных переменных, переменных множественного отклика и многомерных дихотомий. Вид таблиц и формат данных в них регулируется многочисленными функциями. Так например, в таблицах для переменных множественного отклика или многомерных дихотомий маргинальные частоты и процентные показатели могут вычисляться по отношению к общему числу респондентов либо числу ответов, переменные множественного отклика можно обрабатывать парами, имеются различные варианты обработки пропущенных данных. Таблицы частот могут быть вычислены для заданных пользователем логических условий выбора наблюдений (условия могут быть любой степени сложности и связывать любые переменные в текущем файле данных), относящих наблюдения к той или иной категории в таблице. Все таблицы можно настроить для вывода результатов в форме конечного отчета (для публикации). Например, не имеющую аналогов в других пакетах "многовходовую итоговую таблицу" можно вывести с группировками и иерархическим упорядочением факторов; в ячейках таблицы сопряженности могут выводиться процентны по столбцу, по строке или проценты от общего числа наблюдений в таблице; для описания категорий в таблице можно использовать длинные метки значений; частоты, превышающие заданный пользователем уровень можно выделить цветом и т.д. Программа может выводить кумулятивные (суммарные или накопленные) частоты и относительные частоты, логит- и пробит-преобразованные частоты, ожидаемые нормальные частоты (а также значения статистик Колмогорова-Смирнова, Лилиефорса и Шапиро-Уилкса), ожидаемые и остаточные частоты в таблицах сопряженности и др. Среди критериев значимости в таблицах сопряженности реализованы: критерии хи-квадрат Пирсона, максимума правдоподобия и с поправкой Йетса, хи-квадрат МакНемара, точный критерий Фишера (одно- и двухсторонний), Фи, тетрахорическая корреляция; доступны также следующие статистики: tau (a, b ) Кендалла, Гамма, r Спирмена, D Соммера, коэффициенты неопределенности и др. Графические средства включают простые, категоризованные (множественные) и трехмерные гистограммы, гистограммы кросс-сечений (для любых "срезов" одно-, двух- и многовходовых таблиц) и много других типов графиков, в том числе уникальный в своем роде "частотный график взаимодействий", суммирующий частоты для сложных таблиц сопряженности (подобно диаграмме средних в модели дисперсонного анализа ANOVA). В интерактивном режиме можно просматривать целые каскады графиков (в том числе сложных, например, множественно-категоризованные графики и графики взаимодействия).

 

 

МЕТОДЫ МНОЖЕСТВЕННОЙ РЕГРЕССИИ

В модуле Множественная регрессия реализован полный набор методов линейной и фиксированной нелинейной регрессии. Эти методы включают простую, множественную, пошаговую регрессию (с пошаговым/блоковым включением или исключением предикторов), иерархическую, нелинейную (полиномиальную, экспоненциальную, логарифмическую и т.д.) и гребневую (ридж) регрессию, с включением или без включения константы (свободного члена), модели взвешенных наименьших квадратов. Программа вычисляет полный набор статистик и расширенных диагностик, включая полную таблицу регрессии (с значениями стандартной ошибки для B, Beta и свободного члена, коэффициента детерминации R2 и скорректированного R2 для моделей с константой и без нее и таблицей дисперсионного анализа), матрицы частных и получастных корреляций, корреляции и ковариации коэффициентов регрессии, матрицу выметания (обратную матрицу), статистику Дарбина-Уотсона d, расстояния Махаланобиса и Кука, удаленные остатки, доверительные интервалы для предсказанных значений и многие другие статистики. Широкие возможности анализа остатков и выбросов включают многочисленные типы графиков, диаграмм рассеяния, гистограмм, графики на нормальной и полунормальной вероятностной бумаге, графики с удаленным трендом, график частных корреляций, различные построчные графики и диаграммы для остатков и выбросов и др. Значения зависимой переменной для отдельных наблюдений можно просмотреть визуально с помощью разведочных пиктографиков и других многомерных графиков, доступных непосредственно из таблицы результатов. Остаточные и предсказанные значения можно автоматически добавлять к текущему файлу данных. Процедура прогнозирования позволяет проводить "что-если" анализ и интерактивно вычислять предсказанные значения по задаваемым с клавиатуры значениям предикторов. Могут быть проанализированы чрезвычайно большие планы (более 500 переменных). Дополнительные возможности включают специальный аппарат для сверхбольших задач регрессии (с тысячами переменных), Двуступенчатый метод наименьших квадратов, преобразования Бокса-Кокса и Бокса-Тидвелла. Система STATISTICA имеет также специальный модуль общего нелинейного оценивания (см. Нелинейное оценивание), с помощью которого можно оценить практически любую определенную пользователем нелинейную модель и где имеется целый ряд предопределенных моделей, включая модели логит-, пробит- и другие). В системе STATISTICA также имеется модуль SEPATH (Моделирование структурными уравнениями и анализ путей), где можно анализировать чрезвычайно большие матрицы корреляций, ковариаций и моментов (для моделей со свободным членом).

ОБЩАЯ МОДЕЛЬ ДИСПЕРСИОННОГО АНАЛИЗА

В модуле Дисперсионный анализ реализованы методы общего одномерного и многомерного дисперсионного и ковариационного анализа; здесь можно обрабатывать планы практически неограниченной сложности. Имеется возможность задавать планы непосредственно, определив реальные переменные и уровни факторов, поэтому даже не очень опытные пользователи системы STATISTICA могут анализировать в этом модуле чрезвычайно сложные планы. По умолчанию в процедурах модуля используется подход к дисперсионному анализу, основанный на модели средних, но пользователь может также вычислить суммы квадратов типа I (последовательные, в порядке по умолчанию или заданном пользователем), типа II или типа III; для неполных планов могут также быть исследованы гипотезы типа IV. Могут быть проанализированы межгрупповые планы и планы с повторными измерениями, включая планы с расщепленными делянками, фиксированными и случайными факторами, несбалансированные и гнездовые планы и планы с изолированной контрольной группой Для планов любого типа могут использоваться фиксированные или переменные ковариаты. Можно анализировать неполные планы (вложенные, на латинских квадратах, на греко-латинских квадратах, планы с единственным наблюдением на ячейку, рандомизированные блочные планы и т.д.); пользователь может задать объединенные члены ошибки дисперсионного анализа. Могут быть построены апостериорные критерии для маргинальных средних или для эффектов взаимодействия (включая межгрупповые факторы, факторы повторных измерений, или и те и другие): критерий наименьшей значимой разности (НЗР), критерий Ньюмена-Кеулса, критерий множественных сравнений Дункана, критерий Шеффе, критерий Тьюки достоверно значимой разности (ДЗР), обобщенный Спьотволлом и Столайном критерий Тьюки для выборок неравного размера.

Для всех основных эффектов, взаимодействий и спланированных сравнений могут  быть выведены полные статистики дисперсионного анализа; программа вычисляет также  множественные таблицы классификации  и SSCP-матрицы. Для всех эффектов могут быть выведены таблицы результатов, в которых отмечены цветом все эффекты, уровень значимости которых выше заданного; в такой таблице, можно исследовать маргинальные средние или просмотреть мгновенные графики отдельных главных эффектов и взаимодействий, для чего достаточно просто дважды щелкнуть по эффекту. Для любых одно- и многомерных планов может быть проведен анализ контрастов неограниченной сложности. Пользователь может задавать частные эффекты взаимодействия, простые эффекты, полиномиальные контрасты и экспериментировать с произвольными комбинациями коэффициентов контраста. Имеются средства, упрощающие и ускоpяющие задание параметров в сложных анализах: в дополнение к функции Быстрое заполнение, позволяющей автоматизировать ввод коэффициентов контраста, имеется широкий выбор предопределенных контрастов, доступных по одному щелчку мыши (включая полиномиальные, отклонение, разность, Хельмерта, простые и повторные). При анализе неполных планов со случайно распределенными пропущенными ячейками процедура анализа контрастов автоматически отмечает все пустые ячейки и помогает пользователю строить проверяемые гипотезы. Большую помощь при анализе оказывают богатые графические возможности модуля (автоматическое построение графиков взаимодействий, в том числе заданных пользователем каскадов графиков компонент ("срезов") для многофакторных взаимодействий, внутригрупповых распределений переменных и внутригрупповых корреляций, определенные пользователем диаграммы размаха для медиан, квартилей, средних, стандартных отклонений, стандартных ошибок и т.д. для произвольных сочетаний факторов и многие другие, см. далее). Могут быть исследованы гипотезы параллельности (т.е. отсутствия взаимодействий, включающих ковариаты); могут быть подсчитаны полные результаты одномерной и многомерной регрессии и выведены или нарисованы скорректированные средние. Программа вычисляет также поправки Гринхауса-Гейсера и Хюнха-Фельдта для факторов повторных измерений; для таких факторов автоматически вычисляются одно- и многомерные результаты. Пользователь может исследовать SS-матрицы (сумм квадратов) гипотез и ошибок, и там, где это возможно, программа выполняет полный канонический анализ с вычислением канонических корней, собственных значений, долю дисперсии, приходящуюся на каждый корень, а также стандартизованную и нестандартизованную дискриминантную функцию (при этом нужно иметь в виду, что в модуле Дискриминантный анализ реализована процедура полного пошагового дискриминантного анализа с расширенной диагностикой).

Информация о работе Статистические пакеты для обработки и анализа данных