Автор работы: Пользователь скрыл имя, 03 Января 2011 в 21:38, курс лекций
Основные темы и понятия.
Бывает так, что число групп заранее не известно. В этом случае его определяют опытным путем на основе перебора вариантов группировки.
В результате перебора выбирается такой вариант, при котором наилучшим образом выделяется различие между группами. Если группировочный признак не количественный или имеет не много значений, то группировка данных осуществляется путем подсчета единиц с данными значениями признака.
Например.
Группировка заводов по числу производства видов станков.
Число типов станков | 1 | 2 | 3 | 4 | 5 и более |
Число заводов | 19 | 10 | 7 | 3 | 1 |
Виды группировок.
Группировка осуществляется с целью установления статистической связи и закономерности, описания объекта, а также выявления структурного изучения совокупности. Различия в целевом назначении группировки выражаются в существующей классификации.
В отечественной статистике различают следующие типы группировок:
Типологическая группировка служит для выделения социально-экономических типов. Обычно эксперты определяют, какие типы могут встретиться в изучении совокупности. Поэтому типологическая группировка включает в себя следующие действия:
Этот метод специализации интервалов позволяет избавляться от чрезмерного дробления совокупностей. Главный его недостаток – он слишком субъективен: эксперт определяет, какие типы должны быть выделены, но какими должны быть границы интервалов.
Второй недостаток – число группировочных признаков ограничивается двумя или тремя, однако если имеется хорошая теория, то этот метод дает хорошо интерпретированный результат.
Правильность
проведенной типологической группировки
требует контроля. С этой целью рассчитывают
сводные показатели по группам: средние
или относительные показатели с целью
выявления статистических значений разницы
между группами либо по критерию Стьюдента
либо по критерию Фишера.
Структурная группировка
Она характеризует структуру совокупности по какому – либо одному признаку. Как правило, она используется для описания однородной совокупности, поэтому для нее характерны закрытые, равные интервалы.
Структурная группировка позволяет изучить интенсивные вариации группировочного типа. На основе структурной группировки можно изучить динамику структуры совокупности, если взять структуру в базисном периоде и в отчетном, путем сопоставления этих структур можно численно оценить структуру сдвигов, т.е. сравнивая численности единиц в каждой группе в базисном и отчетном периодах, можно оценить в целом изменение структуры.
Вариационный ряд является типичным примером структурной группировки.
Показываем
структуру данной совокупности.
Распределение
финансовых ресурсов
в экономике России
Структурная
группировка устанавливает
Распределение ВВП
Аналитическая группировка
Характеризует взаимосвязь между двумя и более признаками, один из которых рассматривается как результат, а другие как факты. Факторов, влияющих на результат, может быть от одного до нескольких.
Наиболее
мощным способом проведения аналитической
группировки является корреляционно
– регрессионный анализ (КРА). С
его помощью можно выразить связь
между результативным и факторными признаками,
в виде аналитической зависимости.
Тесноту связи между результативными и факторными признаками можно оценить либо с помощью эмпирической корреляционной относительности, либо с помощью коэффициента детерминации.
Далее
по лабораторной работе.
Недостатком КРА является сильное дробление всех данных на мелкие совокупности. Если общее число данных не велико, то может получиться так, что в каждой группе может оказаться малое число наблюдаемых единиц. В результате снижается надежность наших суждений. Сохранить сложность описания групп и вместе с тем преодолеть недостатки, вызванные дроблением групп на отдельные совокупности, можно с помощью многомерной группировки.
Цель: классификация данных, т.е. осуществление группировки на основе множества признаков.
Это может встретиться в следующих реальных задачах:
выделение и изучение типов людей по степени их принадлежности к определенным специальностям;
диагностика болезни на основании множества объективных симптомов.
Наиболее простым вариантом многомерной классификации является группировка на основе многомерных средних.
Многомерной средней называется средняя величина нескольких признаков для одной единицы совокупности. Т.к. признаки могут быть разнокачественными, т.е. изменяться в разных физических единицах, то поэтому нельзя рассчитать среднюю величину по абсолютному значению разных признаков.
С
этой целью многомерная средняя
величина вычисляется из относительных
величин, чаще всего из отношений
абсолютных значений признаков для единицы
совокупности к среднему значению этих
признаков.
многомерное среднее для j
единицы.
- значение признака j для i-ой единицы
- среднее значение для признака
K – число признаков
j – номер признака, о котором идет речь
i
– номер единицы совокупности
Более обоснованным методом многомерных классификаций является кластерный анализ.
Claster – множество
Как и всякое множество в отличие от математического множества в кластере всегда есть хотя бы один элемент. Каждая в единицу совокупности рассматривается как точка в заданном признаковом пространстве. Каждый признак это ось координат, это будет k-мерное пространство по количеству признаков k.
Признаковое пространство - область варьирования всех признаков совокупности.
Если
уподобить признаковое
С учетом сказанного алгоритм кластерного анализа выглядит следующим образом:
Объединение
в кластеры заканчивается, когда
все остальные эвклидовы