Кластерный анализ
Доклад, 25 Декабря 2012, автор: пользователь скрыл имя
Краткое описание
Кластерный анализ решает задачу построения классификации, то есть разделения исходного множества объектов на группы (классы, кластеры).
Классификация объектов – это группирование их в классы так, чтобы объекты в каждом классе были более похожи друг на друга, чем на объекты из других классов.
Прикрепленные файлы: 1 файл
Лекции №№ 13-14. Кластерный анализ (4 часа).pptx
— 153.30 Кб (Скачать документ)Кластерный анализ решает задачу построения классификации, то есть разделения исходного множества объектов на группы (классы, кластеры).
Классификация объектов – это группирование их в классы так, чтобы объекты в каждом классе были более похожи друг на друга, чем на объекты из других классов.
Кластерный анализ
Кластерный анализ – это процедура упорядочивания объектов в сравнительно однородные классы на основе попарного сравнения этих объектов по предварительно определенным и измеренным критериям.
Можно указать ряд задач, при решении которых кластерный анализ является более эффективным, чем другие многомерные методы:
- разбиение совокупности испытуемых на группы по измеренным признакам с целью дальнейшей проверки причин межгрупповых различий по внешним критериям, например, проверка гипотез о том, проявляются ли типологические различия между испытуемыми по измеренным признакам;
- применение кластерного анализа
как значительно более простог о и наглядного аналога факторного анализа, когда ставится только задача группировки признаков на основе их корреляции; - классификация объектов на основе непосредственных оценок различий между ними (например, исследование социальной структуры коллектива по данным социометрии – по выявленным межличностным предпочтениям).
1. Отбор объектов для кластеризации.
2. Определение множества переменных, по которым будут различаться объекты кластеризации.
3. Определение меры различия между объектами кластеризации.
4. Выбор и применение метода классификации для создания групп сходных объектов.
5. Проверка достоверности разбиения на классы.
Последовательность
Методы кластерного анализа можно разделить на две группы:
• иерархические;
• неиерархические.
Суть иерархической
Иерархические методы кластерного анализа
Иерархические агломеративные методы (Agglomerative Nesting, AGNES)
Эта группа методов
характеризуется
Главным итогом иерархического кластерного анализа является дендрограмма или «сосульчатая диаграмма».
Визуальный анализ дендрограммы предполагает «обрезание» дерева на оптимальном уровне сходства элементов выборки
Иерархические дивизимные (делимые) методы (DIvisive ANAlysis, DIANA)
Эти методы являются логической противоположностью агломеративным методам. В начале работы алгоритма все объекты принадлежат одному кластеру, который на последующих шагах делится на меньшие кластеры, в результате образуется последовательность расщепляющих групп.
Критерием для определения схожести и различия кластеров является расстояние между точками на диаграмме рассеивания. Это сходство можно "измерить", оно равно расстоянию между точками на графике. Способов определения меры расстояния между кластерами, называемой еще мерой близости, существует несколько.
Меры близости
При всех сильных сторонах иерархического кластерного анализа он обладает одним существенным недостатком. С ним трудно работать при наличии большого числа объектов, так как дендрограммы становятся перегруженными и теряют наглядность. В таких случаях используют другой метод кластеризации — метод К-средних.
Метод К-средних
Принципиальное отличие метода К-средних от иерархического кластер-анализа заключается в том, что исследователю необходимо изначально определить число кластеров, на которое требуется разбить изучаемую совокупность. Соответственно, желательно еще до начала анализа иметь гипотезу о структуре исследуемой совокупности. В ином случае рекомендуется «разведочный» алгоритм: сначала совокупность делится на два кластера, затем на три и так до тех пор, пока не будет найдено оптимальное число кластеров.
Метод К-средних