Кластерный анализ

Автор работы: Пользователь скрыл имя, 25 Декабря 2012 в 14:01, доклад

Краткое описание

Кластерный анализ решает задачу построения классификации, то есть разделения исходного множества объектов на группы (классы, кластеры).
Классификация объектов – это группирование их в классы так, чтобы объекты в каждом классе были более похожи друг на друга, чем на объекты из других классов.

Прикрепленные файлы: 1 файл

Лекции №№ 13-14. Кластерный анализ (4 часа).pptx

— 153.30 Кб (Скачать документ)

Кластерный анализ решает задачу построения классификации, то есть разделения исходного множества объектов на группы (классы, кластеры).

Классификация объектов – это группирование их в классы так, чтобы объекты в каждом классе были более похожи друг на друга, чем на объекты из других классов.

 

 

Кластерный анализ

Кластерный  анализ – это процедура упорядочивания объектов в сравнительно однородные классы на основе попарного сравнения этих объектов по предварительно определенным и измеренным критериям.

 

Можно указать ряд задач, при решении которых кластерный анализ является более эффективным, чем другие многомерные методы:

    • разбиение совокупности испытуемых на группы по измеренным признакам с целью дальнейшей проверки причин межгрупповых различий по внешним критериям, например, проверка гипотез о том, проявляются ли типологические различия между испытуемыми по измеренным признакам;

 

    • применение кластерного анализа как значительно более простого и наглядного аналога факторного анализа, когда ставится только задача группировки признаков на основе их корреляции;
    • классификация объектов на основе непосредственных оценок различий между ними (например, исследование социальной структуры коллектива по данным социометрии – по выявленным межличностным предпочтениям).

 

1.  Отбор объектов для кластеризации.

2.  Определение множества переменных, по которым будут различаться объекты кластеризации.

3.  Определение меры различия между объектами кластеризации.

4.  Выбор и применение метода классификации для создания групп сходных объектов.

5.  Проверка достоверности разбиения на классы.

 

 

Последовательность кластерного  анализа

Методы  кластерного анализа можно разделить на две группы:

• иерархические;

• неиерархические.

 

Суть иерархической кластеризации  состоит в последовательном объединении  меньших кластеров в большие  или разделении больших кластеров  на меньшие.

 

Иерархические методы кластерного анализа

Иерархические агломеративные методы (Agglomerative Nesting, AGNES) 

Эта группа методов  характеризуется последовательным объединением исходных элементов и  соответствующим уменьшением числа  кластеров.

 

 Главным итогом иерархического кластерного анализа является дендрограмма или «сосульчатая диаграмма».

Визуальный анализ дендрограммы предполагает «обрезание» дерева на оптимальном уровне сходства элементов выборки

Иерархические дивизимные (делимые) методы (DIvisive ANAlysis, DIANA)

 Эти методы являются логической противоположностью агломеративным методам. В начале работы алгоритма все объекты принадлежат одному кластеру, который на последующих шагах делится на меньшие кластеры, в результате образуется последовательность расщепляющих групп.

Критерием для определения схожести и различия кластеров является расстояние между точками на диаграмме рассеивания. Это сходство можно "измерить", оно равно расстоянию между точками на графике. Способов определения меры расстояния между кластерами, называемой еще мерой близости, существует несколько.

 

Меры близости

При всех сильных сторонах иерархического кластерного анализа он обладает одним существенным недостатком. С ним трудно работать при наличии большого числа объектов, так как дендрограммы становятся перегруженными и теряют наглядность. В таких случаях используют другой метод кластеризации — метод К-средних. 

 

Метод К-средних

Принципиальное отличие  метода К-средних от иерархического кластер-анализа заключается в  том, что исследователю необходимо изначально определить число кластеров, на которое требуется разбить  изучаемую совокупность. Соответственно, желательно еще до начала анализа  иметь гипотезу о структуре исследуемой  совокупности. В ином случае рекомендуется  «разведочный» алгоритм: сначала  совокупность делится на два кластера, затем на три и так до тех  пор, пока не будет найдено оптимальное  число кластеров.

 

Метод К-средних


Информация о работе Кластерный анализ