Автор работы: Пользователь скрыл имя, 25 Декабря 2012 в 14:01, доклад
Кластерный анализ решает задачу построения классификации, то есть разделения исходного множества объектов на группы (классы, кластеры).
Классификация объектов – это группирование их в классы так, чтобы объекты в каждом классе были более похожи друг на друга, чем на объекты из других классов.
Кластерный анализ решает задачу построения классификации, то есть разделения исходного множества объектов на группы (классы, кластеры).
Классификация объектов – это группирование их в классы так, чтобы объекты в каждом классе были более похожи друг на друга, чем на объекты из других классов.
Кластерный анализ
Кластерный анализ – это процедура упорядочивания объектов в сравнительно однородные классы на основе попарного сравнения этих объектов по предварительно определенным и измеренным критериям.
Можно указать ряд задач, при решении которых кластерный анализ является более эффективным, чем другие многомерные методы:
1. Отбор объектов для кластеризации.
2. Определение множества переменных, по которым будут различаться объекты кластеризации.
3. Определение меры различия между объектами кластеризации.
4. Выбор и применение метода классификации для создания групп сходных объектов.
5. Проверка достоверности разбиения на классы.
Последовательность
Методы кластерного анализа можно разделить на две группы:
• иерархические;
• неиерархические.
Суть иерархической
Иерархические методы кластерного анализа
Иерархические агломеративные методы (Agglomerative Nesting, AGNES)
Эта группа методов
характеризуется
Главным итогом иерархического кластерного анализа является дендрограмма или «сосульчатая диаграмма».
Визуальный анализ дендрограммы предполагает «обрезание» дерева на оптимальном уровне сходства элементов выборки
Иерархические дивизимные (делимые) методы (DIvisive ANAlysis, DIANA)
Эти методы являются логической противоположностью агломеративным методам. В начале работы алгоритма все объекты принадлежат одному кластеру, который на последующих шагах делится на меньшие кластеры, в результате образуется последовательность расщепляющих групп.
Критерием для определения схожести и различия кластеров является расстояние между точками на диаграмме рассеивания. Это сходство можно "измерить", оно равно расстоянию между точками на графике. Способов определения меры расстояния между кластерами, называемой еще мерой близости, существует несколько.
Меры близости
При всех сильных сторонах иерархического кластерного анализа он обладает одним существенным недостатком. С ним трудно работать при наличии большого числа объектов, так как дендрограммы становятся перегруженными и теряют наглядность. В таких случаях используют другой метод кластеризации — метод К-средних.
Метод К-средних
Принципиальное отличие метода К-средних от иерархического кластер-анализа заключается в том, что исследователю необходимо изначально определить число кластеров, на которое требуется разбить изучаемую совокупность. Соответственно, желательно еще до начала анализа иметь гипотезу о структуре исследуемой совокупности. В ином случае рекомендуется «разведочный» алгоритм: сначала совокупность делится на два кластера, затем на три и так до тех пор, пока не будет найдено оптимальное число кластеров.
Метод К-средних