Автор работы: Пользователь скрыл имя, 11 Декабря 2013 в 09:31, реферат
Кластерный анализ — многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов, и затем упорядочивающая объекты в сравнительно однородные группы. Задача кластеризации относится к статистической обработке, а также к широкому классу задач обучения без учителя. Большинство исследователей склоняются к тому, что впервые термин «кластерный анализ» был предложен математиком Р. Трионом. Впоследствии возник ряд терминов, которые в настоящее время принято считать синонимами термина «кластерный анализ»: автоматическая классификация, ботриология.
Реферат на тему: Кластерный анализ
Работу выполнил студент 2-го курса биологического факультета Курвяков Алексей
Определение кластерного анализа
Кластерный анализ — многомерная статистическая
процедура, выполняющая сбор данных, содержащих
информацию о выборке объектов, и затем
упорядочивающая объекты в сравнительно
однородные группы. Задача кластеризации
относится к статистической обработке,
а также к широкому классу задач обучения без учителя. Большинство исследователей склоняются к тому, что впервые
термин «кластерный анализ» был предложен
математиком Р. Трионом. Впоследствии
возник ряд терминов, которые в настоящее
время принято считать синонимами термина
«кластерный анализ»: автоматическая
классификация, ботриология. Спектр применений
кластерного анализа очень широк: его
используют в археологии, медицине, психол
Основные задачи
Независимо от предмета изучения применение
кластерного анализа
Можно встретить описание двух фундаментальных требований предъявляемых к данным — однородность и полнота. Однородность требует, чтобы все кластеризуемые сущности были одной природы, описываться сходным набором характеристик. Если кластерному анализу предшествует факторный анализ, то выборка не нуждается в «ремонте» — изложенные требования выполняются автоматически самой процедурой факторного моделирования. В противном случае выборку нужно корректировать.
Типы входных данных
В современной науке применяется несколько алгоритмов обработки входных данных. Анализ путём сравнения объектов, исходя из признаков, (наиболее распространённый в биологических науках) называется Q-типом анализа, а в случае сравнения признаков, на основе объектов — R-типом анализа. Существуют попытки использования гибридных типов анализа, но данная методология ещё должным образом не разработана.
Цели кластеризации
В первом случае число кластеров стараются сделать поменьше. Во втором случае важнее обеспечить высокую степень сходства объектов внутри каждого кластера, а кластеров может быть сколько угодно. В третьем случае наибольший интерес представляют отдельные объекты, не вписывающиеся ни в один из кластеров.
Во всех этих случаях может применяться иера
Общепринятой классификации методов кластеризации не существует, но можно выделить ряд групп подходов (некоторые методы можно отнести сразу к нескольким группам и потому предлагается рассматривать данную типизацию как некоторое приближение к реальной классификации методов кластеризации).
Применение в биологии
В биологии кластеризация имеет множество приложений в самых разных областях. Например, в биоинформатике с помощью неё анализируются сложные сети взаимодействующих генов, состоящие порой из сотен или даже тысяч элементов. Кластерный анализ позволяет выделить подсети, узкие места, концентраторы и другие скрытые свойства изучаемой системы, что позволяет, в конечном счете узнать вклад каждого гена в формирование изучаемого феномена.
В области экологии широко
применяется для выделения
В общем, стоит отметить, что исторически сложилось так, что в качестве мер близости в биологии чаще используются меры сходства, а не меры различия (расстояния).