Автор работы: Пользователь скрыл имя, 03 Декабря 2013 в 19:10, реферат
• Целью данной работы является раскрытие основных свойств возможностей технологии "добычи знаний", а также рассмотрение возможностей применения технологии Data Mining на примере SAS Interprise Miner.
• Введение
• 1. Задачи Data Mining
• 1.1 Классификация задач Data Mining
• 1.2 Задача классификации и регрессии
• 1.3 Задача поиска ассоциативных правил
• 1.4 Задача кластеризации
• 2. Базовые методы Data Mining
• 2.1 Нечеткая логика
• 2.2 Генетические алгоритмы
• 2.3 Нейронные сети
• 3. Процесс Data Mining
• 4. Построение деревьев решений в системе See5
• 4.1 Подготовка данных для анализа
• 4.2 Задание начальных параметров и построение ДР
• 4.3 Анализ полученного дерева решений
• 4.4 Преобразование дерева решений в набор правил
• Заключение
Основным отличием задачи
сиквенциального анализа от поиска
ассоциативных правил является установление
отношения порядка между
1.4 Задача кластеризации
Задача кластеризации состоит в разделении исследуемого множества объектов на группы "похожих" объектов, называемых кластерами (cluster). Слово cluster переводится с английского как сгусток, пучок, группа. Часто решение задачи разбиения множества элементов на кластеры называют кластерным анализом.
Кластеризация может применяться практически в любой области, где необходимо исследование экспериментальных или статистических данных.
Для научных исследований изучение результатов кластеризации, а именно выяснение причин, по которым объекты объединяются в группы, способно открыть новые перспективные направления. Традиционным примером, который обычно приводят для этого случая, является периодическая таблица элементов. В 1869 г. Дмитрий Менделеев разделил 60 известных в то время элементов на кластеры или периоды. Элементы, попавшие в одну группу, обладали схожими характеристиками. Изучение причин, по которым элементы разбивались на явно выраженные кластеры, в значительной степени определило приоритеты научных изысканий на годы вперед. Но лишь спустя 50 лет квантовая физика дала убедительные объяснения периодической системы.
Кластеризация отличается от классификации тем, что для проведения анализа не требуется иметь выделенную зависимую переменную, поэтому она относится к классу "обучение без учителя". Эта задача решается на начальных этапах исследования, когда о данных мало что известно. Ее решение помогает лучше понять данные, и с этой точки зрения задача кластеризации является описательной.
Для задачи кластеризации характерно отсутствие каких-либо различий, как между переменными, так и между объектами. Напротив, ищутся группы наиболее близких, похожих объектов. Методы автоматического разбиения на кластеры редко используются сами по себе, а только для получения групп схожих объектов. После определения кластеров используются другие методы Data Mining, чтобы попытаться установить, что означает такое разбиение, чем оно вызвано.
Кластерный анализ позволяет
рассматривать достаточно большой
объем информации и резко сокращать,
сжимать большие массивы
2. Базовые методы Data Mining
К базовым методам Data Mining принято относить алгоритмы, основанные на переборе. Простой перебор всех исследуемых объектов требует (2N) операций, где N - количество объектов.
Следовательно, с увеличением количества данных объем вычислений растет экспоненциально, что при большом объеме делает решение любой задачи таким методом практически невозможным.
Для сокращения вычислительной
сложности в таких алгоритмах,
как правило, используют разного
вида эвристики, приводящие к сокращению
перебора. Оптимизация подобных алгоритмов
сводится к приведению зависимости
количества операций от количества исследуемых
данных к функции линейного вида.
В то же время, зависимость от количества
атрибутов, как правило, остается экспоненциальной.
При условии, что их немного (в
подавляющем большинстве
Основным достоинством данных алгоритмов является их простота, как с точки зрения понимания, так и реализации. К недостаткам можно отнести отсутствие формальной теории, на основании которой строятся такие алгоритмы, а следовательно, и сложности, связанные с их исследованием и развитием.
К базовым методам Data Mining можно отнести также и подходы, использующие элементы теории статистики. В связи с тем, что Data Mining является развитием статистики, таких методов достаточно много. Их основная идея сводится к корреляционному, регрессионному и другим видам статистического анализа. Главным недостатком является усреднение значений, что приводит к потере информативности данных. Это в свою очередь приводит к уменьшению количества добываемых знаний.
2.1 Нечеткая логика
Основным способом исследования задач анализа данных является их отображение на формализованный язык и последующий анализ полученной модели. Неопределенность по объему отсутствующей информации у системного аналитика можно разделить на три большие группы:
1. Неизвестность.
2. Неполнота (недостаточность, неадекватность).
3. Недостоверность.
Недостоверность бывает физической (источником ее является внешняя среда) и лингвистической (возникает в результате словесного обобщения и обусловливается необходимостью описания бесконечного числа ситуаций ограниченным числом слов за ограниченное время).
Выделяют два вида физической неопределенности:
1. Неточность (неточность
измерений значений
2. Случайность (или наличие
во внешней среде нескольких
возможностей, каждая из которых
случайным образом может стать
действительностью
Выделяют два вида лингвистической неопределенности:
1. Неопределенность значений слов (многозначность, расплывчатость, неясность, нечеткость). Она возникает в случае, если отображаемые одним и тем же словом объекты задачи управления различны.
2. Неоднозначность смысла фраз (выделяют синтаксическую и семантическую).
Для обработки физических
неопределенностей успешно
Основной сферой применения нечеткой логики было и во многом остается управление. Не случайно основоположником теории нечетких множеств стал известный специалист в области управления Л. Заде. Дело в том, что в исходную идею о нечеткой логике очень хорошо укладывались представления об управлении и процессах принятия решений. А поскольку подобные задачи возникают почти во всех технологических процессах, потребности в развитии данной теории и возможности ее приложения достаточно широки.
С увеличением размеров
и сложности системы
В этом случае предметом обсуждения становится нечеткость слов языка описания системы.
Человеку в процессе
управления сложными объектами свойственно
оперировать понятиями и
Нечеткая логика позволяет
удачно представить мышление человека.
В повседневной деятельности человек
никогда не пользуется формальным моделированием
на основе математических выражений, не
ищет одного универсального закона, описывающего
все окружающее. Он использует нечеткий
естественный язык. В процессе принятия
решения человек легко
Теперь определим три основные особенности нечеткой логики:
1. Правила принятия решений
являются условными
2. Вместо одного четкого
обобщенного правила нечеткая
логика оперирует со
3. Правила в виде "если...,
то... " позволяют решать задачи
классификации в режиме
Таким образом, нетрудно заметить существенные общие черты нечеткой логики и мышления человека, поэтому методы управления на основе нечеткой логики можно считать во многом эвристическими.
Эвристические приемы решения
задач основаны не на строгих математических
моделях и алгоритмах, а на соображениях
"здравого смысла". Развитием эвристических
алгоритмов обработки нечетких данных
можно считать
В общем случае можно предложить следующую схему реализации
процесса управления: распознавание > предсказание > идентификация > принятие решения > управление.
Можно показать, что все эти задачи относятся к одному классу и могут быть решены самоорганизующимися системами.
2.2 Генетические алгоритмы
Генетические алгоритмы
(ГА) относятся к числу
В последние годы резко возросло число работ, прежде всего зарубежных ученых, посвященных развитию теории ГА и вопросам их практического использования. Результаты данных исследований показывают, в частности, что ГА могут получить более широкое распространение при интеграции с другими методами и технологиями. Появились работы, в которых доказывается эффективность интеграции ГА и методов теории нечеткости, а также нейронных вычислений и систем.
Эффективность такой интеграции
нашла практическое подтверждение
в разработке соответствующих
Интеграция ГА и нейронных сетей позволяет решать проблемы поиска оптимальных значений весов входов нейронов, а интеграция ГА и нечеткой логики позволяет оптимизировать систему продукционных правил, которые могут быть использованы для управления операторами ГА (двунаправленная интеграция).
Одним из наиболее востребованных приложений ГА в области Data Mining является поиск наиболее оптимальной модели (поиск алгоритма, соответствующего специфике конкретной области). Несмотря на известные общие подходы к интеграции ГА и нечеткой логики, по-прежнему актуальна задача определения наиболее значимых параметров операционного базиса ГА с целью их адаптации в процессе работы ГА за счет использования нечеткого продукционного алгоритма (НПА).
2.3 Нейронные сети
Нейронные сети - это класс моделей, основанных на биологической аналогии с мозгом человека и предназначенных после прохождения этапа так называемого обучения на имеющихся данных для решения разнообразных задач анализа данных. При применении этих методов, прежде всего, встает вопрос выбора конкретной архитектуры сети (числа "слоев" и количества "нейронов" в каждом из них). Размер и структура сети должны соответствовать (например, в смысле формальной вычислительной сложности) существу исследуемого явления. Поскольку на начальном этапе анализа природа явления обычно известна плохо, выбор архитектуры является непростой задачей и часто связан с длительным процессом "проб и ошибок" (однако в последнее время стали появляться нейронно-сетевые программы, в которых для решения трудоемкой задачи поиска наилучшей архитектуры сети применяются методы искусственного интеллекта).