Технология Data Mining

Автор работы: Пользователь скрыл имя, 03 Декабря 2013 в 19:10, реферат

Краткое описание

• Целью данной работы является раскрытие основных свойств возможностей технологии "добычи знаний", а также рассмотрение возможностей применения технологии Data Mining на примере SAS Interprise Miner.

Содержание

• Введение
• 1. Задачи Data Mining
• 1.1 Классификация задач Data Mining
• 1.2 Задача классификации и регрессии
• 1.3 Задача поиска ассоциативных правил
• 1.4 Задача кластеризации
• 2. Базовые методы Data Mining
• 2.1 Нечеткая логика
• 2.2 Генетические алгоритмы
• 2.3 Нейронные сети
• 3. Процесс Data Mining
• 4. Построение деревьев решений в системе See5
• 4.1 Подготовка данных для анализа
• 4.2 Задание начальных параметров и построение ДР
• 4.3 Анализ полученного дерева решений
• 4.4 Преобразование дерева решений в набор правил
• Заключение

Прикрепленные файлы: 1 файл

Документ Microsoft Office Word.docx

— 52.66 Кб (Скачать документ)

Основным отличием задачи сиквенциального анализа от поиска ассоциативных правил является установление отношения порядка между исследуемыми наборами. Данное отношение может  быть определено разными способами. При анализе последовательности событий, происходящих во времени, объектами  таких наборов являются события, а отношение порядка соответствует  хронологии их появления. Сиквенциальный анализ широко используется, например в телекоммуникационных компаниях, для анализа данных об авариях  на различных узлах сети. Информация о последовательности совершения аварий может помочь в обнаружении неполадок  и предупреждении новых аварий.

1.4 Задача кластеризации

Задача кластеризации  состоит в разделении исследуемого множества объектов на группы "похожих" объектов, называемых кластерами (cluster). Слово cluster переводится с английского  как сгусток, пучок, группа. Часто  решение задачи разбиения множества  элементов на кластеры называют кластерным анализом.

Кластеризация может применяться  практически в любой области, где необходимо исследование экспериментальных  или статистических данных.

Для научных исследований изучение результатов кластеризации, а именно выяснение причин, по которым  объекты объединяются в группы, способно открыть новые перспективные  направления. Традиционным примером, который  обычно приводят для этого случая, является периодическая таблица  элементов. В 1869 г. Дмитрий Менделеев  разделил 60 известных в то время  элементов на кластеры или периоды. Элементы, попавшие в одну группу, обладали схожими характеристиками. Изучение причин, по которым элементы разбивались  на явно выраженные кластеры, в значительной степени определило приоритеты научных  изысканий на годы вперед. Но лишь спустя 50 лет квантовая физика дала убедительные объяснения периодической системы.

Кластеризация отличается от классификации тем, что для  проведения анализа не требуется  иметь выделенную зависимую переменную, поэтому она относится к классу "обучение без учителя". Эта  задача решается на начальных этапах исследования, когда о данных мало что известно. Ее решение помогает лучше понять данные, и с этой точки зрения задача кластеризации  является описательной.

Для задачи кластеризации  характерно отсутствие каких-либо различий, как между переменными, так и  между объектами. Напротив, ищутся группы наиболее близких, похожих объектов. Методы автоматического разбиения  на кластеры редко используются сами по себе, а только для получения  групп схожих объектов. После определения  кластеров используются другие методы Data Mining, чтобы попытаться установить, что означает такое разбиение, чем оно вызвано.

Кластерный анализ позволяет  рассматривать достаточно большой  объем информации и резко сокращать, сжимать большие массивы информации, делать их компактными и наглядными.

2. Базовые методы Data Mining

К базовым методам Data Mining принято относить алгоритмы, основанные на переборе. Простой перебор всех исследуемых объектов требует (2N) операций, где N - количество объектов.

Следовательно, с увеличением  количества данных объем вычислений растет экспоненциально, что при  большом объеме делает решение любой  задачи таким методом практически  невозможным.

Для сокращения вычислительной сложности в таких алгоритмах, как правило, используют разного  вида эвристики, приводящие к сокращению перебора. Оптимизация подобных алгоритмов сводится к приведению зависимости  количества операций от количества исследуемых  данных к функции линейного вида. В то же время, зависимость от количества атрибутов, как правило, остается экспоненциальной. При условии, что их немного (в  подавляющем большинстве случаев  их значительно меньше, чем данных), такая зависимость является приемлемой.

Основным достоинством данных алгоритмов является их простота, как с точки зрения понимания, так и реализации. К недостаткам  можно отнести отсутствие формальной теории, на основании которой строятся такие алгоритмы, а следовательно, и сложности, связанные с их исследованием  и развитием.

К базовым методам Data Mining можно отнести также и подходы, использующие элементы теории статистики. В связи с тем, что Data Mining является развитием статистики, таких методов  достаточно много. Их основная идея сводится к корреляционному, регрессионному и другим видам статистического  анализа. Главным недостатком является усреднение значений, что приводит к потере информативности данных. Это в свою очередь приводит к  уменьшению количества добываемых знаний.

2.1 Нечеткая логика

Основным способом исследования задач анализа данных является их отображение на формализованный  язык и последующий анализ полученной модели. Неопределенность по объему отсутствующей  информации у системного аналитика  можно разделить на три большие  группы:

1. Неизвестность.

2. Неполнота (недостаточность,  неадекватность).

3. Недостоверность.

Недостоверность бывает физической (источником ее является внешняя среда) и лингвистической (возникает в  результате словесного обобщения и  обусловливается необходимостью описания бесконечного числа ситуаций ограниченным числом слов за ограниченное время).

Выделяют два вида физической неопределенности:

1. Неточность (неточность  измерений значений определенной  величины, выполняемых физическими  приборами).

2. Случайность (или наличие  во внешней среде нескольких  возможностей, каждая из которых  случайным образом может стать  действительностью предполагается  знание соответствующего закона  распределения вероятностей).

Выделяют два вида лингвистической  неопределенности:

1. Неопределенность значений  слов (многозначность, расплывчатость, неясность, нечеткость). Она возникает  в случае, если отображаемые одним  и тем же словом объекты  задачи управления различны.

2. Неоднозначность смысла  фраз (выделяют синтаксическую и  семантическую).

Для обработки физических неопределенностей успешно используются методы теории вероятностей и классическая теория множеств. Однако с развитием  систем, использующих методы теории искусственного интеллекта, в которых требуется  обрабатывать понятия и отношения  естественного языка, возникла необходимость  расширения множества формальных методов  с целью учета лингвистической  неопределенности задач.

Основной сферой применения нечеткой логики было и во многом остается управление. Не случайно основоположником теории нечетких множеств стал известный  специалист в области управления Л. Заде. Дело в том, что в исходную идею о нечеткой логике очень хорошо укладывались представления об управлении и процессах принятия решений. А  поскольку подобные задачи возникают  почти во всех технологических процессах, потребности в развитии данной теории и возможности ее приложения достаточно широки.

С увеличением размеров и сложности системы существенно  усложняется ее моделирование с  помощью известных математических выражений. Это связано с увеличением  числа переменных и параметров, повышением сложности измерения отдельных  переменных. В результате, создание адекватной модели становится практически  невозможным. Вместо этого Л. Заде предложил  лингвистическую модель, которая  использует не математические выражения, а слова, отражающие качество. Применение словесной модели не обеспечивает точность, аналогичную математическому моделированию, однако создание хорошей, качественной модели возможно.

В этом случае предметом  обсуждения становится нечеткость слов языка описания системы.

Человеку в процессе управления сложными объектами свойственно  оперировать понятиями и отношениями  с расплывчатыми границами. Источником расплывчатости является существование  классов объектов степень принадлежности к которым - величина, непрерывно изменяющаяся от полной принадлежности к нему до полной непринадлежности. Обычное математическое понятие множества, основанное на бинарной характеристической функции, не позволяет  формализовать такое описание. Введение Л. Заде двух основных исходных понятий - нечеткого множества и лингвистической  переменной - существенно расширило  возможности формализации описаний подобных сложных систем. Такие модели стали называться лингвистическими.

Нечеткая логика позволяет  удачно представить мышление человека. В повседневной деятельности человек  никогда не пользуется формальным моделированием на основе математических выражений, не ищет одного универсального закона, описывающего все окружающее. Он использует нечеткий естественный язык. В процессе принятия решения человек легко овладевает ситуацией, разделяя ее на события, находит  решение сложных проблем, применяя для отдельных событий соответствующие, по опыту, правила принятия решений, используя при этом большое количество иногда даже противоречивых качественных критериев. Таким образом, перед  человеком возникает ряд локальных  моделей, описывающих свойства фрагментов объектов в определенных условиях. Крайне важным является то, что все  модели обладают некой общностью  и очень просты для понимания  на качественном уровне. Ярким примером каркаса подобной словесной модели является конструкция "если..., то... ".

Теперь определим три  основные особенности нечеткой логики:

1. Правила принятия решений  являются условными высказываниями  типа "если..., то... " и реализуются  с помощью механизма логического  вывода.

2. Вместо одного четкого  обобщенного правила нечеткая  логика оперирует со множеством  частных правил. При этом для  каждой локальной области распределенного  информационного пространства, для  каждой регулируемой величины, для  каждой цели управления задаются  свои правила. Это позволяет  отказываться от трудоемкого  процесса свертки целей и получения  обобщенного целевого критерия, что, в свою очередь, дает  возможность оперировать даже  с противоположными целями.

3. Правила в виде "если..., то... " позволяют решать задачи  классификации в режиме диалога  с оператором, что способствует  повышению качества классификатора  уже в процессе эксплуатации.

Таким образом, нетрудно заметить существенные общие черты нечеткой логики и мышления человека, поэтому  методы управления на основе нечеткой логики можно считать во многом эвристическими.

Эвристические приемы решения  задач основаны не на строгих математических моделях и алгоритмах, а на соображениях "здравого смысла". Развитием эвристических  алгоритмов обработки нечетких данных можно считать самоорганизующиеся системы. В любом случае исходным ядром последних является обработка  нечеткостей, а следовательно, используются принципы мышления человека. Однако самоорганизующиеся системы идут дальше и начинают развиваться, настраиваться на объект, в определенном смысле, самостоятельно, используя  получаемую в процессе работы информацию об объекте управления.

В общем случае можно  предложить следующую схему реализации

процесса управления: распознавание > предсказание > идентификация > принятие решения > управление.

Можно показать, что все  эти задачи относятся к одному классу и могут быть решены самоорганизующимися  системами.

2.2 Генетические алгоритмы

Генетические алгоритмы (ГА) относятся к числу универсальных  методов оптимизации, позволяющих  решать задачи различных типов (комбинаторные, общие задачи с ограничениями  и без ограничений) и различной  степени сложности. При этом ГА характеризуются возможностью как однокритериального, так и многокритериального поиска в большом пространстве, ландшафт которого является негладким.

В последние годы резко  возросло число работ, прежде всего  зарубежных ученых, посвященных развитию теории ГА и вопросам их практического  использования. Результаты данных исследований показывают, в частности, что ГА могут  получить более широкое распространение  при интеграции с другими методами и технологиями. Появились работы, в которых доказывается эффективность  интеграции ГА и методов теории нечеткости, а также нейронных вычислений и систем.

Эффективность такой интеграции нашла практическое подтверждение  в разработке соответствующих инструментальных средств (ИС). Так, фирма Attar Software включила ГА-компонент, ориентированный на решение  задач оптимизации, в свои ИС, предназначенные  для разработки экспертной системы. Фирма California Scientific Software связала ИС для  нейронных сетей с ГА-компонентами, обеспечивающими автоматическую генерацию  и настройку нейронной сети. Фирма NIBS Inc. включила в свои ИС для нейронных  сетей, ориентированные на прогнозирование  рынка ценных бумаг, ГА-компоненты, которые, по мнению финансовых экспертов, позволяют уточнять прогнозирование.

Интеграция ГА и нейронных  сетей позволяет решать проблемы поиска оптимальных значений весов  входов нейронов, а интеграция ГА и  нечеткой логики позволяет оптимизировать систему продукционных правил, которые  могут быть использованы для управления операторами ГА (двунаправленная  интеграция).

Одним из наиболее востребованных приложений ГА в области Data Mining является поиск наиболее оптимальной модели (поиск алгоритма, соответствующего специфике конкретной области). Несмотря на известные общие подходы к  интеграции ГА и нечеткой логики, по-прежнему актуальна задача определения наиболее значимых параметров операционного  базиса ГА с целью их адаптации  в процессе работы ГА за счет использования  нечеткого продукционного алгоритма (НПА).

2.3 Нейронные сети

Нейронные сети - это класс  моделей, основанных на биологической  аналогии с мозгом человека и предназначенных  после прохождения этапа так  называемого обучения на имеющихся  данных для решения разнообразных  задач анализа данных. При применении этих методов, прежде всего, встает вопрос выбора конкретной архитектуры сети (числа "слоев" и количества "нейронов" в каждом из них). Размер и структура  сети должны соответствовать (например, в смысле формальной вычислительной сложности) существу исследуемого явления. Поскольку на начальном этапе  анализа природа явления обычно известна плохо, выбор архитектуры  является непростой задачей и  часто связан с длительным процессом "проб и ошибок" (однако в последнее  время стали появляться нейронно-сетевые  программы, в которых для решения  трудоемкой задачи поиска наилучшей  архитектуры сети применяются методы искусственного интеллекта).

Информация о работе Технология Data Mining