Технология Data Mining

Автор работы: Пользователь скрыл имя, 03 Декабря 2013 в 19:10, реферат

Краткое описание

• Целью данной работы является раскрытие основных свойств возможностей технологии "добычи знаний", а также рассмотрение возможностей применения технологии Data Mining на примере SAS Interprise Miner.

Содержание

• Введение
• 1. Задачи Data Mining
• 1.1 Классификация задач Data Mining
• 1.2 Задача классификации и регрессии
• 1.3 Задача поиска ассоциативных правил
• 1.4 Задача кластеризации
• 2. Базовые методы Data Mining
• 2.1 Нечеткая логика
• 2.2 Генетические алгоритмы
• 2.3 Нейронные сети
• 3. Процесс Data Mining
• 4. Построение деревьев решений в системе See5
• 4.1 Подготовка данных для анализа
• 4.2 Задание начальных параметров и построение ДР
• 4.3 Анализ полученного дерева решений
• 4.4 Преобразование дерева решений в набор правил
• Заключение

Прикрепленные файлы: 1 файл

Документ Microsoft Office Word.docx

— 52.66 Кб (Скачать документ)
  • Введение
  • 1. Задачи Data Mining
  • 1.1 Классификация задач Data Mining
  • 1.2 Задача классификации и регрессии
  • 1.3 Задача поиска ассоциативных правил
  • 1.4 Задача кластеризации
  • 2. Базовые методы Data Mining
  • 2.1 Нечеткая логика
  • 2.2 Генетические алгоритмы
  • 2.3 Нейронные сети
  • 3. Процесс Data Mining
  • 4. Построение деревьев решений в системе See5
  • 4.1 Подготовка данных для анализа
  • 4.2 Задание начальных параметров и построение ДР
  • 4.3 Анализ полученного дерева решений
  • 4.4 Преобразование дерева решений в набор правил
  • Заключение
  • Введение
  • Data Mining буквально в переводе с английского означает "данные, факты, сведения, информация", и "добыча полезных ископаемых".
  • Область Data Mining началась с семинара, проведенного Григорием Пятецким-Шапиро в 1989 году Интервью Григория Пятецкого-Шапиро "Великие раскопки и великие вызовы" в журнале "Компьютерра"№ 11(679) 2007.. Изначально, задача ставилась следующим образом: имеется достаточно крупная база данных, предполагается, что в базе данных находятся некие "скрытые знания", необходимо разработать методы обнаружения знаний, скрытых в больших объёмах исходных "сырых" данных. Тогда же был предложен термин Data Mining как собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.
  • Основу методов Data Mining составляют:
  • методы классификации, моделирования и прогнозирования, основанные на применении деревьев решений, искусственных нейронных сетей, генетических алгоритмов, эволюционного программирования, ассоциативной памяти, нечёткой логики;
  • статистические методы - дескриптивный анализ, корреляционный и регрессионный анализ, факторный анализ, дисперсионный анализ, компонентный анализ, дискриминантный анализ, анализ временных рядов.
  • Одно из важнейших назначений методов Data Mining состоит в наглядном представлении результатов вычислений, что позволяет использовать инструментарий Data Mining людьми, не имеющих специальной математической подготовки. В то же время, применение статистических методов анализа данных требует хорошего владения теорией вероятностей и математической статистикой.
  • Возникновение и развитие Data Mining обусловлено различными факторами, назовем основные:
  • - совершенствование аппаратного и программного обеспечения;
  • - совершенствование технологий хранения и записи данных;
  • - накопление большого количества ретроспективных данных;
  • - совершенствование алгоритмов обработки информации.
  • Итак, Data Mining - это процесс поддержки принятия решений, основанный на поиске в данных скрытых закономерностей (шаблонов информации). Суть и цель технологии Data Mining можно охарактеризовать как технологию, которая предназначена для поиска в больших объемах данных неочевидных, объективных и полезных на практике закономерностей.
  • Целью данной работы является раскрытие основных свойств возможностей технологии "добычи знаний", а также рассмотрение возможностей применения технологии Data Mining на примере SAS Interprise Miner.

1. Задачи Data Mining

1.1 Классификация задач  Data Mining

Основу технологии Data Mining составляет концепция шаблонов, представляющих собой закономерности. Различным  типам закономерностей, соответствуют  определенные задачи Data Mining:

- классификация,

- кластеризация,

- прогнозирование,

- ассоциация,

- визуализация,

- анализ и обнаружение  отклонений,

- оценивание,

- анализ связей,

- подведение итогов.

Задача классификации. В результате решения задачи классификации обнаруживаются признаки, которые характеризуют группы объектов исследуемого набора данных - классы; по этим признакам новый объект можно отнести к тому или иному классу. Для решения задачи классификации могут использоваться методы: ближайшего соседа; k-ближайшего соседа; байесовские сети; индукция деревьев решений; нейронные сети.

Кластеризация. Особенность  кластеризации заключается в  том, что классы объектов изначально не предопределены. Результатом кластеризации  является разбиение объектов на группы. Пример метода решения задачи кластеризации: обучение "без учителя" особого  вида нейронных сетей - самоорганизующихся карт Кохонена.

В ходе решения задачи поиска ассоциативных правил отыскиваются закономерности между связанными событиями  в наборе данных. Отличие ассоциации от двух предыдущих задач Data Mining: поиск  закономерностей осуществляется не на основе свойств анализируемого объекта, а между несколькими событиями, которые происходят одновременно. Наиболее известный алгоритм решения задачи поиска ассоциативных правил - алгоритм Apriori. Последовательность позволяет  найти временные закономерности между транзакциями. Задача последовательности подобна ассоциации, но ее целью  является установление закономерностей  не между одновременно наступающими событиями, а между событиями, связанными во времени (т.е. происходящими с  некоторым определенным интервалом во времени). Другими словами, последовательность определяется высокой вероятностью цепочки связанных во времени  событий. Фактически, ассоциация является частным случаем последовательности с временным лагом Временной  лаг (time lag). В реальной экономике  и в экономических моделях  задержка, в связи с возникновением определенных событий после совершения действий, которые, как полагают, их вызвали., равным нулю.

В результате решения задачи прогнозирования на основе особенностей исторических данных оцениваются пропущенные  или же будущие значения целевых  численных показателей. Для решения  таких задач широко применяются  методы математической статистики, нейронные  сети и др.

Цель решения задачи определения отклонений или выбросов, анализ отклонений или выбросов - обнаружение  и анализ данных, наиболее отличающихся от общего множества данных, выявление  так называемых нехарактерных шаблонов.

Задача оценивания сводится к предсказанию непрерывных значений признака.

Анализ связей - задача нахождения зависимостей в наборе данных.

В результате визуализации создается графический образ  анализируемых данных. Для решения  задачи визуализации используются графические  методы, показывающие наличие закономерностей  в данных. Пример методов визуализации - представление данных в 2-D и 3-D измерениях.

Подведение итогов - задача, цель которой - описание конкретных групп  объектов из анализируемого набора данных.

Перечисленные задачи по назначению делятся на описательные и предсказательные.

Описательные (descriptive) задачи уделяют внимание улучшению понимания  анализируемых данных. Ключевой момент в таких моделях - легкость и прозрачность результатов для восприятия человеком. Возможно, обнаруженные закономерности будут специфической чертой именно конкретных исследуемых данных и  больше нигде не встретятся, но это  все равно может быть полезно  и потому должно быть известно. К  такому виду задач относятся кластеризация  и поиск ассоциативных правил.

Решение предсказательных (predictive) задач разбивается на два  этапа. На первом этапе на основании  набора данных с известными результатами строится модель. На втором этапе она  используется для предсказания результатов  на основании новых наборов данных. При этом, естественно, требуется, чтобы  построенные модели работали максимально  точно. К данному виду задач относят  задачи классификации и регрессии. Сюда можно отнести и задачу поиска ассоциативных правил, если результаты ее решения могут быть использованы для предсказания появления некоторых событий.

По способам решения  задачи разделяют на "обучение с  учителем" и "обучение без учителя". Такое название появилось при  разработке алгоритмов искусственного интеллекта, в частности Machine Learning (машинное обучение).

В случае "обучения с  учителем" задача анализа данных решается в несколько этапов. Сначала  строится модель анализируемых данных - классификатор. Затем классификатор  подвергается обучению. Другими словами, проверяется качество его работы, и, если оно неудовлетворительное, происходит дополнительное обучение классификатора. Так продолжается до тех пор, пока не будет достигнут требуемый  уровень качества или не станет ясно, что выбранный алгоритм не работает корректно с данными, либо же сами данные не имеют структуры, которую  можно выявить. К этому типу задач  относят задачи классификации и  регрессии.

"Обучение без учителя"  объединяет задачи, выявляющие описательные  модели, например закономерности  в покупках, совершаемых клиентами  большого магазина. Очевидно, что  если эти закономерности есть, то модель должна их представить  и неуместно говорить об ее  обучении. Достоинством таких задач  является возможность их решения  без каких-либо предварительных  знаний об анализируемых данных. К этим задачам относятся кластеризация  и поиск ассоциативных правил.

1.2 Задача классификации  и регрессии

данные алгоритм визуализация ассоциация

При анализе часто требуется  определить, к какому из известных  классов относятся исследуемые  объекты, т. е. классифицировать их.

Примером задачи классификации  является фильтрация электронной почты. Программа фильтрации должна классифицировать входящее сообщение как спам или  как письмо. Данное решение принимается  на основании частоты появления  в сообщении определенных слов (например, имени получателя, безличного обращения, слов и словосочетаний: "приобрести", "заработать", "выгодное предложение" и т. п.).

В общем случае количество классов в задачах классификации  может быть более двух. Например, в задаче распознавания образа цифр таких классов может быть 10 (по количеству цифр в десятичной системе  счисления). В такой задаче объектом классификации является матрица  пикселов, представляющая образ распознаваемой цифры.

В Data Mining задачу классификации  рассматривают как задачу определения  значения одного из параметров анализируемого объекта на основании значений других параметров. Определяемый параметр часто  называют зависимой переменной, а  параметры, участвующие в его  определении, - независимыми переменными. В рассмотренных примерах независимыми переменными являлись: частота появления  определенных слов; значения цвета  пикселов матрицы.

Зависимыми переменными  в этом примере являлись соответственно: тип сообщения (возможные значения этой переменной - "spam" и "mail"); цифра образа (возможные значения этой переменной - 0, 1, ..., 9).

Необходимо обратить внимание на то, что во всех рассмотренных  примерах независимая переменная принимала  значение из конечного множества  значений: {"spam", "mail"}, {0, 1, ..., 9}. Если значениями независимых и  зависимой переменных являются действительные числа, то задача называется задачей  регрессии.

Задача классификации  и регрессии решается в два  этапа. На первом выделяется обучающая  выборка. В нее входят объекты, для  которых известны значения как независимых, так и зависимых переменных. В  описанных ранее примерах такими обучающими выборками могут быть: сообщения, классифицированные вручную  как спам или как письмо; распознанные ранее матрицы образов цифр.

На основании обучающей  выборки строится модель определения  значения зависимой переменной. Ее часто называют функцией классификации  или регрессии. Для получения  максимально точной функции к  обучающей выборке предъявляются  следующие основные требования:

- количество объектов, входящих  в выборку, должно быть достаточно  большим;

- в выборку должны  входить объекты, представляющие  все возможные классы в случае  задачи классификации или всю  область значений в случае  задачи регрессии;

- для каждого класса  в задаче классификации или  для каждого интервала области  значений в задаче регрессии  выборка должна содержать достаточное  количество объектов.

На втором этапе построенную  модель применяют к анализируемым  объектам (к объектам с неопределенным значением зависимой переменной).

Основные проблемы, с  которыми сталкиваются при решении  задач классификации и регрессии, - это неудовлетворительное качество исходных данных, в которых встречаются  как ошибочные данные, так и  пропущенные значения, различные  типы атрибутов - числовые и категорические, разная значимость атрибутов, а также  так называемые проблемы overfitting и underfitting. Суть первой из них, заключается в  том, что классификационная функция  при построении "слишком хорошо" адаптируется к данным и встре- чающиеся в них ошибки и аномальные значения пытается интерпретировать как часть  внутренней структуры данных. Очевидно, что в дальнейшем такая модель будет некорректно работать с  другими данными, где характер ошибок будет несколько иной. Термином underfitting обозначают ситуацию, когда слишком  велико количество ошибок при проверке классификатора на обучающем множестве. Это означает, что особых закономерностей  в данных не было обнаружено, и либо их нет вообще, либо необходимо выбрать  иной метод их обнаружения.

1.3 Задача поиска ассоциативных  правил

Суть задачи поиска ассоциативных  правил заключается в определении  часто встречающихся наборов  объектов в большом множестве  таких наборов. Данная задача является частным случаем задачи классификации. Первоначально она решалась при  анализе тенденций в поведении  покупателей в супермаркетах. Анализу  подвергались данные о совершаемых  ими покупках - продуктах, которые  покупатели складывают в тележку (корзину). Это послужило причиной второго  часто встречающегося названия - анализ рыночных корзин. При анализе этих данных интерес прежде всего представляет информация о том, какие товары покупаются вместе, в какой последовательности, какие категории потребителей какие  товары предпочитают, в какие периоды  времени и т. п. Такая информация позволяет более эффективно планировать  закупку товаров, проведение рекламной  кампании и т. д.

При анализе часто вызывает интерес последовательность происходящих событий. При обнаружении закономерностей  в таких последовательностях  можно с некоторой долей вероятности  предсказывать появление событий  в будущем, что позволяет принимать  более правильные решения. Такая  задача является разновидностью задачи поиск ассоциативных правил и  называется сиквенциальным анализом.

Информация о работе Технология Data Mining