Автор работы: Пользователь скрыл имя, 03 Декабря 2013 в 19:10, реферат
• Целью данной работы является раскрытие основных свойств возможностей технологии "добычи знаний", а также рассмотрение возможностей применения технологии Data Mining на примере SAS Interprise Miner.
• Введение
• 1. Задачи Data Mining
• 1.1 Классификация задач Data Mining
• 1.2 Задача классификации и регрессии
• 1.3 Задача поиска ассоциативных правил
• 1.4 Задача кластеризации
• 2. Базовые методы Data Mining
• 2.1 Нечеткая логика
• 2.2 Генетические алгоритмы
• 2.3 Нейронные сети
• 3. Процесс Data Mining
• 4. Построение деревьев решений в системе See5
• 4.1 Подготовка данных для анализа
• 4.2 Задание начальных параметров и построение ДР
• 4.3 Анализ полученного дерева решений
• 4.4 Преобразование дерева решений в набор правил
• Заключение
1. Задачи Data Mining
1.1 Классификация задач Data Mining
Основу технологии Data Mining составляет концепция шаблонов, представляющих собой закономерности. Различным типам закономерностей, соответствуют определенные задачи Data Mining:
- классификация,
- кластеризация,
- прогнозирование,
- ассоциация,
- визуализация,
- анализ и обнаружение отклонений,
- оценивание,
- анализ связей,
- подведение итогов.
Задача классификации. В результате решения задачи классификации обнаруживаются признаки, которые характеризуют группы объектов исследуемого набора данных - классы; по этим признакам новый объект можно отнести к тому или иному классу. Для решения задачи классификации могут использоваться методы: ближайшего соседа; k-ближайшего соседа; байесовские сети; индукция деревьев решений; нейронные сети.
Кластеризация. Особенность кластеризации заключается в том, что классы объектов изначально не предопределены. Результатом кластеризации является разбиение объектов на группы. Пример метода решения задачи кластеризации: обучение "без учителя" особого вида нейронных сетей - самоорганизующихся карт Кохонена.
В ходе решения задачи поиска
ассоциативных правил отыскиваются
закономерности между связанными событиями
в наборе данных. Отличие ассоциации
от двух предыдущих задач Data Mining: поиск
закономерностей осуществляется не
на основе свойств анализируемого объекта,
а между несколькими событиями,
которые происходят одновременно. Наиболее
известный алгоритм решения задачи
поиска ассоциативных правил - алгоритм
Apriori. Последовательность позволяет
найти временные закономерности
между транзакциями. Задача последовательности
подобна ассоциации, но ее целью
является установление закономерностей
не между одновременно наступающими
событиями, а между событиями, связанными
во времени (т.е. происходящими с
некоторым определенным интервалом
во времени). Другими словами, последовательность
определяется высокой вероятностью
цепочки связанных во времени
событий. Фактически, ассоциация является
частным случаем
В результате решения задачи прогнозирования на основе особенностей исторических данных оцениваются пропущенные или же будущие значения целевых численных показателей. Для решения таких задач широко применяются методы математической статистики, нейронные сети и др.
Цель решения задачи определения отклонений или выбросов, анализ отклонений или выбросов - обнаружение и анализ данных, наиболее отличающихся от общего множества данных, выявление так называемых нехарактерных шаблонов.
Задача оценивания сводится к предсказанию непрерывных значений признака.
Анализ связей - задача нахождения зависимостей в наборе данных.
В результате визуализации создается графический образ анализируемых данных. Для решения задачи визуализации используются графические методы, показывающие наличие закономерностей в данных. Пример методов визуализации - представление данных в 2-D и 3-D измерениях.
Подведение итогов - задача, цель которой - описание конкретных групп объектов из анализируемого набора данных.
Перечисленные задачи по назначению делятся на описательные и предсказательные.
Описательные (descriptive) задачи уделяют внимание улучшению понимания анализируемых данных. Ключевой момент в таких моделях - легкость и прозрачность результатов для восприятия человеком. Возможно, обнаруженные закономерности будут специфической чертой именно конкретных исследуемых данных и больше нигде не встретятся, но это все равно может быть полезно и потому должно быть известно. К такому виду задач относятся кластеризация и поиск ассоциативных правил.
Решение предсказательных
(predictive) задач разбивается на два
этапа. На первом этапе на основании
набора данных с известными результатами
строится модель. На втором этапе она
используется для предсказания результатов
на основании новых наборов
По способам решения задачи разделяют на "обучение с учителем" и "обучение без учителя". Такое название появилось при разработке алгоритмов искусственного интеллекта, в частности Machine Learning (машинное обучение).
В случае "обучения с учителем" задача анализа данных решается в несколько этапов. Сначала строится модель анализируемых данных - классификатор. Затем классификатор подвергается обучению. Другими словами, проверяется качество его работы, и, если оно неудовлетворительное, происходит дополнительное обучение классификатора. Так продолжается до тех пор, пока не будет достигнут требуемый уровень качества или не станет ясно, что выбранный алгоритм не работает корректно с данными, либо же сами данные не имеют структуры, которую можно выявить. К этому типу задач относят задачи классификации и регрессии.
"Обучение без учителя"
объединяет задачи, выявляющие описательные
модели, например закономерности
в покупках, совершаемых клиентами
большого магазина. Очевидно, что
если эти закономерности есть,
то модель должна их
1.2 Задача классификации и регрессии
данные алгоритм визуализация ассоциация
При анализе часто требуется определить, к какому из известных классов относятся исследуемые объекты, т. е. классифицировать их.
Примером задачи классификации является фильтрация электронной почты. Программа фильтрации должна классифицировать входящее сообщение как спам или как письмо. Данное решение принимается на основании частоты появления в сообщении определенных слов (например, имени получателя, безличного обращения, слов и словосочетаний: "приобрести", "заработать", "выгодное предложение" и т. п.).
В общем случае количество
классов в задачах
В Data Mining задачу классификации рассматривают как задачу определения значения одного из параметров анализируемого объекта на основании значений других параметров. Определяемый параметр часто называют зависимой переменной, а параметры, участвующие в его определении, - независимыми переменными. В рассмотренных примерах независимыми переменными являлись: частота появления определенных слов; значения цвета пикселов матрицы.
Зависимыми переменными в этом примере являлись соответственно: тип сообщения (возможные значения этой переменной - "spam" и "mail"); цифра образа (возможные значения этой переменной - 0, 1, ..., 9).
Необходимо обратить внимание на то, что во всех рассмотренных примерах независимая переменная принимала значение из конечного множества значений: {"spam", "mail"}, {0, 1, ..., 9}. Если значениями независимых и зависимой переменных являются действительные числа, то задача называется задачей регрессии.
Задача классификации и регрессии решается в два этапа. На первом выделяется обучающая выборка. В нее входят объекты, для которых известны значения как независимых, так и зависимых переменных. В описанных ранее примерах такими обучающими выборками могут быть: сообщения, классифицированные вручную как спам или как письмо; распознанные ранее матрицы образов цифр.
На основании обучающей
выборки строится модель определения
значения зависимой переменной. Ее
часто называют функцией классификации
или регрессии. Для получения
максимально точной функции к
обучающей выборке
- количество объектов, входящих
в выборку, должно быть
- в выборку должны
входить объекты,
- для каждого класса
в задаче классификации или
для каждого интервала области
значений в задаче регрессии
выборка должна содержать
На втором этапе построенную
модель применяют к анализируемым
объектам (к объектам с неопределенным
значением зависимой
Основные проблемы, с
которыми сталкиваются при решении
задач классификации и
1.3 Задача поиска ассоциативных правил
Суть задачи поиска ассоциативных правил заключается в определении часто встречающихся наборов объектов в большом множестве таких наборов. Данная задача является частным случаем задачи классификации. Первоначально она решалась при анализе тенденций в поведении покупателей в супермаркетах. Анализу подвергались данные о совершаемых ими покупках - продуктах, которые покупатели складывают в тележку (корзину). Это послужило причиной второго часто встречающегося названия - анализ рыночных корзин. При анализе этих данных интерес прежде всего представляет информация о том, какие товары покупаются вместе, в какой последовательности, какие категории потребителей какие товары предпочитают, в какие периоды времени и т. п. Такая информация позволяет более эффективно планировать закупку товаров, проведение рекламной кампании и т. д.
При анализе часто вызывает
интерес последовательность происходящих
событий. При обнаружении