Автор работы: Пользователь скрыл имя, 25 Ноября 2013 в 08:39, курсовая работа
Возникновение и развитие Data Mining обусловлено различными факторами, назовем основные:
- совершенствование аппаратного и программного обеспечения;
- совершенствование технологий хранения и записи данных;
- накопление большого количества ретроспективных данных;
- совершенствование алгоритмов обработки информации.
ВВЕДЕНИЕ 2
1. Задачи Data Mining 4
1.1. Классификация задач Data Mining 8
1.2. Задача классификации и регрессии 12
1.3. Задача поиска ассоциативных правил 14
1.4. Задача кластеризации 15
2. Базовые методы Data Mining 18
2.1. Нечеткая логика 19
2.2. Генетические алгоритмы 21
2.3. Нейронные сети 22
3. Процесс Data Mining.
3.1. Этапы Data Mining 24
4. Сферы применения Data Mining 25
4.1. Text Mining 27
4.2. Web Mining 28
5. АНАЛИЗ SAS Enterprise Miner 29
ЗАКЛЮЧЕНИЕ 31
СПИСОК ЛИТЕРАТУРЫ 35
АЛМАТИНСКИЙ УНИВЕРСИТЕТ ЭНЕРГЕТИКИ И СВЯЗИ
ФАКУЛЬТЕТ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИИ
№1 Расчетно-графическая работа магистранта
по дисциплине
МАТЕМАТИЧЕСКИЕ МОДЕЛИ ИНФОРМАЦИОННЫХ СИСТЕМ
Тема: Технология Data Mining
Специальность: Информационные системы
Выполнил: Исмайлов Айдар
Группа: МИСн-12
Руководитель: доцент Ни А.Г.
_________________ «_________» __________________
Алматы,2013 г.
Оглавление
ВВЕДЕНИЕ 2
1. Задачи Data Mining 4
1.1. Классификация задач Data Mining 8
1.2. Задача классификации и регрессии 12
1.3. Задача поиска ассоциативных правил 14
1.4. Задача кластеризации 15
2. Базовые методы Data Mining 18
2.1. Нечеткая логика 19
2.2. Генетические алгоритмы 21
2.3. Нейронные сети 22
3. Процесс Data Mining.
3.1. Этапы Data Mining 24
4. Сферы применения Data Mining 25
4.1. Text Mining 27
4.2. Web Mining 28
5. АНАЛИЗ SAS Enterprise Miner 29
ЗАКЛЮЧЕНИЕ 31
СПИСОК ЛИТЕРАТУРЫ 35
Data Mining буквально в переводе с английского означает «данные, факты, сведения, информация», и «добыча полезных ископаемых».
Область Data Mining началась с семинара, проведёного Григорием Пятецким-Шапиро в 1989 году1. Изначально, задача ставилась следующим образом: имеется достаточно крупная база данных, предполагается, что в базе данных находятся некие «скрытые знания», необходимо разработать методы обнаружения знаний, скрытых в больших объёмах исходных «сырых» данных. Тогда же был предложен термин Data Mining как обирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.
Основу методов Data Mining составляют:
методы классификации, моделирования и прогнозирования, основанные на применении деревьев решений, искусственных нейронных сетей, генетических алгоритмов, эволюционного программирования, ассоциативной памяти, нечёткой логики;
статистические методы - дескриптивный анализ, корреляционный и регрессионный анализ, факторный анализ, дисперсионный анализ, компонентный анализ, дискриминантный анализ, анализ временных рядов.
Одно из важнейших назначений методов Data Mining состоит в наглядном представлении результатов вычислений, что позволяет использовать инструментарий Data Mining людьми, не имеющих специальной математической подготовки. В то же время, применение статистических методов анализа данных требует хорошего владения теорией вероятностей и математической статистикой.
Возникновение и развитие Data Mining обусловлено различными факторами, назовем основные:
- совершенствование аппаратного и программного обеспечения;
- совершенствование технологий хранения и записи данных;
- накопление большого количества ретроспективных данных;
- совершенствование алгоритмов обработки информации.
Итак, Data Mining - это процесс поддержки принятия решений, основанный на поиске в данных скрытых закономерностей (шаблонов информации). Суть и цель технологии Data Mining можно охарактеризовать как технологию, которая предназначена для поиска в больших объемах данных неочевидных, объективных и полезных на практике закономерностей.
Целью данной работы является раскрытие основных свойств возможностей технологии «добычи знаний», а также рассмотрение возможностей применения технологии Data Mining на примере SAS Interprise Miner.
Основу технологии Data Mining составляет концепция шаблонов, представляющих собой закономерности. Различным типам закономерностей, соответствуют определенные задачи Data Mining:
- классификация,
- кластеризация,
- прогнозирование,
- ассоциация,
- визуализация,
- анализ и обнаружение отклонений,
- оценивание,
- анализ связей,
- подведение итогов.
Задача классификации. В результате решения задачи классификации обнаруживаются признаки, которые характеризуют группы объектов исследуемого набора данных - классы; по этим признакам новый объект можно отнести к тому или иному классу. Для решения задачи классификации могут использоваться методы: ближайшего соседа; k-ближайшего соседа; байесовские сети; индукция деревьев решений; нейронные сети.
Кластеризация. Особенность кластеризации заключается в том, что классы объектов изначально не предопределены. Результатом кластеризации является разбиение объектов на группы. Пример метода решения задачи кластеризации: обучение "без учителя" особого вида нейронных сетей - самоорганизующихся карт Кохонена.
В ходе решения задачи поиска ассоциативных правил отыскиваются закономерности между связанными событиями в наборе данных. Отличие ассоциации от двух предыдущих задач Data Mining: поиск закономерностей осуществляется не на основе свойств анализируемого объекта, а между несколькими событиями, которые происходят одновременно. Наиболее известный алгоритм решения задачи поиска ассоциативных правил – алгоритм Apriori. Последовательность позволяет найти временные закономерности между транзакциями. Задача последовательности подобна ассоциации, но ее целью является установление закономерностей не между одновременно наступающими событиями, а между событиями, связанными во времени (т.е. происходящими с некоторым определенным интервалом во времени). Другими словами, последовательность определяется высокой вероятностью цепочки связанных во времени событий. Фактически, ассоциация является частным случаем последовательности с временным лагом2, равным нулю.
В результате решения задачи прогнозирования на основе особенностей
исторических данных оцениваются пропущенные или же будущие значения целевых численных показателей. Для решения таких задач широко применяются методы математической статистики, нейронные сети и др.
Цель решения задачи определения отклонений или выбросов, анализ отклонений или выбросов - обнаружение и анализ данных, наиболее отличающихся от общего множества данных, выявление так называемых нехарактерных шаблонов.
Задача оценивания сводится к предсказанию непрерывных значений признака.
Анализ связей - задача нахождения зависимостей в наборе данных.
В результате визуализации создается графический образ анализируемых данных. Для решения задачи визуализации используются графические методы, показывающие наличие закономерностей в данных. Пример методов визуализации - представление данных в 2-D и 3-D измерениях.
Подведение итогов - задача, цель которой - описание конкретных групп объектов из анализируемого набора данных.
Перечисленные задачи по назначению делятся на описательные и предсказательные.
Описательные (descriptive) задачи уделяют внимание улучшению понимания анализируемых данных. Ключевой момент в таких моделях — легкость и прозрачность результатов для восприятия человеком. Возможно, обнаруженные закономерности будут специфической чертой именно конкретных исследуемых данных и больше нигде не встретятся, но это все равно может быть полезно и потому должно быть известно. К такому виду адач относятся кластеризация и поиск ассоциативных правил.
Решение предсказательных (predictive) задач разбивается на два этапа. На первом этапе на основании набора данных с известными результатами строится модель. На втором этапе она используется для предсказания результатов на основании новых наборов данных. При этом, естественно, требуется, чтобы построенные модели работали максимально точно. К данному виду задач относят задачи классификации и регрессии. Сюда можно отнести и задачу поиска ассоциативных правил, если результаты ее решения могут быть использованы для предсказания появления некоторых событий.
По способам решения задачи разделяют на «обучение с учителем» и «обучение без учителя». Такое название появилось при разработке алгоритмов искусственного интеллекта, в частности Machine Learning (машинное обучение).
В случае «обучения с учителем» задача анализа данных решается в несколько этапов. Сначала строится модель анализируемых данных — классификатор. Затем классификатор подвергается обучению. Другими словами, проверяется качество его работы, и, если оно неудовлетворительное, происходит дополнительное обучение классификатора. Так продолжается до тех пор, пока не будет достигнут требуемый уровень качества или не станет ясно, что выбранный алгоритм не работает корректно с данными, либо же сами данные не имеют структуры, которую можно выявить. К этому типу задач относят задачи классификации и регрессии.
«Обучение без учителя» объединяет задачи, выявляющие описательные модели, например закономерности в покупках, совершаемых клиентами большого магазина. Очевидно, что если эти закономерности есть, то модель должна их представить и неуместно говорить об ее обучении. Достоинством таких задач является возможность их решения без каких-либо предварительных знаний об анализируемых данных. К этим задачам относятся кластеризация и поиск ассоциативных правил.
При анализе часто требуется определить, к какому из известных классов относятся исследуемые объекты, т. е. классифицировать их.
Примером задачи классификации является фильтрация электронной почты. Программа фильтрации должна классифицировать входящее сообщение как спам или как письмо. Данное решение принимается на основании частоты появления в сообщении определенных слов (например, имени получателя, безличного обращения, слов и словосочетаний: "приобрести", "заработать", "выгодное предложение" и т. п.).
В общем случае количество
классов в задачах
В Data Mining задачу классификации рассматривают как задачу определения значения одного из параметров анализируемого объекта на основании значений других параметров. Определяемый параметр часто называют зависимой переменной, а параметры, участвующие в его определении, — независимыми переменными. В рассмотренных примерах независимыми переменными являлись: частота появления определенных слов; значения цвета пикселов матрицы.
Зависимыми переменными в этом примере являлись соответственно: тип сообщения (возможные значения этой переменной — "spam" и "mail"); цифра образа (возможные значения этой переменной — 0, 1, ..., 9).
Необходимо обратить внимание на то, что во всех рассмотренных примерах независимая переменная принимала значение из конечного множества значений: {"spam", "mail"}, {0, 1, ..., 9}. Если значениями независимых и зависимой переменных являются действительные числа, то задача называется задачей регрессии.
Задача классификации и регрессии решается в два этапа. На первом выделяется обучающая выборка. В нее входят объекты, для которых известны значения как независимых, так и зависимых переменных. В описанных ранее примерах такими обучающими выборками могут быть: сообщения, классифицированные вручную как спам или как письмо; распознанные ранее матрицы образов цифр.
На основании обучающей выборки строится модель определения значения зависимой переменной. Ее часто называют функцией классификации или регрессии. Для получения максимально точной функции к обучающей выборке предъявляются следующие основные требования:
- количество объектов, входящих в выборку, должно быть достаточно большим;
- в выборку должны входить объекты, представляющие все возможные классы в случае задачи классификации или всю область значений в случае задачи регрессии;
- для каждого класса в задаче классификации или для каждого интервала области значений в задаче регрессии выборка должна содержать достаточное количество объектов.
На втором этапе построенную модель применяют к анализируемым объектам (к объектам с неопределенным значением зависимой переменной).
Основные проблемы, с которыми сталкиваются при решении задач классификации и регрессии, — это неудовлетворительное качество исходных данных, в которых встречаются как ошибочные данные, так и пропущенные значения, различные типы атрибутов — числовые и категорические, разная значимость атрибутов, а также так называемые проблемы overfitting и underfitting. Суть первой из них, заключается в том, что классификационная функция при построении "слишком хорошо" адаптируется к данным и встре- чающиеся в них ошибки и аномальные значения пытается интерпретировать как часть внутренней структуры данных. Очевидно, что в дальнейшем такая модель будет некорректно работать с другими данными, где характер ошибок будет несколько иной. Термином underfitting обозначают ситуацию, когда слишком велико количество ошибок при проверке классификатора на обу- чающем множестве. Это означает, что особых закономерностей в данных не было обнаружено, и либо их нет вообще, либо необходимо выбрать иной ме-тод их обнаружения.
Суть задачи поиска ассоциативных правил заключается в определении часто встречающихся наборов объектов в большом множестве таких наборов. Данная задача является частным случаем задачи классификации. Первоначально она решалась при анализе тенденций в поведении покупателей в супермаркетах. Анализу подвергались данные о совершаемых ими покупках - продуктах, которые покупатели складывают в тележку (корзину). Это послужило причиной второго часто встречающегося названия — анализ рыночных корзин. При анализе этих данных интерес прежде всего представляет информация о том, какие товары покупаются вместе, в какой последовательности, какие категории потребителей какие товары предпочитают, в какие периоды времени и т. п. Такая информация позволяет более эффективно планировать закупку товаров, проведение рекламной кампании и т. д.