Технология Data Mining

Автор работы: Пользователь скрыл имя, 03 Декабря 2013 в 19:10, реферат

Краткое описание

• Целью данной работы является раскрытие основных свойств возможностей технологии "добычи знаний", а также рассмотрение возможностей применения технологии Data Mining на примере SAS Interprise Miner.

Содержание

• Введение
• 1. Задачи Data Mining
• 1.1 Классификация задач Data Mining
• 1.2 Задача классификации и регрессии
• 1.3 Задача поиска ассоциативных правил
• 1.4 Задача кластеризации
• 2. Базовые методы Data Mining
• 2.1 Нечеткая логика
• 2.2 Генетические алгоритмы
• 2.3 Нейронные сети
• 3. Процесс Data Mining
• 4. Построение деревьев решений в системе See5
• 4.1 Подготовка данных для анализа
• 4.2 Задание начальных параметров и построение ДР
• 4.3 Анализ полученного дерева решений
• 4.4 Преобразование дерева решений в набор правил
• Заключение

Прикрепленные файлы: 1 файл

Документ Microsoft Office Word.docx

— 52.66 Кб (Скачать документ)

Затем построенная сеть подвергается процессу так называемого  обучения. На этом этапе нейроны  сети итеративно обрабатывают входные  данные и корректируют свои веса так, чтобы сеть наилучшим образом  прогнозировала данные, на которых  выполняется "обучение". После  обучения на имеющихся данных сеть готова к работе и может использоваться для построения прогнозов.

Нейронная сеть, полученная в результате "обучения", выражает закономерности, присутствующие п в  данных. При таком подходе она  оказывается функциональным эквивалентом некоторой модели зависимостей между  переменными, подобной тем, которые  строятся в традиционном моделировании. Однако, в отличие от традиционных моделей, в случае нейронных сетей  эти зависимости не могут быть записаны в явном виде, подобно  тому, как это делается в статистике (например, "А положительно коррелированно с В для наблюдений, у которых  величина С мала, a D велика"). Иногда нейронные сети выдают прогноз очень  высокого качества, однако они представляют собой типичный пример нетеоретического подхода к исследованию. При таком  подходе сосредотачиваются исключительно  на практическом результате, в данном случае на точности прогнозов и их прикладной ценности, а не на сути механизмов, лежащих в основе явления, или  на соответствии полученных результатов  какой-либо имеющейся теории.

Следует, однако, отметить, что методы нейронных сетей могут  применяться и в исследованиях, направленных на построение объясняющей  модели явления, поскольку нейронные  сети помогают изучать данные с целью  поиска значимых переменных или групп  таких переменных, и полученные результаты могут облегчить процесс последующего построения модели. Более того, сейчас имеются нейросетевые программы, которые  помощью сложных алгоритмов могут  находить наиболее важные входные переменные, что уже непосредственно помогает строить модель.

Одно из главных преимуществ  нейронных сетей состоит в  том, что они, по крайней мере теоретически, могут аппроксимировать любую непрерывную  функцию, и поэтому исследователю  нет необходимости заранее принимать  какие-либо гипотезы относительно модели и даже в ряде случаев о том, какие переменные действительно  важны. Однако существенным недостатком  нейронных сетей является то обстоятельство, что окончательное решение зависит  от начальных установок сети и, как  уже отмечалось, его практически  невозможно интерпретировать в традиционных аналитических терминах, которые  обычно применяются при построении теории явления.

3. Процесс Data Mining

Процесс Data Mining является своего рода исследованием. Как любое исследование, этот процесс состоит из определенных этапов, включающих элементы сравнения, типизации, классификации, обобщения, абстрагирования, повторения.

Процесс Data Mining строит модель, а в процессе принятия решений  эта модель эксплуатируется.

Традиционный процесс Data Mining включает следующие этапы:

Процесс Data Mining может быть успешным и неуспешным. Использование Data Mining не является гарантией получения  исключительно достоверных знаний и принятия на основе этих знаний абсолютно  верных решений.

Построенная модель может  обладать рядом погрешностей: недостоверные  исходные допущения при построении модели; ограниченные возможности при  сборе необходимых данных; неуверенность  и страхи пользователя системы, и, в  силу этого, слабое их применение; неоправданно высокая стоимость.

4. Построение деревьев  решений в системе See5

Система See5/C5.0 компании RuleQuest предназначена для анализа больших  баз данных, содержащих до сотни  тысяч записей и до сотни числовых или номинальных полей. Результат  работы See5 выражается в виде деревьев решений и множества if-then-правил. Система проста в обращении и  не требует от пользователя специфических  знаний в области прикладной статистики; некоммерческая версия для обучения ограничена количеством анализируемых  записей (до 200).

Основные этапы обработки  и анализа данных при построении дерева решений в системе See5 проиллюстрируем  на конкретном примере. Рассмотрим задачу оценки кредитного риска на основе следующих критериев: возраста, трудового  стажа, дохода, категории работодателя, кода консультанта и кредитной истории. Выборка содержит 198 объектов. Фрагмент выборки представлен в табл. 2.1.

Таблица 2.1 Данные о кредитном  риске

 
 

Возраст

Трудовой стаж

Доход

Категория работодателя

Код консультанта

Кредитная история

Значения

 

1

21-50

3-12 мес

5-10 т.р.

ИП

да

отрицательная

отказ

 

2

21-50

3-12 мес

5-10 т.р.

ИП

нет

отсутствует

необходима доп. Проверка

 

3

21-50

3-12 мес

5-10 т.р.

Частная

да

положительная

отказ

 

4

21-50

3-12 мес

5-10 т.р.

Государственная

да

отрицательная

отказ

 

5

21-50

3-12 мес

более 20 т.р.

ИП

да

отрицательная

отказ

 

6

21-50

3-12 мес

более 20 т.р.

ИП

нет

отсутствует

необходима доп. Проверка

 

7

21-50

3-12 мес

более 20 т.р.

Частная

нет

положительная

пол. Решение

 

8

21-50

более 1 года

5-10 т.р.

ИП

нет

положительная

необходима доп. Проверка

 

9

21-50

более 1 года

5-10 т.р.

Частная

да

отрицательная

отказ

 

10

21-50

более 1 года

5-10 т.р.

Государственная

нет

отрицательная

отказ

 

11

21-50

более 1 года

5-10 т.р.

Государственная

нет

отсутствует

необходима доп. Проверка

 

12

21-50

более 1 года

5-10 т.р.

Государственная

нет

положительная

пол. Решение

 

13

21-50

более 1 года

более 20 т.р.

ИП

нет

отсутствует

необходима доп. Проверка

 

14

21-50

более 1 года

более 20 т.р.

ИП

нет

положительная

необходима доп. Проверка

 

15

21-50

более 1 года

более 20 т.р.

Частная

да

отрицательная

отказ

 

16

21-50

более 1 года

более 20 т.р.

Государственная

нет

отрицательная

отказ

 

17

51-65

3-12 мес

5-10 т.р.

ИП

нет

отсутствует

необходима доп. Проверка

 

18

51-65

3-12 мес

5-10 т.р.

Частная

нет

положительная

необходима доп. Проверка

 

19

51-65

3-12 мес

5-10 т.р.

Государственная

да

отрицательная

отказ

 

20

51-65

3-12 мес

10-20 т.р.

Частная

да

отрицательная

отказ

 

21

51-65

более 1 года

5-10 т.р.

Государственная

нет

положительная

пол. Решение

 

22

51-65

более 1 года

10-20 т.р.

ИП

да

отрицательная

отказ

 

23

51-65

более 1 года

10-20 т.р.

ИП

да

отсутствует

отказ

 
                 

В табл. 2.2 приведены обозначения  и описание, используемых в работе переменных.

Таблица 2.2 Обозначение  и описание используемых переменных

 

Возраст

Трудовой стаж

Доход

Категория работодателя

Код консультанта

Кредитная история

Решение

 

age

stag

income

employer_type

consultant_ID

credit_history

credit_decision

 

21-50

менее 3 мес

менее 5 тр

ИП

да

отрицательная

отказ

 

51-65

3-12 мес

5-10 тр

Частная

нет

отсутствует

необходима доп проверка

 
 

более 1 года

10-20 тр

Государственная

 

положительная

пол решение

 
   

более 20 тр

         
               

4.1 Подготовка данных для анализа

Подготовка данных для  анализа в системе See5 предполагает создание двух обязательных файлов: файла  имен переменных и файла данных.

Файл имен переменных содержит перечисление имен разделяющих признаков и указанием классифицирующего признака. Файл создается в любом текстовом редакторе и сохраняется с расширением *.names.

Файл имен переменных exam.names в нашей задаче выглядит следующим  образом (рис. 2.1).

Рис. 2.1. Файл имен переменных

 

При подготовке файла имен переменных следует иметь в виду, что пробелы, пустые строки и знаки  табуляции игнорируются системой (кроме, конечно, случаев, когда они применяются  в именах переменных).

После имени каждой явно определенной переменной вставляется  двоеточие ":", а затем следует  характеристика этой переменной. Возможны следующие характеристики:

· continuous - количественный признак;

· список значений переменной, разделенных запятой (для дискретной, номинальной переменной);

· максимальное значение N для дискретной переменной (эту характеристику рекомендуется применять очень  осторожно, так как здесь исключается  дополнительная проверка данных при  их вводе в анализ);

· ignore - для признака, исключаемого из анализа;

· label - метка для идентификации  отдельного объекта.

После имени каждой неявно определенной переменной также следует  двоеточие и далее записывается формула. В формуле используются, где необходимо, скобки, а дискретные признаки ограничиваются кавычками. Ниже приведены доступные операторы:

· +, -, *, /, % (mod), ^ (возведение в степень);

· >, >=, <, <=, =, <> или != (не равно);

· and, or;

· sin(...), cos(...), tan(...), log(...), exp(...), int(...).

В зависимости от применяемой  формулы конечный результат может  быть как количественным, так и  давать логическое значение true/false.

Файл данных содержит сведения об объектах. В файле по строкам располагаются объекты, а по столбцам признаки, причем в том порядке, в котором они заданы в файле имен переменных. Если значение целевой переменной находится вверху файла имен переменных, строка начинается со значения этой целевой переменной. Затем через запятую следуют значения всех остальных признаков. Файл создается в любом текстовом редакторе и сохраняется с расширением *.data.

Файл данных exam.data в нашей  задаче выглядит следующим образом (рис. 2.2).

Рис. 2.2. Файл данных

4.2 Задание начальных параметров и построение ДР

В главном окне See5 располагается  кнопки (рис. 2.3), предназначение которых  представлено в табл. 2.3.

Таблица 2.3 Назначение кнопок меню

 

Кнопка

Назначение

 

Locate Data

Вызов окна для просмотра  доступных файлов данных и их загрузки в систему

 

Construct Classifier

Обращение к окну диалога  для выбора типа классификатора и  установки его параметров

 

Stop

Останов процесса построения дерева решений

 

Use Classifier

Запуск процесса интерактивной  классификации одного или более  объектов

 

Cross-Reference

Вызов окна, в котором  наглядно раскрываются связи между  объектами обучающей выборки  и найденными правилами их классификации

 
     

Рис. 2.3. Главное окно See5

Все перечисленные функции  доступны также из меню File. В свою очередь, в меню Edit предоставляется  возможность редактирования файла  имен данных и файла стоимости  ошибок классификации.

Для построения ДР необходимо загрузить данные из файла данных в систему See5 (Locate Data) и построить  классификатор (Construct Classifier).

4.3 Анализ полученного дерева решений

See5 [Release 1.14] Tue December 12 19:28:41 2012

Options:

Generating rules

Read 198 cases (6 attributes) from exam.data

Decision tree:

сonsultant_ID = да: отказ (99)

consultant_ID = нет:

:...credit history = отрицательная:  отказ (33)

credit_history = отсутствует: необходима  доп проверка (33/1)

credit_history = пол решение:

:...employer_type = ИП: проверка (11/1)

employer_type = Государственная:  пол решение (11)

employer_type = Частная:

:...stag = более 1 года: пол  решение (5)

stag = 3-12 мес:

:...age = 21-50: пол решение  (3/1)

age = 51-65: проверка (3)

Evaluation on training data (198 cases):

Decision Tree Rules

---------------- ----------------

Size Errors No Errors

8 3(1.5%) 6 3(1.5%) <<

(a) (b) (c) <-classified as

---- ---- ----

132 (a): class отказ

45 1 (b): class необходима доп  проверка

2 18 (c): class пол решение

Time: 0.2 secs

В первой строке отчета о  результатах дается информация об используемой версии системы See5 и текущее время. Затем в следующих двух строках  говорится о том, что прочтенный файл данных exam.data содержит 198 объектов, каждый из которых описан 6 признаками.

В следующих строках  отчета отображено построенное ДР.

Каждая ветка дерева заканчивается указанием номера класса, к которому она приводит. Сразу за номером следует запись вида (") или (n/m). Например, самая первая ветка заканчивается записью (99). Это означает, что данной ветке  соответствует 99 объектов из определенного  класса (отказ).

В следующем разделе  отчета приводятся характеристики сконструированного классификатора, оцениваемые на обучающей  выборке. Здесь мы видим, что построенное  дерево решений имеет 8 веток (size = 8), а ошибка классификации наблюдается  на 3 объектах, что составляет 1,5 %.

В завершающей части  отчета дается таблица с детальным  разбором результатов классификации. Исходя из данных этой таблицы, можно  сказать, что из первого класса (отказ) правильно классифицируются 132 объекта; среди объектов второго класса (необходима доп. проверка) 45 диагностируются правильно, а 2 ошибочно (класс 3, пол решение); все  объекты третьего класса (пол решение) классифицируются правильно за исключением  одного ошибочно классифицированного  объекта, попадающего в класс 2.

В заключение система See5 выдает сообщение о затраченном на решение  времени. Здесь надо отметить вообще очень высокую скорость работы алгоритма See5, позволяющую оперативно обрабатывать высокоразмерные массивы информации, содержащие тысячи и десятки тысяч  записей.

4.4 Преобразование дерева решений в набор правил

В ряде случаев полученное ДР может оказаться слишком сложным  для восприятия. Например, при решении  задач высокой размерности для  неоднородных данных дерево нередко  получается кустистое и довольно запутанное. Вместо того чтобы «ползать" по каждой полученной ветке, в системе See5 предусмотрена возможность преобразования дерева решений в набор правил IF...THEN. Для этого требуется вызвать  окно диалога для заданий параметров конструируемого алгоритма (Construct Classifier) и поставить флажок в поле Rulesets (набор правил). После проведения такой операции система добавляет  в окно отчета список правил, соответствующих  рассчитанному дереву решений.

Extracted rules:

Rule 1: (99, lift 1.5)

consultant_ID = да

-> class отказ [0.990]

Rule 2: (66, lift 1.5)

credit_history = отрицательная

-> class отказ [0.985]

Rule 3: (33/1, lift 4.1)

consultant_ID = нет

Информация о работе Технология Data Mining