Автор работы: Пользователь скрыл имя, 03 Декабря 2013 в 19:10, реферат
• Целью данной работы является раскрытие основных свойств возможностей технологии "добычи знаний", а также рассмотрение возможностей применения технологии Data Mining на примере SAS Interprise Miner.
• Введение
• 1. Задачи Data Mining
• 1.1 Классификация задач Data Mining
• 1.2 Задача классификации и регрессии
• 1.3 Задача поиска ассоциативных правил
• 1.4 Задача кластеризации
• 2. Базовые методы Data Mining
• 2.1 Нечеткая логика
• 2.2 Генетические алгоритмы
• 2.3 Нейронные сети
• 3. Процесс Data Mining
• 4. Построение деревьев решений в системе See5
• 4.1 Подготовка данных для анализа
• 4.2 Задание начальных параметров и построение ДР
• 4.3 Анализ полученного дерева решений
• 4.4 Преобразование дерева решений в набор правил
• Заключение
Затем построенная сеть подвергается процессу так называемого обучения. На этом этапе нейроны сети итеративно обрабатывают входные данные и корректируют свои веса так, чтобы сеть наилучшим образом прогнозировала данные, на которых выполняется "обучение". После обучения на имеющихся данных сеть готова к работе и может использоваться для построения прогнозов.
Нейронная сеть, полученная
в результате "обучения", выражает
закономерности, присутствующие п в
данных. При таком подходе она
оказывается функциональным эквивалентом
некоторой модели зависимостей между
переменными, подобной тем, которые
строятся в традиционном моделировании.
Однако, в отличие от традиционных
моделей, в случае нейронных сетей
эти зависимости не могут быть
записаны в явном виде, подобно
тому, как это делается в статистике
(например, "А положительно коррелированно
с В для наблюдений, у которых
величина С мала, a D велика"). Иногда
нейронные сети выдают прогноз очень
высокого качества, однако они представляют
собой типичный пример нетеоретического
подхода к исследованию. При таком
подходе сосредотачиваются
Следует, однако, отметить,
что методы нейронных сетей могут
применяться и в исследованиях,
направленных на построение объясняющей
модели явления, поскольку нейронные
сети помогают изучать данные с целью
поиска значимых переменных или групп
таких переменных, и полученные результаты
могут облегчить процесс
Одно из главных преимуществ
нейронных сетей состоит в
том, что они, по крайней мере теоретически,
могут аппроксимировать любую непрерывную
функцию, и поэтому исследователю
нет необходимости заранее
3. Процесс Data Mining
Процесс Data Mining является своего рода исследованием. Как любое исследование, этот процесс состоит из определенных этапов, включающих элементы сравнения, типизации, классификации, обобщения, абстрагирования, повторения.
Процесс Data Mining строит модель, а в процессе принятия решений эта модель эксплуатируется.
Традиционный процесс Data Mining включает следующие этапы:
Процесс Data Mining может быть
успешным и неуспешным. Использование
Data Mining не является гарантией получения
исключительно достоверных
Построенная модель может обладать рядом погрешностей: недостоверные исходные допущения при построении модели; ограниченные возможности при сборе необходимых данных; неуверенность и страхи пользователя системы, и, в силу этого, слабое их применение; неоправданно высокая стоимость.
4. Построение деревьев решений в системе See5
Система See5/C5.0 компании RuleQuest
предназначена для анализа
Основные этапы обработки и анализа данных при построении дерева решений в системе See5 проиллюстрируем на конкретном примере. Рассмотрим задачу оценки кредитного риска на основе следующих критериев: возраста, трудового стажа, дохода, категории работодателя, кода консультанта и кредитной истории. Выборка содержит 198 объектов. Фрагмент выборки представлен в табл. 2.1.
Таблица 2.1 Данные о кредитном риске
Возраст |
Трудовой стаж |
Доход |
Категория работодателя |
Код консультанта |
Кредитная история |
Значения |
||
1 |
21-50 |
3-12 мес |
5-10 т.р. |
ИП |
да |
отрицательная |
отказ |
|
2 |
21-50 |
3-12 мес |
5-10 т.р. |
ИП |
нет |
отсутствует |
необходима доп. Проверка |
|
3 |
21-50 |
3-12 мес |
5-10 т.р. |
Частная |
да |
положительная |
отказ |
|
4 |
21-50 |
3-12 мес |
5-10 т.р. |
Государственная |
да |
отрицательная |
отказ |
|
5 |
21-50 |
3-12 мес |
более 20 т.р. |
ИП |
да |
отрицательная |
отказ |
|
6 |
21-50 |
3-12 мес |
более 20 т.р. |
ИП |
нет |
отсутствует |
необходима доп. Проверка |
|
7 |
21-50 |
3-12 мес |
более 20 т.р. |
Частная |
нет |
положительная |
пол. Решение |
|
8 |
21-50 |
более 1 года |
5-10 т.р. |
ИП |
нет |
положительная |
необходима доп. Проверка |
|
9 |
21-50 |
более 1 года |
5-10 т.р. |
Частная |
да |
отрицательная |
отказ |
|
10 |
21-50 |
более 1 года |
5-10 т.р. |
Государственная |
нет |
отрицательная |
отказ |
|
11 |
21-50 |
более 1 года |
5-10 т.р. |
Государственная |
нет |
отсутствует |
необходима доп. Проверка |
|
12 |
21-50 |
более 1 года |
5-10 т.р. |
Государственная |
нет |
положительная |
пол. Решение |
|
13 |
21-50 |
более 1 года |
более 20 т.р. |
ИП |
нет |
отсутствует |
необходима доп. Проверка |
|
14 |
21-50 |
более 1 года |
более 20 т.р. |
ИП |
нет |
положительная |
необходима доп. Проверка |
|
15 |
21-50 |
более 1 года |
более 20 т.р. |
Частная |
да |
отрицательная |
отказ |
|
16 |
21-50 |
более 1 года |
более 20 т.р. |
Государственная |
нет |
отрицательная |
отказ |
|
17 |
51-65 |
3-12 мес |
5-10 т.р. |
ИП |
нет |
отсутствует |
необходима доп. Проверка |
|
18 |
51-65 |
3-12 мес |
5-10 т.р. |
Частная |
нет |
положительная |
необходима доп. Проверка |
|
19 |
51-65 |
3-12 мес |
5-10 т.р. |
Государственная |
да |
отрицательная |
отказ |
|
20 |
51-65 |
3-12 мес |
10-20 т.р. |
Частная |
да |
отрицательная |
отказ |
|
21 |
51-65 |
более 1 года |
5-10 т.р. |
Государственная |
нет |
положительная |
пол. Решение |
|
22 |
51-65 |
более 1 года |
10-20 т.р. |
ИП |
да |
отрицательная |
отказ |
|
23 |
51-65 |
более 1 года |
10-20 т.р. |
ИП |
да |
отсутствует |
отказ |
|
В табл. 2.2 приведены обозначения и описание, используемых в работе переменных.
Таблица 2.2 Обозначение и описание используемых переменных
Возраст |
Трудовой стаж |
Доход |
Категория работодателя |
Код консультанта |
Кредитная история |
Решение |
|
age |
stag |
income |
employer_type |
consultant_ID |
credit_history |
credit_decision |
|
21-50 |
менее 3 мес |
менее 5 тр |
ИП |
да |
отрицательная |
отказ |
|
51-65 |
3-12 мес |
5-10 тр |
Частная |
нет |
отсутствует |
необходима доп проверка |
|
более 1 года |
10-20 тр |
Государственная |
положительная |
пол решение |
|||
более 20 тр |
|||||||
4.1 Подготовка данных для анализа
Подготовка данных для анализа в системе See5 предполагает создание двух обязательных файлов: файла имен переменных и файла данных.
Файл имен переменных содержит перечисление имен разделяющих признаков и указанием классифицирующего признака. Файл создается в любом текстовом редакторе и сохраняется с расширением *.names.
Файл имен переменных exam.names в нашей задаче выглядит следующим образом (рис. 2.1).
Рис. 2.1. Файл имен переменных
При подготовке файла имен переменных следует иметь в виду, что пробелы, пустые строки и знаки табуляции игнорируются системой (кроме, конечно, случаев, когда они применяются в именах переменных).
После имени каждой явно определенной переменной вставляется двоеточие ":", а затем следует характеристика этой переменной. Возможны следующие характеристики:
· continuous - количественный признак;
· список значений переменной, разделенных запятой (для дискретной, номинальной переменной);
· максимальное значение N для дискретной переменной (эту характеристику рекомендуется применять очень осторожно, так как здесь исключается дополнительная проверка данных при их вводе в анализ);
· ignore - для признака, исключаемого из анализа;
· label - метка для идентификации отдельного объекта.
После имени каждой неявно определенной переменной также следует двоеточие и далее записывается формула. В формуле используются, где необходимо, скобки, а дискретные признаки ограничиваются кавычками. Ниже приведены доступные операторы:
· +, -, *, /, % (mod), ^ (возведение в степень);
· >, >=, <, <=, =, <> или != (не равно);
· and, or;
· sin(...), cos(...), tan(...), log(...), exp(...), int(...).
В зависимости от применяемой формулы конечный результат может быть как количественным, так и давать логическое значение true/false.
Файл данных содержит сведения об объектах. В файле по строкам располагаются объекты, а по столбцам признаки, причем в том порядке, в котором они заданы в файле имен переменных. Если значение целевой переменной находится вверху файла имен переменных, строка начинается со значения этой целевой переменной. Затем через запятую следуют значения всех остальных признаков. Файл создается в любом текстовом редакторе и сохраняется с расширением *.data.
Файл данных exam.data в нашей задаче выглядит следующим образом (рис. 2.2).
Рис. 2.2. Файл данных
4.2 Задание начальных параметров и построение ДР
В главном окне See5 располагается кнопки (рис. 2.3), предназначение которых представлено в табл. 2.3.
Таблица 2.3 Назначение кнопок меню
Кнопка |
Назначение |
|
Locate Data |
Вызов окна для просмотра доступных файлов данных и их загрузки в систему |
|
Construct Classifier |
Обращение к окну диалога для выбора типа классификатора и установки его параметров |
|
Stop |
Останов процесса построения дерева решений |
|
Use Classifier |
Запуск процесса интерактивной классификации одного или более объектов |
|
Cross-Reference |
Вызов окна, в котором наглядно раскрываются связи между объектами обучающей выборки и найденными правилами их классификации |
|
Рис. 2.3. Главное окно See5
Все перечисленные функции доступны также из меню File. В свою очередь, в меню Edit предоставляется возможность редактирования файла имен данных и файла стоимости ошибок классификации.
Для построения ДР необходимо загрузить данные из файла данных в систему See5 (Locate Data) и построить классификатор (Construct Classifier).
4.3 Анализ полученного дерева решений
See5 [Release 1.14] Tue December 12 19:28:41 2012
Options:
Generating rules
Read 198 cases (6 attributes) from exam.data
Decision tree:
сonsultant_ID = да: отказ (99)
consultant_ID = нет:
:...credit history = отрицательная: отказ (33)
credit_history = отсутствует: необходима доп проверка (33/1)
credit_history = пол решение:
:...employer_type = ИП: проверка (11/1)
employer_type = Государственная: пол решение (11)
employer_type = Частная:
:...stag = более 1 года: пол решение (5)
stag = 3-12 мес:
:...age = 21-50: пол решение (3/1)
age = 51-65: проверка (3)
Evaluation on training data (198 cases):
Decision Tree Rules
---------------- ----------------
Size Errors No Errors
8 3(1.5%) 6 3(1.5%) <<
(a) (b) (c) <-classified as
---- ---- ----
132 (a): class отказ
45 1 (b): class необходима доп проверка
2 18 (c): class пол решение
Time: 0.2 secs
В первой строке отчета о результатах дается информация об используемой версии системы See5 и текущее время. Затем в следующих двух строках говорится о том, что прочтенный файл данных exam.data содержит 198 объектов, каждый из которых описан 6 признаками.
В следующих строках отчета отображено построенное ДР.
Каждая ветка дерева заканчивается указанием номера класса, к которому она приводит. Сразу за номером следует запись вида (") или (n/m). Например, самая первая ветка заканчивается записью (99). Это означает, что данной ветке соответствует 99 объектов из определенного класса (отказ).
В следующем разделе отчета приводятся характеристики сконструированного классификатора, оцениваемые на обучающей выборке. Здесь мы видим, что построенное дерево решений имеет 8 веток (size = 8), а ошибка классификации наблюдается на 3 объектах, что составляет 1,5 %.
В завершающей части отчета дается таблица с детальным разбором результатов классификации. Исходя из данных этой таблицы, можно сказать, что из первого класса (отказ) правильно классифицируются 132 объекта; среди объектов второго класса (необходима доп. проверка) 45 диагностируются правильно, а 2 ошибочно (класс 3, пол решение); все объекты третьего класса (пол решение) классифицируются правильно за исключением одного ошибочно классифицированного объекта, попадающего в класс 2.
В заключение система See5 выдает
сообщение о затраченном на решение
времени. Здесь надо отметить вообще
очень высокую скорость работы алгоритма
See5, позволяющую оперативно обрабатывать
высокоразмерные массивы
4.4 Преобразование дерева решений в набор правил
В ряде случаев полученное
ДР может оказаться слишком
Extracted rules:
Rule 1: (99, lift 1.5)
consultant_ID = да
-> class отказ [0.990]
Rule 2: (66, lift 1.5)
credit_history = отрицательная
-> class отказ [0.985]
Rule 3: (33/1, lift 4.1)
consultant_ID = нет