Автор работы: Пользователь скрыл имя, 03 Декабря 2013 в 19:10, реферат
• Целью данной работы является раскрытие основных свойств возможностей технологии "добычи знаний", а также рассмотрение возможностей применения технологии Data Mining на примере SAS Interprise Miner.
• Введение
• 1. Задачи Data Mining
• 1.1 Классификация задач Data Mining
• 1.2 Задача классификации и регрессии
• 1.3 Задача поиска ассоциативных правил
• 1.4 Задача кластеризации
• 2. Базовые методы Data Mining
• 2.1 Нечеткая логика
• 2.2 Генетические алгоритмы
• 2.3 Нейронные сети
• 3. Процесс Data Mining
• 4. Построение деревьев решений в системе See5
• 4.1 Подготовка данных для анализа
• 4.2 Задание начальных параметров и построение ДР
• 4.3 Анализ полученного дерева решений
• 4.4 Преобразование дерева решений в набор правил
• Заключение
credit_history = отсутствует
-> class необходима доп проверка [0.943]
Rule 4: (11/1, lift 3.6)
employer_type = ИП
consultant_ID = нет
credit history = положительная
-> class необходима доп проверка [0.846]
Rule 5: (3, lift 3.4)
age = 51-65
stag = 3-12 мес
employer_type = Частная
consultant_ID = нет
credit_history = положительная
-> class необходима доп проверка [0.800]
Rule 6: (33/14, lift 5.7)
consultant_ID = нет
credit_history = положительная
-> class пол решение [0.571]
Default class: отказ
Каждое правило состоит из следующих фрагментов:
· номера правила;
· количества объектов обучающей выборки, подпадающих под действие правила ("n");
· одного или нескольких элементарных логических событий, входящих в состав правила;
· номера класса, которому соответствует данное правило;
· величины, принимающей значение от 0 до 1, которая выражает степень доверия к правилу (характеристика точности правила).
Более подробный анализ
результатов классификации
Рис. 2.4. Окно задания перекрестных ссылок
Чтобы выделить интересующую ветвь, нужно щелкнуть по ней левой кнопкой мыши (справа от ветви появится темный круг). Кроме того, если щелкнуть мышью по номеру какого-либо объекта из правого поля, то система выдаст еще одно окно с именем Case, в котором приводятся значения признаков и выделенного объекта.
В системе See5 реализована возможность усиление решения. Идея усиления решения заключается в конструировании не одного, а сразу нескольких деревьев решений. Главное требование к ДР заключается в том, чтобы они как можно меньше дублировали друг друга. Для этого необходимо на первом шаге построить начальное ДР. При этом классификатор, построенный на основе начального дерева, дает ошибки на некоторых объектах.
На втором шаге при конструировании следующего дерева делается попытка избежать ранее сделанных ошибок. Следствием такой попытки считается существенное отличие второго дерева от начального. Полученное дерево также будет приводить к ошибочным решениям, но уже на других объектах. На следующем шаге работы алгоритма очередное дерево строится с учетом ошибок всех предыдущих деревьев решений.
Для запуска процесса усиления решения требуется установить флажок Boost в диалоговом окне для задания параметров работы алгоритма. Кроме того, в этом же окне нужно задать общее число строящихся ДР. Это число проставляется в поле trials. В результате построения такой совокупности деревьев решений значительно повышается точность классификации. Разработчики See5 утверждают, что при использовании 10 ДР ошибки классификации снижаются в среднем на 25 %.
В рассматриваемом примере после проведения усиления решения (построения трех деревьев решений) количество ошибочно классифицированных объектов снизилось с 1,5% до 0,5%. Ошибочно классифицированным оказался лишь один объект.
Evaluation on training data (198 cases):
Trial Decision Tree
----- ----------------
Size Errors
0 8 3(1.5%)
1 15 7(3.5%)
2 8 8(4.0%)
boost 1(0.5%) <<
(a) (b) (c) <-classified as
---- ---- ----
132 (a): class отказ
46 (b): class необходима доп проверка
1 19 (c): class пол решение
Time: 3.3 secs
В режиме консультации выполним проверку эффективности построенной системы при помощи команды File, Use classifier. После выполнения команды станет доступным окно задания исходных значений переменных, результат анализа которых будет сформирован в виде рекомендуемого решения с коэффициентом уверенности.
Заключение
Традиционная математическая статистика, долгое время претендовавшая на роль основного инструмента анализа данных, откровенно не справляется с возникшими проблемами. Главная причина - концепция усреднения по выборке, приводящая к операциям над фиктивными величинами (типа средней температуры пациентов в больнице, средней высоты дома на улице и т.п.).
В основу Data Mining (discovery-driven data
mining) положена концепция шаблонов (паттернов),
отражающих фрагменты многоаспектных
взаимоотношений в данных. Эти
шаблоны представляют собой закономерности,
свойственные подвыборкам данных, которые
могут быть компактно выражены в
понятной человеку форме. Поиск шаблонов
производится методами, не ограниченными
рамками априорных
Важное положение Data Mining - нетривиальность разыскиваемых шаблонов. Это означает, что найденные шаблоны должны отражать неочевидные, неожиданные регулярности в данных, составляющих так называемые скрытые знания. К обществу пришло понимание того, что сырые данные содержат глубинные пласт знаний, при грамотной раскопке которого могут быть обнаружены настоящие самородки.
Существует множество определений Data Mining, но в целом они совпадают в выделении 4-х основных признаков:
Data Mining - это процесс обнаружения в сырых данных
· ранее неизвестных,
· нетривиальных,
· практически полезных,
· доступных интерпретации знаний (закономерностей), необходимых для принятия решений в различных сферах человеческой деятельности.
Нахождение скрытых
Результаты Data Mining - эмпирические модели, классификационные правила, выделенные кластеры и т.д. - можно затем инкорпорировать в существующие системы поддержки принятия решений и использовать их для прогноза будущих ситуаций.
В заключении хочется отметить тот
факт, что средства Data Mining относятся
к дорогостоящим программным
инструментам - цена некоторых из них
доходит до нескольких десятков тысяч
долларов. Поэтому до недавнего времени
основными потребителями этой технологии
были банки, финансовые и страховые
компании, крупные торговые предприятия,
а основными задачами, требующими
применения Data Mining, считались оценка
кредитных и страховых рисков
и выработка маркетинговой
Список литературы
1. Барсегян А.А., Куприянов М.С. и др. Технологии анализа данных. Data Mining, Visual Mining, Text Mining, OLAP. Изд.: БХВ-Петербург, 2007, стр. 384.
2. Методические указания к
3. Паклин Н.Б., Орешков В.И. Бизнес-аналитика:
4. Пятецкий-Шапиро Г. "Великие раскопки и великие вызовы" в журнале "Компьютерра"№ 11(679) 2007.
5. Чубукова И.А. Data Mining. Курс лекций интернет-университета INTUIT, 2006 г., 328 стр.
6. Хайкин, С. Нейронные сети: полный курс / С. Хайкин. - М.: Вильямс, 2006. - 1104 с.
7. http://www.businessdecision.
8. www.interface.ru - Курс по интеллектуальному анализу данных (Data Mining) с использованием платформы MS SQL 2005.
9. http://www.sas.com/