Автор работы: Пользователь скрыл имя, 03 Мая 2013 в 16:57, курсовая работа
Одно из важнейших назначений методов Data Mining состоит в наглядном представлении результатов вычислений, что позволяет использовать инструментарий Data Mining людьми, не имеющих специальной математической подготовки. В то же время, применение статистических методов анализа данных требует хорошего владения теорией вероятностей и математической статистикой.
Возникновение и развитие Data Mining обусловлено различными факторами, назовем основные:
- совершенствование аппаратного и программного обеспечения;
- совершенствование технологий хранения и записи данных;
- накопление большого количества ретроспективных данных;
- совершенствование алгоритмов обработки информации.
ВВЕДЕНИЕ 2
1. Задачи Data Mining 2
1.1. Классификация задач Data Mining 2
1.2. Задача классификации и регрессии 2
1.3. Задача поиска ассоциативных правил 2
1.4. Задача кластеризации 2
2. Базовые методы Data Mining 2
2.1. Нечеткая логика 2
2.2. Генетические алгоритмы 2
2.3. Нейронные сети 2
3. Процесс Data Mining. 2
3.1. Этапы Data Mining 2
4. Сферы применения Data Mining 2
4.1. Text Mining 2
4.2. Web Mining 2
5. АНАЛИЗ SAS Enterprise Miner 2
ЗАКЛЮЧЕНИЕ 2
СПИСОК ЛИТЕРАТУРЫ 2
Web Mining можно перевести
как "добыча данных в Web".
Web Intelligence или Web Интеллект готов
"открыть новую главу" в
стремительном развитии
Способность определять интересы
и предпочтения каждого посетителя,
наблюдая за его поведением, является
серьезным и критичным
Системы Web Mining могут ответить на многие вопросы, например, кто из посетителей является потенциальным клиентом Web-магазина, какая группа клиентов Web-магазина приносит наибольший доход, каковы интересы определенного посетителя или группы посетителей.
Технология Web Mining охватывает
методы, которые способны на основе
данных сайта обнаружить новые, ранее
неизвестные знания и которые
в дальнейшем можно будет использовать
на практике. Другими словами, технология
Web Mining применяет технологию Data Mining
для анализа
Согласно таксономии3 Web Mining, здесь можно выделить два основных направления:
Web Content Mining и Web Usage Mining.
Web Content Mining подразумевает
автоматический поиск и
В этом направлении, в свою очередь, выделяют два подхода: подход, основанный на агентах, и подход, основанный на базах данных.
Подход, основанный на агентах (Agent Based Approach), включает такие системы: интеллектуальные поисковые агенты (Intelligent Search Agents);
- фильтрация информации / классификация;
- персонифицированные агенты сети.
Примеры систем интеллектуальных агентов поиска: Harvest (Brown и др., 1994), FAQ-Finder (Hammond и др., 1995), Information Manifold (Kirk и др., 1995).
Подход, основанный на базах данных (Database Approach), включает системы:
- многоуровневые базы данных;
- системы web-запросов (Web Query Systems);
Примеры систем web-запросов: W3QL (Konopnicki и Shmueli, 1995), WebLog (Lakshmanan и др., 1996), Lorel (Quass и др., 1995).
Второе направление Web Usage
Mining подразумевает обнаружение
Анализируется следующая информация: какие страницы просматривал пользователь; какова последовательность просмотра страниц.
Анализируется также, какие группы пользователей можно выделить среди общего их числа на основе истории просмотра Web-узла.
Web Usage Mining включает следующие составляющие:
- предварительная обработка;
- операционная идентификация;
- инструменты обнаружения шаблонов;
- инструменты анализа шаблонов.
Задачи Web Mining можно подразделить на такие категории:
- предварительная обработка данных для Web Mining;
- обнаружение шаблонов и открытие знаний с использованием ассоциативных правил, временных последовательностей, классификации и кластеризации;
- анализ полученного знания.
Пакет SAS Enterprise Miner позволяет оптимизировать процесс интеллектуального анализа данных в целом, начиная от организации доступа к данным и заканчивая оценкой готовой модели, и поддерживает выполнение всех необходимых процедур в рамках единого интегрированного решения с гибкими возможностями коллективной работы.
Рисунок 1. Сегментация данных с помощью кластеризации и самоорганизующихся карт
Пакет SAS Enterprise Miner предназначен для специалистов по анализу данных, маркетинговых аналитиков, маркетологов, специалистов по анализу рисков, специалистов по выявлению мошеннических действий, а также инженеров и ученых, ответственных за принятие ключевых решений в бизнесе или исследовательской деятельности.
Таблица 1. Основные преимущества SAS Enterprise Miner
Преимущества |
Возможности |
Широкий набор инструментальных средств, поддерживающих процессы интеллектуального анализа данных. |
SAS предлагает гибкое |
Понятный графический интерфейс пользователя (GUI) помогает бизнес-аналитикам и специалистам по статистике создавать в более сжатые сроки большее количество моделей. |
Среда для формирования диаграмм
процессов обработки дан ных
пакета SAS Enterprise Miner устраняет необходимость
ручного кодирования и |
Упрощение выявления надежной бизнес информации. |
Пакет SAS Enterprise Miner оснащен
рядом встроенных функций контроля,
работающих в рамках единой оболочки
и обеспечивающих сравнение результатов
различных методов |
Развертывание моделей в
масштабах предприятия с |
Скоринг это применение
модели к новым данным и конечный
результат деятельности по интеллектуальному
анализу данных. Пакет SAS Enterprise Miner автоматизирует
утомительный процесс подбора коэффициентов
и предоставляет готовый |
Пакет SAS Enterprise Miner поставляется в виде современной распределенной клиент-серверной системы для углубленного интеллектуального анализа данных в крупных организациях. Пакет позволяет оптимизировать процессы анализа данных, поддерживая все необходимые шаги в рамках едино го решения, а также обеспечивает гиб кое сотрудничество больших рабочих групп в рамках единого проекта. Система обеспечивает расширенную интеграцию с системами управления данными и развертывания моделей, а гибкие возможности выбора конфигурации па кета в зависимости от требований бизнеса устраняют необходимость приобретения специализированных решений.
Более полная информация о возможностях SAS Enterprise Miner приведена в Приложении 1.
Традиционная математическая
статистика, долгое время претендовавшая
на роль основного инструмента анализа
данных, откровенно не справляется
с возникшими проблемами. Главная
причина – концепция усреднения
по выборке, приводящая к операциям
над фиктивными величинами (типа средней
температуры пациентов в
В основу Data Mining (discovery-driven data
mining) положена концепция шаблонов (паттернов),
отражающих фрагменты многоаспектных
взаимоотношений в данных. Эти
шаблоны представляют собой закономерности,
свойственные подвыборкам данных, которые
могут быть компактно выражены в
понятной человеку форме. Поиск шаблонов
производится методами, не ограниченными
рамками априорных
Важное положение Data Mining – нетривиальность разыскиваемых шаблонов. Это означает, что найденные шаблоны должны отражать неочевидные, неожиданные регулярности в данных, составляющих так называемые скрытые знания. К обществу пришло понимание того, что сырые данные содержат глубинные пласт знаний, при грамотной раскопке которого могут быть обнаружены настоящие самородки.
Существует множество определений Data Mining, но в целом они совпадают в выделении 4-х основных признаков:
Data Mining - это процесс обнаружения в сырых данных
Рисунок 2. Технология Data Mining
Нахождение скрытых
Результаты Data Mining - эмпирические
модели, классификационные правила,
выделенные кластеры и т.д. - можно
затем инкорпорировать в
В заключении хочется отметить тот факт, что средства Data Mining относятся к дорогостоящим программным инструментам — цена некоторых из них доходит до нескольких десятков тысяч долларов. Поэтому до недавнего времени основными потребителями этой технологии были банки, финансовые и страховые компании, крупные торговые предприятия, а основными задачами, требующими применения Data Mining, считались оценка кредитных и страховых рисков и выработка маркетинговой политики, тарифных планов и иных принципов работы с клиентами. В последние годы ситуация претерпела определенные изменения: на рынке программного обеспечения появились относительно недорогие инструменты Data Mining от нескольких производителей, что сделало доступной эту технологию для предприятий малого и среднего бизнеса, ранее о ней и не помышлявших.
1. Барсегян А.А., Куприянов М.С. и др. Технологии анализа данных. Data Mining, Visual Mining, Text Mining, OLAP. Изд.: БХВ-Петербург, 2007, стр. 384.
2. Методические указания к лабораторным работам по дисциплине "Теоретические основы автоматизированного управления". ЮГУ; специальность 230102.65; 4 курс; 21 стр.
3. Паклин Н. Б., Орешков В. И. Бизнес-аналитика: от данных к знаниям. - СПб.: Питер, 2009. - 624 с
4. Пятецкий-Шапиро Г. «Великие раскопки и великие вызовы» в журнале «Компьютерра»№ 11(679) 2007.
5. Чубукова И.А. Data Mining. Курс лекций интернет-университета INTUIT, 2006 г., 328 стр.
6. Хайкин, С. Нейронные сети: полный курс / С. Хайкин. - М.: Вильямс, 2006. - 1104 с.
7. http://www.businessdecision.
8. www.interface.ru - Курс по интеллектуальному анализу данных (Data Mining) с использованием платформы MS SQL 2005.
9. http://www.sas.com/
Таблица 2. Основные характеристики пакета
Наименование |
Описание |
Разнообразные интерфейсы |
Простой графический интерфейс, обеспечивающий создание диаграмм процессов обработки данных: Быстрое создание большого числа качественных моделей. Возможность доступа через Web-интерфейс. Доступ к среде Возможность обмена диаграммами в формате XML. Возможность повторного использования диаграмм в качестве шаблонов для других проектов и пользователей. Пакетная обработка: Включает в себя все те же возможности, что и графический интерфейс. Основана на языке SAS-macro. Экспериментальный интерфейс Java API. Репозитарий моделей с Web-интерфейсом: Управление большими портфелями моделей. Поиск моделей по заданному алгоритму, целевой переменной и т.п. Публикация результатов в виде ступенчатых диаграмм, деревьев и скоринг-кодов, удобных для специалистов в области бизнеса и анализа данных. |
Масштабируемая обработка |
Серверная обработка. Параллельная обработка. Многопоточные прогностические алгоритмы. |
Доступ к данным |
Доступ более чем к 50 различным файловым структурам. |
Выборки |
Простая случайная. Стратифицированная. Взвешенная. Кластерная. Систематическая. Первые N наблюдений. Выборка редких событий. |
Разбивка данных |
Создание обучающих, проверочных и тестовых наборов данных. Обеспечение качественного обобщения моделей на основании контрольных данных. Стандартная стратификация по целевому классу. Сбалансированная разбивка по любой классовой переменной. |
Преобразования |
Простые. Накопительные. Оптимизированные. |
Фильтрация недостоверных данных |
Применение различных распределительных порогов, позволяющих исключить значения из экстремальных интервалов. Объединение классовых значений, встречающихся менее n раз. |
Замена данных |
С использованием мер центрированности. На основе распределения. Заполнение дерева суррогатными значениями. Методом усреднения расстояний. С использованием устойчивых M-оценок. С использованием стандартных констант. |
Описательная статистика |
Одномерные статистические таблицы и графики Классовые переменные. Графики распределения. Статистическая разбивка для каждого уровня целевых классов. Двумерные статистические таблицы и графики Упорядоченный график хи-квадрат с возможностью группировки непрерывных исходных данных по n группам. График коэффициентов вариации. Отбор переменных по logworth-критерию. Другие интерактивные графики. |
Графика и визуализация |
Графики, создаваемые в пакетном и интерактивном режимах. Удобный Java-мастер для построения графиков. Графики и таблицы интерактивно связаны между собой и поддерживают выполнение таких операций, как очистка и связывание. |
Кластеризация |
По выбору пользователя или автоматический выбор k лучших кластеров. Различные стратегии кодирования классовых переменных в процессе анализа. Управление недостающими данными. Графики профилей переменных сегментов, отражающие распределение исходных данных и других факторов в рамках каждого кластера. Профиль дерева решений, использующий исходные данные для составления прогноза о принадлежности кластеру.
|
Анализ рыночной корзины |
Сетевой график правил, упорядоченный по степени достоверности. Статистические графики подъема, достоверности, прогноза достоверности и поддержки правил. Статистическая гистограмма
частотных показателей в График зависимости разброса достоверности от прогнозируемой достоверности. Таблица описания правил. Сетевой график правил. Органичная интеграция правил с другими исходными данными обеспечивает расширенное прогностическое моделирование. Удобный вывод правил обеспечивает
кластеризацию клиентов по их покупательным
и поведенческим |
Анализ Web-активности |
Масштабируемое и эффективное выявление наиболее популярных интернет-маршрутов на основе анализа данных об интернет-активности пользователей. Выявление наиболее частых
последовательностей в |
Уменьшение размерности |
Выбор переменных: Удаление переменных, не связанных с целевыми признаками, на основе критериев отбора хи-квадрат или R2. Удаление переменных из иерархий. Удаление переменных со многими недостающими значениями. Сокращение числа классовых переменных с большим количеством уровней. Группировка непрерывных исходных данных для выявления нелинейных взаимосвязей. Выявление взаимодействий. Главные компоненты: Вычисление собственных значений и собственных векторов на основании матриц корреляции и ковариации. Графики: масштабированное отклонение, логарифмические собственные значения, кумулятивные пропорциональные собственные значения. Исследование выбранных
основных компонентов при помощи
методов предиктивного Исследование временных рядов: Сокращение объемов Методы анализа включают сезонный анализ, анализ тенденций, анализ временных областей, сезонную декомпозицию. Исследование сокращенных временных рядов при помощи методов кластерного и предиктивного моделирования. Управление временными метриками при помощи описательных данных. |
Утилита SAS Code Node |
Обеспечивает запись кода SAS для упрощения сложных процедур подготовки и преобразования данных. Позволяет использовать процедуры других продуктов SAS. Поддерживает импорт внешних моделей. Позволяет создавать собственные модели и узлы Enterprise Miner. Содержит макропеременные, упрощающие ссылку на источники данных, переменные и т.п. Расширяемая логика формирования оценочного кода. |
Исчерпывающие средства моделирования |
Выбор моделей на базе обучающей, проверочной или тестовой выборки данных с использованием различных критериев, таких как: прибыли или убытки, AIC, SBC, среднеквадратичная ошибка, частота ошибок классификации, ROC, Джини, KS (Колмогорова"Смирнова). Поддерживает двоичные, номинальные, порядковые и интервальные исходные данные и целевые признаки. Удобный доступ к оценочному коду и всем источникам данных. Отображение нескольких результатов в одном окне позволяет лучше оценить эффективность модели. |
Регрессии |
Линейная и логистическая. Пошаговая, с прямой и обратной выборкой. Построитель условий для уравнений: полиномиальных, основных взаимодействий, поддержка иерархии эффектов. Перекрестная проверка. Правила для иерархии эффектов. Методы оптимизации: сопряженные
градиенты, метод двойных ломаных,
метод Ньютона"Рафсона с Оценочный код PMML. |
Деревья решений |
Автоматическое выявление взаимодействия по методу хи-квадрат. Деревья классификации и регрессии. Отбор деревьев на основе целевых значений прибыльности или роста с соответствующим отсечением ветвей. Критерии расщепления: вероятностный критерий хи-квадрат, вероятностный F-критерий, критерий Джини, критерий энтропии, уменьшение дисперсии. Автоматический вывод идентификаторов листьев дерева в качестве входных значений для последующего моделирования. Отображение правил на английском языке. Вычисление значимости переменных для предварительного отбора. Уникальное представление
консолидированной диаграммы Интерактивная работа с деревом на настольном ПК: Интерактивное расширение и обрезание деревьев. Задание специальных точек разбиения, включая двоичные или многовариантные разбиения. Более 13 динамически связанных таблиц и графиков, позволяющих произвести более качественную оценку дерева. Возможность распечатать диаграмму дерева на одном или нескольких листах. В основе - новая быстрая процедура ARBORETUM. |
Нейронные сети |
Узел нейронной сети: Гибкие архитектуры сетей
с развитыми функциями 10 методов обучения сети. Предварительная оптимизация. Автоматическая стандартизация входных параметров. Поддержка направленных связей. Узел самоорганизующейся нейронной сети: Автоматизированное создание многоуровневых перцептронов для поиска оптимальной конфигурации. Выбор функций типа и активации
из четырех различных типов Оценочный код PMML. Узел нейронной сети анализа данных (DM Neural node): Создание модели с уменьшением размерности и выбором функций. Быстрое обучение сети. Линейное и нелинейное оценивание |
Индуктивный вывод правил |
Метод рекурсивного прогностического моделирования. Особенно хорошо подходит для моделирования редких событий. |
Двухуровневое моделирование |
Последовательное и Выбор модели в виде дерева решений, регрессии или нейронной сети на каждом уровне. Управление применением прогноза для классов к прогнозу интервалов. Точная оценка экономической выгодности клиентов. |
Методы вывода путем сопоставления |
Метод отбора ближайших k соседей для категоризации или прогноза наблюдений. Запатентованные методы создания дерева и поиска с уменьшенной размерностью. |
Множество моделей |
Объединение прогнозов моделей для создания потенциально более сильного решения. Среди методов: усреднение, мажоритарная выборка, выбор максимального значения. |
Сравнение моделей |
Сравнение нескольких моделей в рамках единой инструментальной оболочки для всех источников данных. Автоматический выбор лучшей модели на основе заданного пользователем критерия. Расширенная статистика соответствия и диагностики. Ступенчатые диаграммы. Кривые ROC. Диаграммы прибылей и убытков с возможностью выбора решения. Матрица неточностей (классификации). График распределения вероятностных оценок классовых целевых признаков. Ранжирование и распределение оценок интервальных целевых признаков. |
Количественная оценка |
Интерактивная количественная оценка узла в рамках графического интерфейса Автоматическая генерация оценочного кода на языках SAS, C, Java и PMML. Моделирование сбора, кластеризации, преобразования и вычисления недостающих значений для оценочных кодов на языках SAS, C и Java. Развертывание моделей в нескольких средах. |
Инструментальная среда |
Узел удаления переменных. Узел слияния данных. Узел метаданных, позволяющий изменять столбцы метаданных, например, роль, уровень измерений и порядок. |
1 Интервью Григория Пятецкого-Шапиро «Великие раскопки и великие вызовы» в журнале «Компьютерра»№ 11(679) 2007.
2 Временной лаг (time lag). В реальной экономике и в экономических моделях задержка, в связи с возникновением определенных событий после совершения действий, которые, как полагают, их вызвали.
3 Таксоно́мия (от др.-греч. τάξις — строй, порядок и νόμος — закон) — учение о принципах и практике классификации и систематизации. Джеффри Ч. Биологическая номенклатура = Charles Jeffrey. Biological Nomenclature. Second edition / Пер. с англ. — М.: Мир, 1980. — С. 14. — 120 с.