Проблемы и их решения извлечения знаний из баз данных

Автор работы: Пользователь скрыл имя, 28 Апреля 2015 в 13:57, контрольная работа

Краткое описание

Доступность методов записи и хранения данных привели к бурному росту объемов хранимых данных. Объемы данных настолько внушительны, что человеку просто не по силам проанализировать их. Хотя необходимость проведения такого анализа вполне очевидна, ведь в этих «сырых данных» заключены знания, которые могут быть использованы при принятии решений. Для того, чтобы провести автоматический анализ данных, используется Data Mining.

Содержание

1. ВВЕДЕНИЕ 3
2. АКТУАЛЬНОСТЬ 4
3. СУЩНОСТЬ ТЕХНОЛОГИИ DATA MINING 5
4. РОЛЬ ЧЕЛОВЕКА В ПРОЦЕССЕ ИЗВЛЕЧЕНИЯ ЗНАНИЙ ИЗ БД 7
5. ПРОБЛЕМЫ И ОГРАНИЧЕНИЯ, СВЯЗАННЫЕ С ПРИМЕНЕНИЕМ ТЕХНОЛОГИИ DATA MINING 8
6. ПОДХОДЫ К ИЗВЛЕЧЕНИЮ ЗНАНИЙ В СУЩЕСТВУЮЩИХ СИСТЕМАХ 10
ЗАКЛЮЧЕНИЕ 13
ЛИТЕРАТУРА 15

Прикрепленные файлы: 1 файл

Проблемы и их решения извлечения знаний из баз данных.docx

— 37.82 Кб (Скачать документ)

Министерство образования Республики Беларусь

Учреждение образования

«Белорусский государственный университет информатики и радиоэлектроники»

 

 

 

 

 

 

 

 

 

Реферат на тему

«Проблемы и их решения извлечения знаний из баз данных»

по курсу «Интеллектуальные информационные системы в экономике»

 

 

 

 

 

 

 

 

 

 

 

Минск 2015

 

СОДЕРЖАНИЕ

 

 

  1. ВВЕДЕНИЕ

Доступность методов записи и хранения данных привели к бурному росту объемов хранимых данных. Объемы данных настолько внушительны, что человеку просто не по силам проанализировать их. Хотя необходимость проведения такого анализа вполне очевидна, ведь в этих «сырых данных» заключены знания, которые могут быть использованы при принятии решений. Для того, чтобы провести автоматический анализ данных, используется Data Mining.

Data Mining – это процесс обнаружения в «сырых» данных ранее неизвестных нетривиальных практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Data Mining – является одним из шагов обнаружения знаний из баз данных (Knowledge Discovery in Database, KDD).

Информация, найденная в процессе применения методов Data Mining, должна быть нетривиальной и ранее неизвестной. Знания должны описывать новые связи между свойствами, предсказывать значения одних признаков на основе других и т.д. Найденные знания должны быть применимы и на новых данных с некоторой степенью достоверности. Полезность заключается в том, чтобы эти знания могли принести определенную выгоду при их применении. Знания должны быть в понятном для пользователя-нематематика виде. Например, проще всего воспринимаются человеком логические конструкции «если … то …».

Алгоритмы, используемые в Data Mining, требуют большого количества вычислений. Раньше это являлось сдерживающим фактором широкого практического применения Data Mining, однако сегодняшний рост производительности современных процессоров снял остроту этой проблемы. Теперь за приемлемое время можно провести качественный анализ сотен тысяч и миллионов записей.

 

  1. АКТУАЛЬНОСТЬ

Мощные компьютерные системы, хранящие и управляющие огромными базами данных, стали неотъемлемым атрибутом жизнедеятельности как крупных корпораций, так и даже небольших компаний. Тем не менее, наличие данных само по себе еще недостаточно для улучшения показателей работы. Нужно уметь трансформировать сырые данные в полезную для принятия решений информацию. В этом и состоит основное предназначение технологий Data Mining.

Исследования различных методов извлечения знаний предполагает сравнение некоторых модификаций деревьев решений и генетического алгоритма. Для сравнения эффективности разрабатывается система извлечения знаний, которая будет извлекать знания указанными выше методами.

Научная новизна состоит в проведении глубокого анализа качества извлеченных знаний, оценки быстроты и точности работы алгоритмов. Выбора наилучшего алгоритма для проектируемой системы. А также создания новой модификации метода деревьев решений на основе CART.

Практическая ценность изучения заключается в анализе существующих методов извлечения знаний. А так же выбор наиболее оптимального метода или модификация существующих методов для извлечения знаний наиболее полно отражающих характер входных данных. Не маловажную роль играет и скорость извлечения знаний.

Во-первых, базы данных обладают невероятными размерами (до 850 гигабайт).

Во-вторых, извлечение в некоторых системах должно происходить в режиме реального времени.

  1. В-третьих, большинство современных баз данных являются распределенными. Для этого предполагается создание распределенной системы извлечения знаний ориентированной на работу с удаленными базами данных.  
    СУЩНОСТЬ ТЕХНОЛОГИИ DATA MINING

Data Mining переводится как  «добыча» или «раскопка данных»[1]. Синонимами Data Mining являются также  термины  «обнаружение знаний в базах данных» (knowledge discovery in databases) и «интеллектуальный анализ данных». Возникновение всех этих терминов связано с новым витком в развитии средств и методов обработки данных.

Развитие технологий баз данных сначала привело к созданию специализированного языка — языка запросов к базам данных. Для реляционных баз данных — это язык SQL, который предоставил широкие возможности для создания, изменения и извлечения хранимых данных. Затем возникла необходимость в получении аналитической информации (например, информации о деятельности предприятия за определённый период), и тут оказалось, что традиционные реляционные базы данных, хорошо приспособленные, например, для ведения оперативного учёта на предприятии, плохо приспособлены для проведения анализа. Это привело, в свою очередь, к созданию т. н. «хранилищ данных», сама структура которых наилучшим способом соответствует проведению всестороннего математического анализа.

Необходимость обработки данных обусловлена тем, что в связи с совершенствованием технологий записи и хранения данных собрались  колоссальные потоки информации в самых различных областях. Деятельность любого предприятия (коммерческого, производственного, медицинского, научного и т. д.) теперь сопровождается регистрацией и записью всех подробностей его деятельности.

Особенности современных данных:

  1. Данные имеют неограниченный объем.

  1. Данные являются разнородными (количественными, качественными, текстовыми).

  1. Извлеченные знания должны быть конкретны и понятны.

  1. Инструменты обнаружения знаний должны быть просты в использовании и работать при наличии «сырых» данных.

Сфера применения Data Mining ничем не ограничена - она везде, где имеются какие-либо данные. Но в первую очередь методы Data Mining сегодня заинтриговали коммерческие предприятия, развертывающие проекты на основе информационных хранилищ данных (Data Warehousing). Опыт многих таких предприятий показывает, что отдача от использования Data Mining может достигать 1000%. Например, известны сообщения об экономическом эффекте, в 10-70 раз превысившем первоначальные затраты от 350 до 750 тыс. дол. [2]. Известны сведения о проекте в 20 млн. дол., который окупился всего за 4 месяца. Другой пример - годовая экономия 700 тыс. дол. за счет внедрения Data Mining в сети универсамов в Великобритании.

Data Mining представляют большую  ценность для руководителей и  аналитиков в их повседневной  деятельности. Деловые люди осознали, что с помощью методов Data Mining они  могут получить ощутимые преимущества  в конкурентной борьбе. Далее кратко охарактеризуем некоторые возможные бизнес-приложения Data Mining [3].

 

  1. РОЛЬ ЧЕЛОВЕКА В ПРОЦЕССЕ ИЗВЛЕЧЕНИЯ ЗНАНИЙ ИЗ БД

Применение интеллектуальных систем извлечения знаний требует известного искусства при постановке исследовательских задач, выборе модели, алгоритма Data Mining и интерпретации зависимостей или шаблонов, которые обнаружены. Соответственно, если аналитик, или группа аналитиков смогут правильно организовать и направить в жесткое русло работу такого рода систем по поиску нового знания и скрытых в данных закономерностей, гигантское преимущество компьютеров в быстродействии, по сравнению с возможностями человека, должно привести к качественному прорыву в приобретении нового знания.

Таким образом, ключом к успеху служит мастерство аналитика, который как бы «дирижирует» процессом извлечения знания из баз данных, а интеллектуальные системы извлечения знаний образно являются «усилителем», или «ускорителем человеческой мысли»

 

  1. ПРОБЛЕМЫ И ОГРАНИЧЕНИЯ, СВЯЗАННЫЕ С ПРИМЕНЕНИЕМ ТЕХНОЛОГИИ DATA MINING

Data Mining не может заменить  аналитика.

Технология не может дать ответы на вопросы, которые не были заданы. Она не может заменить аналитика, а дает ему мощный инструмент для облегчения и улучшения его работы [4].

Сложность эксплуатации.

Поскольку область извлечения знаний имеет мультидисциплинарный характер, для работы с приложением, основанным на технологии интеллектуального анализа данных, необходимо задействовать специалистов из разных областей, и обеспечить их качественное взаимодействие.

Квалификация пользователя.

Различные интеллектуальные системы извлечения знаний имеют различную степень «дружелюбности» интерфейса и требуют определенной квалификации пользователя. Поэтому программное обеспечение должно соответствовать уровню подготовки пользователя. Использование подобного рода систем должно быть неразрывно связано с повышением квалификации пользователя. Однако специалистов по Data Mining, которые бы хорошо разбирались, как в проблемной области, так и в данной технологии, пока мало.

Извлечение полезных сведений невозможно без хорошего понимания сути данных.

Необходим тщательный выбор модели и качественная интерпретация зависимостей или шаблонов, которые обнаружены. Поэтому работа с такими средствами требует тесного сотрудничества между экспертом в предметной области и специалистом по технологии Data Mining. Построенные модели должны быть грамотно интегрированы в процессы рабочей среды для возможности оценки и обновления моделей.

Сложность подготовки данных.

Согласно устоявшемуся мнению, успешный анализ требует качественной предобработки данных. По утверждению аналитиков и пользователей баз данных, процесс предобработки может занять до 80% процентов всего процесса извлечения знаний [5].

Таким образом, чтобы технология работала на себя, потребуется много усилий и времени, которые уходят на предварительный анализ данных, выбор модели и ее корректировку.

Большой процент ложных, недостоверных или бессмысленных результатов.

С помощью интеллектуальных систем извлечения знаний можно отыскивать действительно очень ценную информацию. Однако технология Data Mining достаточно часто делает множество ложных и не имеющих смысла открытий. Многие специалисты утверждают, что Data Mining – инструменты могут выдавать огромное количество статистически недостоверных результатов [6]. Чтобы этого избежать, необходима проверка адекватности полученных моделей на тестовых данных.

Наличие достаточного количества репрезентативных данных.

Системы, основанные на технологии Data Mining, в отличие от статистических, теоретически не требуют наличия строго определенного количества ретроспективных данных. Согласно ряду исследований, эта особенность может стать причиной обнаружения недостоверных, ложных моделей и, как результат, принятия на их основе неверных решений. Чтобы избежать подобного рода проблем, необходимо осуществлять контроль статистической значимости обнаруженных знаний [7].

Учитывая тот факт, что все вышеперечисленные проблемы извлечения знаний из БД косвенно или напрямую зависят от человеческого фактора, необходимо определить роль человека в данном процессе

 

  1. ПОДХОДЫ К ИЗВЛЕЧЕНИЮ ЗНАНИЙ В СУЩЕСТВУЮЩИХ СИСТЕМАХ

В существующих системах используются следующие подходы к извлечению эмпирических знаний: статистические методы, нейросетевые алгоритмы, деревья решений, алгоритмы ограниченного перебора, методы рассуждений на основе аналогий, генетические алгоритмы, системы визуализации многомерных данных и методы нечеткой логики.

Наиболее часто для извлечения знаний в различных системах используются статистические методы. Эти методы обладают высокой универсальностью и хорошо разработаны, но требуют репрезентативных выборок и обладают низкой информативностью. Оценки, полученные на основе статистических методов, являются нижними границами для семантических методов.

Нейронные сети тоже очень широко распространены. При всей их привлекательности они имеют ряд существенных недостатков: для обучения требуется большой обучающий набор, возможен эффект переобучения, но самым важным недостатком является неинтерпретированность сформированной системы знаний. Вследствие этих недостатков нейронные сети имеют ограниченное применение.

Ряд задач, связанных с извлечением знаний, эффективно решается с помощью деревьев решений. Деревья решений – это способ представления правил в виде иерархической структуры, в которой каждой ситуации соответствует единственный узел, дающий решение. Под правилом понимается продукция вида «если… х, то… y». С помощью деревьев решений обычно решают задачи описания и классификации объектов, регрессия и др. Однако большинство известных алгоритмов формирования и обработки деревьев решений являются «жадными алгоритмами», поэтому эффективность их использования достаточно низка

Методы рассуждений на основе аналогий для прогнозирования и принятия решений ищут в прошлом близкие аналоги ситуации и выбирают ответ, который был для них правильным. Недостатками таких методов являются сложность построения моделей, обобщающих предыдущий опыт, что приводит к произвольному выбору «мер близости» ситуаций

Генетические алгоритмы – адаптивные методы поиска, часто используемые для решения задач функциональной оптимизации. Основным преимуществом таких алгоритмов является их способность манипулировать одновременно многими параметрами. Недостатками является то, что они не могут эффективно применяться для небольшого пространства поиска вследствие высокой вероятности схождения к локальному оптимуму, а не к глобально лучшему решению, а также высокая зависимость эффективности от методов кодирования решений, операторов настройки параметров, частных критериев успеха.

Информация о работе Проблемы и их решения извлечения знаний из баз данных