Технологии интерактивной аналитической обработки данных (OLAP). Управления знаниями (КМ), распознавания важной информации (DataMining)

Автор работы: Пользователь скрыл имя, 14 Ноября 2014 в 06:19, контрольная работа

Краткое описание

Популярность DataMining сегодня можно сравнить с его популярностью пол столетия назад, на заре компьютерной эпохи. Тогда, правда, этот термин не был известен, но много говорили об искусственном интеллекте, о нейронных сетях и распознавании образов. Однако, за немногими исключениями, практическую реализацию теории пришлось отложить до тех пор, пока аппаратная и программная инфраструктура не развилась до современного уровня. И сегодня, по завершению пятидесятилетнего цикла развития, мы вновь обращаемся к решению задач анализа, обладая уже для этого мощными вычислительными системами и системами управления базами данных, развитой операционной и языковой средой.

Содержание

Введение…………………………………………………………………………...3
1. Технологии интерактивной аналитической обработки данных (OLAP)…...5
2. Управление знаниями (КМ), распознавание важной информации (DataMining)……………………………………………………………………………10
Заключение……………………………………………………………………….13
Тест: вариант №10……………………………………………………………….13
Список использованных источников…………………………………………...14

Прикрепленные файлы: 1 файл

РАБОТА.docx

— 37.55 Кб (Скачать документ)

Государственное казенное образовательное учреждение

высшего профессионального образования

«Российская таможенная академия»

В л а д и в о с т о к с к и й ф и л и а л

Кафедра информатики и информационных таможенных технологийКОНТРОЛЬНАЯ РАБОТА

по дисциплине «Информационные технологии в логистике»

на тему «1.Технологии интерактивной аналитической обработки данных (OLAP).  2. Управления знаниями (КМ), распознавания важной информации (DataMining)»

Выполнила: Дорофеева Е.В., студентка 6 курса заочной формы обучения факультета таможенного дела, группа 165

Подпись_____________________________

Преподаватель: Рябченко Н.В.

Подпись ____________________________

 

 

 

 

 

 

 

Владивосток

2014 

Содержание

Введение…………………………………………………………………………...3

1. Технологии интерактивной  аналитической обработки данных (OLAP)…...5

2. Управление знаниями (КМ), распознавание важной информации (DataMining)……………………………………………………………………………10

Заключение……………………………………………………………………….13

Тест: вариант №10……………………………………………………………….13

Список использованных источников…………………………………………...14

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Введение

Построение систем анализа данных является важным направлением развития информационных технологий. В последнее время в связи с ростом числа накопленных данных в организациях и необходимостью принятия обоснованных управленческих решений интерес к этому направлению растёт. С помощью систем анализа данных могут быть решены следующие задачи: сбор всех необходимых для анализа данных в одном месте с согласованием форматов и удалением ошибок, интерактивный просмотр этих данныханалитиком, автоматическое извлечение закономерностей из данных. Всё это позволяет в каждый момент времени иметь полную информацию об организации и эффективно принимать управляющие решения. Механизм OLAP является на сегодня одним из популярных методов анализа данных. Интерактивная аналитическая обработка (OLAP) позволяет получать доступ к статистическим и организованным данным из источников бизнес-данных, например хранилищ данных, в многомерной структуре, именуемой куб.

Технологии OLAP позволяют на основе оперативной базы данных комплекса производить построение многомерных хранилищ данных с целью их экспресс-обработки для принятия управленческих решений.

На протяжении последних десяти лет в информационной индустрии наблюдается устойчивый рост интереса к технологиям анализа данных и основанным на этих технологиях системам поддержки принятия решений. За всей областью закрепился, ставший уже привычным в англоязычной литературе, термин DataMining или KnowledgeDiscovery. На русском языке употребляют также словосочетание "интеллектуальный анализ данных". Приведем классическое определение этого термина, предложенное в 1996 году в работе Fayyad, Piatetsky-Shapiro, и Smyth "AdvancesinKnowledgeDiscoveryandDataMining":

"Thenon-trivialprocessofidentifyingvalid, novel, potentiallyuseful, andultimatelyunderstandablepatternsindata"- Нетривиальный процесс обнаружения новых, потенциально полезных, корректных и интерпретируемых закономерностей в данных.

Популярность DataMining сегодня можно сравнить с его популярностью пол столетия назад, на заре компьютерной эпохи. Тогда, правда, этот термин не был известен, но много говорили об искусственном интеллекте, о нейронных сетях и распознавании образов. Однако, за немногими исключениями, практическую реализацию теории пришлось отложить до тех пор, пока аппаратная и программная инфраструктура не развилась до современного уровня. И сегодня, по завершению пятидесятилетнего цикла развития, мы вновь обращаемся к решению задач анализа, обладая уже для этого мощными вычислительными системами и системами управления базами данных, развитой операционной и языковой средой.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1. Технологии интерактивной  аналитической обработки данных (OLAP)

Анализ данных базируется на технологиях интерактивной аналитической обработки данных OLAP (On-LineAnalyticalProcessing) , глубинного анализа данных (DataMining) и визуализации данных.

OLAP (OnlineAnalyticalProcessing) - интерактивная аналитическая обработка данных – это подход к анализу данных и генерации отчетов, позволяющий пользователям легко извлекать электронным способом и рассматривать с различных точек зрения информацию на основе многомерных структур данных, называемых «кубами». OLAP предоставляет информацию пользователям в удобном для анализа виде, выдавая агрегированные данные, по запросу пользователя детализируя их.

В основе технологии OLAP лежит многомерное представление данных, обеспечивающее адекватность методов моделирования данных потребностям их анализа. В многомерной модели данные представляются в виде кубов данных (или гиперкубов), имеющих несколько независимых измерений многомерного пространства данных, при этом каждому измерению соответствует некоторый характеризующий какое-либо качественное свойство данных атрибут - время, территория, категория продукции и т.п. На множестве значений атрибутов могут быть определены иерархические отношения – “год-квартал-месяц”, “регион-город-район”, “услуга-консалтинг-реинжиниринг”. Наборы значений атрибутов определяют ячейки куба, с которыми ассоциируются конкретные значения соответствующих показателей. С использованием такой модели возможен анализ данных с необходимой степенью детализации за счет:

-построения сечения (проекции) куба данных путем фиксации  значений наборов атрибутов;

-обобщения данных на  основе использования значений  атрибутов более высокого уровня  иерархии и агрегирования соответствующих  значений показателей;

-детализации данных (обратной  по отношению к операции обобщения);

-вращения куба путем  изменения порядка измерений.

Технологии глубинного анализа данных позволяют анализировать данные с помощью математических моделей, основанных на статистических, вероятностных или оптимизационных методах, с целью выявления в них заранее неизвестных закономерностей или зависимостей. К задачам глубинного анализа относятся задачи классификации, выявления ассоциаций, поиска типовых образцов на заданном множестве, выявление объектов, не соответствующих общим характеристикам и т.п.

В процессе анализа данных активно используются разнообразные формы их графического представления, облегчающие понимание данных и обеспечивающие возможности качественной оценки их свойств. В случае недостаточности пассивного восприятия применяются операции вращения куба данных, операция пролистывания сечений куба и т.п.

Конечный пользователь может работать с информационно-аналитической системой в двух основных режимах: в режиме построения отчетов и в режиме исследования.

Режим построения отчетов

Режим построения отчетов оптимизирован для создания сводных печатных и/или экранных форм с использованием математических вычислений, сравнительного анализа и многих других возможностей, которые позволяют пользователю привести данные к желаемому виду.

Опыт эксплуатации информационно-аналитических систем показал, что для разных задач и разных групп пользователей требуются совершенно разные подходы доступа к данным. Далее приведены возможные решения организации доступа к данным:

-Windows-интерфейс. Пользовательские  интерфейсы могут быть реализованы  как "толстый" Windows-клиент;

-Web-интерфейс. Получение  данных через Web-страницы с доступом  к любым данным хранилища, а  также для выпуска отчетов  через Интернет;

-Интерпретатор пользовательских  интерфейсов. Он позволит пользователям  создавать новые экранные формы  без перекомпиляции системы;

-Пакетная генерация отчетов. Отчеты системы можно выпускать  по сценарию и расписанию и  рассылать потребителям в готовом  виде по e-mail. Так можно обеспечивать сотрудников регулярными пакетами отчетов;

-Библиотека прикладных  классов. Библиотека прикладных  классов может быть объектной  оболочкой над базой данных  системы и предоставлять удобный  и надежный доступ ко всем  ее данным;

-Хранимые процедуры. Доступ  к данным системы можно получить  через специальный бизнес-слой - библиотеку хранимых процедур. Это  позволяет разрабатывать собственные  интерфейсы и аналитические приложения  на произвольных языках программирования (Delphi, C++ и пр.).

Библиотека хранимых процедур может быть разработана таким образом, чтобы предоставлять доступ ко всем данным на чтение, изменение и запись. Для каждого вида объектов (счета, документы, клиенты) можно разработать специальные генерируемые аналитические процедуры, оптимизированные для создания аналитических приложений. Такие как перечисленные ниже:

-Генератор аналитических  выборок. Аналитические выборки  могут применяться внешними OLAP-инструментами, такими как BusinessObjects, произвольными генераторами отчетов, такими как CrystalReport, другими системами;

-Генератор регламентированных  отчетов. Встроенный в систему  генератор отчетов позволяет  создать отчет автоматически  на основе заданной аналитической  выборки или при помощи визуального  редактора настроить отчет произвольной  формы;

-Com-интерфейс. Для доступа  к данным хранилища из сред  программирования типа VisualBasic можно разработать специальный COM объект, через который можно будет вызывать хранимые процедуры системы. Любое VBA-приложение (Excel, Word) или среда разработки, поддерживающая COM (MS VisualStudio, VisualFoxpro, Access) сможет использовать данные системы;

-Библиотека функций MS Excel. При установке клиентского модуля системы в Excel добавляется библиотека пользовательских функций. Эта библиотека позволяет создавать произвольные отчеты в Excel с использованием данных системы нетехническим пользователям: бухгалтерам, экономистам;

-Прямой OLAP-анализ. Для выпуска  отчетов и произвольного анализа  данных может быть разработан  универсальный OLAP-клиент, который предоставит  конечным пользователям в зависимости  от их потребностей и квалификации  инструменты выпуска заранее  жестко сконфигурированных отчетов, выпуска заранее настроенных  динамических отчетов, быстрой настройки  без программирования собственных  отчетов;

-Генерация микрокубов. Микрокуб содержит в себе упакованный набор данных. Он, подобно книге Excel, является универсальным контейнером аналитических приложений;

-Сценарии выгрузки данных. Может быть разработан специальный  модуль экспорта данных во  внешние системы. Он позволит  вести список внешних потребителей  данных, конструировать сценарии  выгрузки обновлений данных, журнализацию  выгрузки. Однажды созданный сценарий  может запускаться постоянно  по расписанию или однократно  по запросу. Эта технология позволяет  создавать распределенные хранилища  данных для сверхкрупных организаций.

Режим исследования

Режим исследования необходим в том случае, когда пользователю заранее неизвестно, какую информацию и в какой форме он хочет получить. Пользователь лишь исследует данные, выясняя их характеристики с различных точек зрения. Автоматизированный процесс исследования тенденций, моделей и взаимосвязей в данных включает в себя применение статистических методов или искусственного интеллекта для выявления скрытых закономерностей, которые не могут быть обнаружены непосредственно или на интуитивном уровне. Исследование данных позволяет обнаруживать ассоциации (корреляцию между событиями), последовательности (события, ведущие к другим событиям), осуществлять разбиение совокупностей на группы (поиск и визуализация новых групп факторов) и прогнозировать (формировать модели данных, которые позволяют строить прогноз).

Процесс исследования данных включает в себя три основных операции:

-получение среза информации;

-представление информации;

-детализация информации.

Поскольку хранилище данных отражает пространственную организацию предметной области, существует возможность выбрать любые две оси и сделать по ним срез.

Получив срез данных, важно выявить в нем исключительные значения показателей. Самым простым способом поиска подобных величин является представление их в виде диаграммы или графика. Операция представления информации позволяет показать числа в виде столбцов гистограммы или секторов диаграммы.

Выявив исключительные значения, требуется понять, как они возникли, из чего сложены. Применив операцию детализации, можно раскрыть любое значение на его составляющие.

В результате исследования может быть построен отчет. Однако важно подчеркнуть, что приступая к его построению, пользователь заранее не знает, какие данные будут в него включены и какова будет структура самого отчета. Это отличает режим исследования от режима построения отчетов, в котором пользователь заранее предполагает состав данных, структуру и внешний вид отчета.

2. Управление знаниями (КМ), распознавание важной информации (DataMining)

Информация о работе Технологии интерактивной аналитической обработки данных (OLAP). Управления знаниями (КМ), распознавания важной информации (DataMining)