Автор работы: Пользователь скрыл имя, 14 Ноября 2014 в 06:19, контрольная работа
Популярность DataMining сегодня можно сравнить с его популярностью пол столетия назад, на заре компьютерной эпохи. Тогда, правда, этот термин не был известен, но много говорили об искусственном интеллекте, о нейронных сетях и распознавании образов. Однако, за немногими исключениями, практическую реализацию теории пришлось отложить до тех пор, пока аппаратная и программная инфраструктура не развилась до современного уровня. И сегодня, по завершению пятидесятилетнего цикла развития, мы вновь обращаемся к решению задач анализа, обладая уже для этого мощными вычислительными системами и системами управления базами данных, развитой операционной и языковой средой.
Введение…………………………………………………………………………...3
1. Технологии интерактивной аналитической обработки данных (OLAP)…...5
2. Управление знаниями (КМ), распознавание важной информации (DataMining)……………………………………………………………………………10
Заключение……………………………………………………………………….13
Тест: вариант №10……………………………………………………………….13
Список использованных источников…………………………………………...14
Государственное казенное образовательное учреждение
высшего профессионального образования
«Российская таможенная академия»
В л а д и в о с т о к с к и й ф и л и а л
Кафедра информатики и информационных таможенных технологийКОНТРОЛЬНАЯ РАБОТА
по дисциплине «Информационные технологии в логистике»
на тему «1.Технологии интерактивной аналитической обработки данных (OLAP). 2. Управления знаниями (КМ), распознавания важной информации (DataMining)»
Выполнила: Дорофеева Е.В., студентка 6 курса заочной формы обучения факультета таможенного дела, группа 165
Подпись_______________________
Преподаватель: Рябченко Н.В.
Подпись ____________________________
Владивосток
2014
Содержание
Введение…………………………………………………………
1. Технологии интерактивной аналитической обработки данных (OLAP)…...5
2. Управление знаниями (КМ),
распознавание важной информации (DataMining)………………………………………………
Заключение……………………………………………………
Тест: вариант №10……………………………………………………………….13
Список использованных источников…………………………………………...
Введение
Построение систем анализа данных является важным направлением развития информационных технологий. В последнее время в связи с ростом числа накопленных данных в организациях и необходимостью принятия обоснованных управленческих решений интерес к этому направлению растёт. С помощью систем анализа данных могут быть решены следующие задачи: сбор всех необходимых для анализа данных в одном месте с согласованием форматов и удалением ошибок, интерактивный просмотр этих данныханалитиком, автоматическое извлечение закономерностей из данных. Всё это позволяет в каждый момент времени иметь полную информацию об организации и эффективно принимать управляющие решения. Механизм OLAP является на сегодня одним из популярных методов анализа данных. Интерактивная аналитическая обработка (OLAP) позволяет получать доступ к статистическим и организованным данным из источников бизнес-данных, например хранилищ данных, в многомерной структуре, именуемой куб.
Технологии OLAP позволяют на основе оперативной базы данных комплекса производить построение многомерных хранилищ данных с целью их экспресс-обработки для принятия управленческих решений.
На протяжении последних десяти
лет в информационной индустрии наблюдается
устойчивый рост интереса к технологиям
анализа данных и основанным на этих технологиях
системам поддержки принятия решений.
За всей областью закрепился, ставший
уже привычным в англоязычной литературе,
термин DataMining или KnowledgeDiscovery. На русском
языке употребляют также словосочетание
"интеллектуальный анализ данных".
Приведем классическое определение этого
термина, предложенное в 1996 году в работе
Fayyad, Piatetsky-Shapiro, и Smyth "
"Thenon-
Популярность DataMining сегодня можно сравнить с его популярностью пол столетия назад, на заре компьютерной эпохи. Тогда, правда, этот термин не был известен, но много говорили об искусственном интеллекте, о нейронных сетях и распознавании образов. Однако, за немногими исключениями, практическую реализацию теории пришлось отложить до тех пор, пока аппаратная и программная инфраструктура не развилась до современного уровня. И сегодня, по завершению пятидесятилетнего цикла развития, мы вновь обращаемся к решению задач анализа, обладая уже для этого мощными вычислительными системами и системами управления базами данных, развитой операционной и языковой средой.
1. Технологии интерактивной аналитической обработки данных (OLAP)
Анализ данных базируется на технологиях интерактивной аналитической обработки данных OLAP (On-LineAnalyticalProcessing) , глубинного анализа данных (DataMining) и визуализации данных.
OLAP (OnlineAnalyticalProcessing) - интерактивная аналитическая обработка данных – это подход к анализу данных и генерации отчетов, позволяющий пользователям легко извлекать электронным способом и рассматривать с различных точек зрения информацию на основе многомерных структур данных, называемых «кубами». OLAP предоставляет информацию пользователям в удобном для анализа виде, выдавая агрегированные данные, по запросу пользователя детализируя их.
В основе технологии OLAP лежит
многомерное представление данных, обеспечивающее
адекватность методов моделирования данных
потребностям их анализа. В многомерной
модели данные представляются в виде кубов
данных (или гиперкубов), имеющих несколько
независимых измерений многомерного пространства
данных, при этом каждому измерению соответствует
некоторый характеризующий какое-либо
качественное свойство данных атрибут
- время, территория, категория продукции
и т.п. На множестве значений атрибутов
могут быть определены иерархические
отношения – “год-квартал-месяц”, “регион-город-район”,
“услуга-консалтинг-
-построения сечения (проекции) куба данных путем фиксации значений наборов атрибутов;
-обобщения данных на
основе использования значений
атрибутов более высокого
-детализации данных (обратной
по отношению к операции
-вращения куба путем изменения порядка измерений.
Технологии глубинного анализа данных позволяют анализировать данные с помощью математических моделей, основанных на статистических, вероятностных или оптимизационных методах, с целью выявления в них заранее неизвестных закономерностей или зависимостей. К задачам глубинного анализа относятся задачи классификации, выявления ассоциаций, поиска типовых образцов на заданном множестве, выявление объектов, не соответствующих общим характеристикам и т.п.
В процессе анализа данных активно используются разнообразные формы их графического представления, облегчающие понимание данных и обеспечивающие возможности качественной оценки их свойств. В случае недостаточности пассивного восприятия применяются операции вращения куба данных, операция пролистывания сечений куба и т.п.
Конечный пользователь может работать с информационно-аналитической системой в двух основных режимах: в режиме построения отчетов и в режиме исследования.
Режим построения отчетов
Режим построения отчетов оптимизирован для создания сводных печатных и/или экранных форм с использованием математических вычислений, сравнительного анализа и многих других возможностей, которые позволяют пользователю привести данные к желаемому виду.
Опыт эксплуатации информационно-аналитических систем показал, что для разных задач и разных групп пользователей требуются совершенно разные подходы доступа к данным. Далее приведены возможные решения организации доступа к данным:
-Windows-интерфейс. Пользовательские
интерфейсы могут быть
-Web-интерфейс. Получение данных через Web-страницы с доступом к любым данным хранилища, а также для выпуска отчетов через Интернет;
-Интерпретатор
-Пакетная генерация отчетов.
Отчеты системы можно
-Библиотека прикладных
классов. Библиотека прикладных
классов может быть объектной
оболочкой над базой данных
системы и предоставлять
-Хранимые процедуры. Доступ
к данным системы можно
Библиотека хранимых процедур может быть разработана таким образом, чтобы предоставлять доступ ко всем данным на чтение, изменение и запись. Для каждого вида объектов (счета, документы, клиенты) можно разработать специальные генерируемые аналитические процедуры, оптимизированные для создания аналитических приложений. Такие как перечисленные ниже:
-Генератор аналитических выборок. Аналитические выборки могут применяться внешними OLAP-инструментами, такими как BusinessObjects, произвольными генераторами отчетов, такими как CrystalReport, другими системами;
-Генератор регламентированных
отчетов. Встроенный в систему
генератор отчетов позволяет
создать отчет автоматически
на основе заданной
-Com-интерфейс. Для доступа
к данным хранилища из сред
программирования типа
-Библиотека функций MS Excel. При установке клиентского модуля системы в Excel добавляется библиотека пользовательских функций. Эта библиотека позволяет создавать произвольные отчеты в Excel с использованием данных системы нетехническим пользователям: бухгалтерам, экономистам;
-Прямой OLAP-анализ. Для выпуска
отчетов и произвольного
-Генерация микрокубов. Микрокуб содержит в себе упакованный набор данных. Он, подобно книге Excel, является универсальным контейнером аналитических приложений;
-Сценарии выгрузки данных.
Может быть разработан
Режим исследования
Режим исследования необходим в том случае, когда пользователю заранее неизвестно, какую информацию и в какой форме он хочет получить. Пользователь лишь исследует данные, выясняя их характеристики с различных точек зрения. Автоматизированный процесс исследования тенденций, моделей и взаимосвязей в данных включает в себя применение статистических методов или искусственного интеллекта для выявления скрытых закономерностей, которые не могут быть обнаружены непосредственно или на интуитивном уровне. Исследование данных позволяет обнаруживать ассоциации (корреляцию между событиями), последовательности (события, ведущие к другим событиям), осуществлять разбиение совокупностей на группы (поиск и визуализация новых групп факторов) и прогнозировать (формировать модели данных, которые позволяют строить прогноз).
Процесс исследования данных включает в себя три основных операции:
-получение среза информации;
-представление информации;
-детализация информации.
Поскольку хранилище данных отражает пространственную организацию предметной области, существует возможность выбрать любые две оси и сделать по ним срез.
Получив срез данных, важно выявить в нем исключительные значения показателей. Самым простым способом поиска подобных величин является представление их в виде диаграммы или графика. Операция представления информации позволяет показать числа в виде столбцов гистограммы или секторов диаграммы.
Выявив исключительные значения, требуется понять, как они возникли, из чего сложены. Применив операцию детализации, можно раскрыть любое значение на его составляющие.
В результате исследования может быть построен отчет. Однако важно подчеркнуть, что приступая к его построению, пользователь заранее не знает, какие данные будут в него включены и какова будет структура самого отчета. Это отличает режим исследования от режима построения отчетов, в котором пользователь заранее предполагает состав данных, структуру и внешний вид отчета.
2. Управление знаниями (КМ), распознавание важной информации (DataMining)