Автор работы: Пользователь скрыл имя, 14 Ноября 2014 в 06:19, контрольная работа
Популярность DataMining сегодня можно сравнить с его популярностью пол столетия назад, на заре компьютерной эпохи. Тогда, правда, этот термин не был известен, но много говорили об искусственном интеллекте, о нейронных сетях и распознавании образов. Однако, за немногими исключениями, практическую реализацию теории пришлось отложить до тех пор, пока аппаратная и программная инфраструктура не развилась до современного уровня. И сегодня, по завершению пятидесятилетнего цикла развития, мы вновь обращаемся к решению задач анализа, обладая уже для этого мощными вычислительными системами и системами управления базами данных, развитой операционной и языковой средой.
Введение…………………………………………………………………………...3
1. Технологии интерактивной аналитической обработки данных (OLAP)…...5
2. Управление знаниями (КМ), распознавание важной информации (DataMining)……………………………………………………………………………10
Заключение……………………………………………………………………….13
Тест: вариант №10……………………………………………………………….13
Список использованных источников…………………………………………...14
Современный компьютерный термин DataMining переводится как «интеллектуальный анализ данных» или «добыча данных». Нередко наряду с DataMining встречаются термины KnowledgeDiscovery («обнаружение знаний») и DataWarehouse («хранилище данных»). Возникновение указанных терминов, которые являются неотъемлемой частью DataMining, связано с новым витком в развитии средств и методов обработки и хранения данных. Итак, цель DataMining состоит в выявлении скрытых правил и закономерностей в больших (очень больших) объемах данных.
Дело в том, что человеческий разум сам по себе не приспособлен для восприятия огромных массивов разнородной информации. В среднем человек, за исключением некоторых индивидуумов, не способен улавливать более двух-трех взаимосвязей даже в небольших выборках. Но и традиционная статистика, долгое время претендовавшая на роль основного инструмента анализа данных, так же нередко пасует при решении задач из реальной жизни. Она оперирует усредненными характеристиками выборки, которые часто являются фиктивными величинами (средней платежеспособностью клиента, когда в зависимости от функции риска или функции потерь вам необходимо уметь прогнозировать состоятельность и намерения клиента; средней интенсивностью сигнала, тогда как вам интересны характерные особенности и предпосылки пиков сигнала и т. д.).
Поэтому методы математической статистики оказываются полезными главным образом для проверки заранее сформулированных гипотез, тогда как определение гипотезы иногда бывает достаточно сложной и трудоемкой задачей. Современные технологии DataMining перерабатывают информацию с целью автоматического поиска шаблонов (паттернов), характерных для каких-либо фрагментов неоднородных многомерных данных.
В отличие от оперативной аналитической обработки данных (OLAP) в DataMining бремя формулировки гипотез и выявления необычных (unexpected) шаблонов переложено с человека на компьютер. DataMining — это не один, а совокупность большого числа различных методов обнаружения знаний. Выбор метода часто зависит от типа имеющихся данных и от того, какую информацию вы пытаетесь получить. Вот, например, некоторые методы: ассоциация (объединение), классификация, кластеризация, анализ временных рядов и прогнозирование, нейронные сети и т. д.
Рассмотрим свойства обнаруживаемых знаний, данные в определении, более подробно.
Знания должны быть новые, ранее неизвестные. Затраченные усилия на открытие знаний, которые уже известны пользователю, не окупаются. Поэтому ценность представляют именно новые, ранее неизвестные знания.
Знания должны быть нетривиальны. Результаты анализа должны отражать неочевидные, неожиданные закономерности в данных, составляющие так называемые скрытые знания. Результаты, которые могли бы быть получены более простыми способами (например, визуальным просмотром), не оправдывают привлечение мощных методов DataMining.
Знания должны быть практически полезны. Найденные знания должны быть применимы, в том числе и на новых данных, с достаточно высокой степенью достоверности. Полезность заключается в том, чтобы эти знания могли принести определенную выгоду при их применении.
Знания должны быть доступны для понимания человеку. Найденные закономерности должны быть логически объяснимы, в противном случае существует вероятность, что они являются случайными. Кроме того, обнаруженные знания должны быть представлены в понятном для человека виде.
В DataMining для представления полученных знаний служат модели. Виды моделей зависят от методов их создания. Наиболее распространенными являются: правила, деревья решений, кластеры и математические функции.
Сфера применения DataMining ничем не ограничена - DataMiningнужен везде, где имеются какие-либо данные. Опыт многих таких предприятий показывает, что отдача от использования DataMining может достигать 1000%. Например, известны сообщения об экономическом эффекте, в 10-70 раз превысившем первоначальные затраты от 350 до 750 тыс. дол. Приводятся сведения о проекте в 20 млн. дол., который окупился всего за 4 месяца. Другой пример - годовая экономия 700 тыс. дол.за счет внедрения DataMining в сети универсамов в Великобритании. DataMining представляют большую ценность для руководителей и аналитиков в их повседневной деятельности. Деловые люди осознали, что с помощью методов DataMining они могут получить ощутимые преимущества в конкурентной борьбе.
Заключение
1. В последние годы аналитическая обработка данных привлекает все большее внимание как в мире, так и в России. Например, аналитические модули появились в составе всех основных западных и российских финансово-производственных приложений - ведь в условиях рыночной экономики качество информационной поддержки деятельности руководителей и аналитиков является одним из факторов достижения успеха предприятия. OLAP и является той технологией, которая превращает "сырые" данные OLTP в информацию и знание для конечных пользователей.
2. Интеллектуальный анализ данных является одним из наиболее актуальных и востребованных направлений прикладной математики. Современные процессы бизнеса и производства порождают огромные массивы данных, и людям становится все труднее интерпретировать и реагировать на большое количество данных, которые динамически изменяются во времени выполнения. Нужно извлекать максимум полезных знаний из многомерных, разнородных, неполных, неточных, противоречивых, косвенных данных. А главное, сделать это эффективно, если объем данных измеряется гигабайтами или даже терабайтами.
Важно предохранить людей от информационной перегрузки, преобразовать оперативные данные в полезную информацию так, чтобы нужные действия могли быть приняты в нужное время.
Тест: вариант №10
Номер вопроса |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
Номер ответа |
1 |
2 |
4 |
3 |
2 |
1 |
1 |
5 |
5 |
1 |
Список использованных источников:
1.Информационные системы и технологии в экономике и управлении: Учебник/ Под.ред. проф. В.В.Трофимова – М.:Высшее образование, 2006.
2. Электонный ресурс: http://ru.wikipedia.org/wiki/
3. Асеев Г.Г. Электронный документооборот /Г.Г. Асеев. — К.: Кондор, 2007.
4. Введение в OLAP. [Электронный ресурс]. — Режим доступа: olap/basic/oolap.asp
5. А.А. Барсегян, М.С. Куприянов, В.В. Степаненко, И.И. Холод: Технологии анализа данных. Data Mining, Visual Mining, Text Mining, OLAP: БХВ-Петербург, 2007