Хранилища данных

Автор работы: Пользователь скрыл имя, 19 Апреля 2012 в 11:26, доклад

Краткое описание

В начале восьмидесятых годов прошлого века, в период бурного развития регистрирующих информационных систем, возникло понимание ограниченности возможности их применения для целей анализа данных и построения на их основе систем поддержки и принятия решений. Регистрирующие системы создавались для автоматизации рутинных операций по ведению бизнеса – выписка счетов, оформление договоров, проверка состояния склада и т.д., и основными пользователями таких систем был линейный персонал. Основными требованиями к таким системам были обеспечение транзакционности вносимых изменений и максимизация скорости их выполнения.

Прикрепленные файлы: 1 файл

Хранилища данных.doc

— 87.00 Кб (Скачать документ)

Введение

     В начале восьмидесятых годов прошлого века, в период бурного развития регистрирующих информационных систем, возникло понимание ограниченности возможности их применения для целей  анализа данных и построения на их основе систем поддержки и принятия решений. Регистрирующие системы создавались для автоматизации рутинных операций по ведению бизнеса – выписка счетов, оформление договоров, проверка состояния склада и т.д., и основными пользователями таких систем был линейный персонал. Основными требованиями к таким системам были обеспечение транзакционности вносимых изменений и максимизация скорости их выполнения.

     Для менеджеров и аналитиков в свою очередь  требовались системы, которые бы позволяли:

Анализировать информацию во временном аспекте;
Формировать произвольные запросы к системе;
Обрабатывать  большие объемы данных;
Интегрировать данные из различных регистрирующих систем.

     Очевидно, что регистрирующие системы не удовлетворяли  ни одному из вышеуказанных требований. В регистрирующей системе информация актуальна только на момент обращения к базе данных, в следующий момент времени по тому же запросу Вы можете получить совершенно другой результат. Интерфейс регистрирующих систем рассчитан на проведение жестко определенных операций и возможности получения результатов на нерегламентированный (ad-hoc) запрос сильно ограничены. Ответом на возникшую потребность стало появление новой технологии организации баз данных – технологии хранилищ данных.

Целью моего реферата является раскрытие следующей темы:

  • Что такое хранилище данных? Каковы отличительные особенности хранилища данных?
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Определение хранилища данных

      Концепция информационных хранилищ зародилась в 80-х годах в недрах IBM. Идея хранилищ данных обязана своим развитием многим людям.  Первой публикацией, посвященной именно хранилищам данных, была статья Девлина (Devlin) и Мэрфи(Murphy) , вышедшая в 1988 году. В 1992 году Уильям Г.Инмон (William H. Inmon), который был техническим директором компании Prism, и написал монументальную монографию «Building the Data Warehouse» («Построение хранилищ данных»), в которой дал определение хранилища данных:

     Хранилище данных — это предметно-ориентированная, интегрированная, вариантная по времени, не разрушаемая совокупность данных, предназначенная для поддержки принятия управленческих решений.

     В широком смысле, хранилище данных — ориентированная на поддержку управленческих решений автоматизированная система, состоящая из организационной структуры, технических средств, базы или совокупности базы данных (БД) и ПО, которое выполняет, как правило, следующие функции:

    • извлечение данных из разрозненных источников, их трансформация и загрузка в хранилище;
    • администрирование данных и хранилища;
    • извлечение данных из хранилища, аналитическая обработка и представление данных конечным пользователям.

      Ральф Кимбалл (Ralph Kimball), один из авторов концепции хранилищ данных, описывал хранилище данных как «место, где люди могут получить доступ к своим данным». Он же сформулировал и основные требования к хранилищам данных:

  • поддержка высокой скорости получения данных из хранилища;
  • поддержка внутренней непротиворечивости данных;
  • возможность получения и сравнения так называемых срезов данных (slice and dice);
  • наличие удобных утилит просмотра данных в хранилище;
  • полнота и достоверность хранимых данных;
  • поддержка качественного процесса пополнения данных.

     Схему хранилища данных можно представить  следующим образом:

     Данные  из различных источников помещаются в хранилище, а их описания — в  репозиторий метаданных. Конечный пользователь с помощью различных инструментов может анализировать данные в хранилище. Результатом является информация в виде готовых отчетов, найденных скрытых закономерностей, каких-либо прогнозов. Так как средства работы конечного пользователя с хранилищем данных могут быть самыми разнообразными, то теоретически их выбор не должен влиять на структуру хранилища и функции его поддержания в актуальном состоянии. Физическая реализация данной схемы может быть самой разнообразной.

     Развитие  хранилищ данных обусловлено:

    • созданием развитого ПО оперативного анализа данных и нерегламентированных запросов пользователей;
    • появлением новых типов БД на основе многомерной модели и параллельной обработки запросов, которые опирались на достижения в области параллельных компьютеров;
    • появлением ПО промежуточного слоя, обеспечившие связь между разнотипными БД;
    • резким снижением стоимости хранения информации.

      Системы оперативных данных и информационные системы на основе хранилищ данных обладают рядом противоположных  характеристик, которые лучше всего сравнивать непосредственно одну с другой. В таблице 1 приведен краткий перечень основных свойств систем каждого типа.

Таблица 1. Сравнительные  характеристики хранилищ данных и оперативных  систем

Системы хранилищ данных Оперативные системы
Используются  руководством Используются  работниками «переднего края»
Стратегическое  значение Тактическое значение
Поддерживают  стратегические направления развития бизнеса Поддерживают  повседневную деятельность
Используются  для интерактивного анализа Используются  для обработки транзакций
Предметно-ориентированные Ориентированны  на приложения
Хранят  исторические данные Хранят только текущие данные
Непредсказуемые запросы Предсказуемые запросы

 

      В настоящее время хранилища данных построены для столь большого числа предметных областей, что их невозможно здесь перечислить. Масштабы и способ использования этих хранилищ данных изменяются в широких пределах в зависимости от типа организации и вида деловой информации, для поддержки которых они разрабатывались. Вот некоторые из наиболее распространенных областей применения хранилищ данных:

    · Анализ рисков

    · Финансовый анализ

    · Анализ случаев мошенничества

    · Маркетинг взаимоотношений

    ·Управление активами

    · Анализ стереотипов поведения клиентов

Особенности хранилища данных

      Хранилище данных создается с целью интеграции в одном месте, согласования и, возможно, агрегации ранее разъединенных детализированных данных:

  • Исторических архивов
  • Данных из оперативных систем
  • Данных из внешних источников
  • Разделения наборов данных, используемых для оперативной обработки, и наборов данных, используемых для решения задач поддержки принятия решений
  • Обеспечения всесторонней информационной поддержки максимальному кругу пользователей.

      Хранилище данных играет в первую очередь роль интегратора и аккумулятора исторических данных. Структура организации хранилища ориентированна на предметные области. Предметно-ориентированное хранилище содержит данные, поступающие из различных оперативных БД и внешних источников. Хранилище представляет собой совокупность данных, отвечающую следующим характеристикам:

  • ориентированность на предметную область или ряд предметных областей,
  • интегрированность,
  • зависимость от времени (поддержка хронологии),
  • постоянство.

Ориентированность на предметную область

      Первая  особенность хранилища данных заключается  в его ориентированности на предметный аспект. Предметная направленность контрастирует  с классической ориентированностью прикладных приложений на функциональность и процессы.

      Приложения  всегда оперируют функциями, такими, например, как открытие сделки, кредитование, выписка накладной, зачисление на счет и т.д. Хранилище данных организовано вокруг фактов и предметов, таких, как сделка, сумма кредита, покупатель, поставщик, продукт и т.д.

Интегрированность

      Наиболее  важный аспект хранилища данных состоит  в том, что данные, находящиеся в хранилище, интегрированы.

      Интегрированность проявляется во многих аспектах:

  • в согласованности имен,
  • в согласованности единиц измерения переменных,
  • в согласованности структур данных,
  • в согласованности физических атрибутов данных и др.

      Интеграция  данных по единицам измерения атрибутов  состоит в следующем. Разработчики приложений к вопросу о способе задания размеров продукции могут подходить несколькими путями. Размеры могут задаваться в сантиметрах, дюймах, ядрах и т.д. Каков бы ни был источник данных, если информация поступит в хранилище, она должна быть приведена к одним и тем же единицам измерения, принятым в качестве стандарта в хранилище.

Зависимость от времени

      Все данные в хранилище в определенный момент времени совместны (непротиворечивы). Для оперативных систем эта базовая характеристика данных соответствует совместности данных в момент доступа. Когда в оперативной среде осуществляется доступ к данным, ожидается, что данные имеют совместные значения только в момент доступа к ним.

      Зависимость от времени хранилища данных проявляется  в следующем. Данные в хранилище  представлены за временной промежуток от года до 10 лет. В оперативной среде представление данных осуществляется в промежутке от текущего значения до нескольких десятков дней. Приложения с высокой производительностью для обеспечения эффективного процесса транзакций должны работать с минимальным количеством данных. Следовательно, оперативные приложения ориентированны на короткий временной промежуток.

      Другое  проявление зависимости хранилища  данных от времени заключается в  его структуре. Каждая структура  хранилища включает – явно или  неявно – элемент времени.

      Третье  проявление зависимости хранилища данных от времени состоит в неукоснительном выполнении правила, что данные, однажды корректно в хранилище записанные, не могут быть обновлены. Хранилище данных с точки зрения практического использования представляет собой большую серию моментальных снимков. Естественно, если моментальный снимок данных был сделан некорректно, он может быть изменен. Но если был получен корректный моментальный снимок, то, однажды сделанный, он в последующем изменению не подлежит. Оперативные данные, будучи корректны в момент доступа к ним, могут обновляться по мере необходимости.

Постоянство

      Четвертая определяющая характеристика хранилища  данных – это постоянство. В оперативной  среде операции обновления, добавления, удаления и изменения производятся над записями регулярно. Базовые манипуляции с данными хранилища ограничены начальной загрузкой данных и доступом к ним. В хранилище данных обновление данных не производится. Исходные (исторические) данные, после того как они были согласованны, верифицированы и внесены в хранилище данных, остаются неизменными и используются исключительно в режиме чтения.

      Существуют  важные последствия различия обработки  данных в оперативной среде и  обработки в хранилище данных. На уровне проектирования хранилища  данных необходимость в поддержке механизмов, обеспечивающих корректность обновлений, отпадает – обновления в хранилище данных не производятся. Это означает, что на физическом уровне проектирования при решении проблемы нормализации и физической денормализации доступ к данным может оптимизироваться без каких-либо ограничений. Другое последствие простоты работы с данными хранилища касается технологии работы с данными. Технология работы с данными в оперативной среде отличается большей сложностью. Она поддерживает функции оперативного резервного копирования и восстановления, обеспечивает целостность данных, включает механизмы разрешения конфликтов и тупиковых ситуаций. Для обработки информации в хранилище данных указанные функции не столь критичны.

Информация о работе Хранилища данных