Автор работы: Пользователь скрыл имя, 22 Января 2015 в 10:17, курсовая работа
Целью курсовой работы является теоретическое изучение понятия «хранилища данных», а также анализ построения хранилища данных.
Исходя из целей курсовой работы, ее задачами являются:
- обозначить сущность хранилища данных;
- проанализировать процесс создания хранилища данных;
- рассмотреть архитектуры хранилищ данных;
Ведение ……………………………………………………………………….…..3
1. Сущность и построение хранилища данных ………………………………...5
1.1. Типичная структура хранилища данных ……………………………….….6
1.2. Организация хранилищ данных ……………………………….……….…..11
2. OLAP системы ………………………………………………….……………..16
2.1. Определение OLAP-систем …………………………………………….…..16
2.2. Архитектура OLAP-систем …………………………………………………21
Заключение ………………………………………………………….……………29
Глоссарий ……………………………………………………………………...….31
Список использованных источников ……
Увеличение числа таблиц фактов в базе данных определяется не только множественностью уровней различных измерений, но и тем обстоятельством, что в общем случае факты имеют разные множества измерений. При абстрагировании от отдельных измерений пользователь должен получать проекцию максимально полного гиперкуба, причем далеко не всегда значения показателей в ней должны являться результатом элементарного суммирования. Таким образом, при большом числе независимых измерений необходимо поддерживать множество таблиц фактов, соответствующих каждому возможному сочетанию выбранных в запросе измерений, что также приводит к неэкономному использованию внешней памяти, увеличению времени загрузки данных в БД схемы «звезды» из внешних источников и сложностям администрирования.
Использование реляционных БД в OLAP-системах имеет следующие достоинства:
- в большинстве случаев корпоративные хранилища данных реализуются средствами реляционных СУБД, и инструменты ROLAP позволяют производить анализ непосредственно над ними. При этом размер хранилища не является таким критичным параметром, как в случае MOLAP;
- в случае переменной размерности задачи, когда изменения в структуру измерений приходится вносить достаточно часто, ROLAP-системы с динамическим представлением размерности являются оптимальным решением, т.к. в них такие модификации не требуют физической реорганизации БД;
- реляционные СУБД обеспечивают значительно более высокий уровень защиты данных и хорошие возможности разграничения прав доступа.
Главный недостаток ROLAP по сравнению с многомерными СУБД — меньшая производительность. Для обеспечения производительности, сравнимой с MOLAP, реляционные системы требуют тщательной проработки схемы базы данных и настройки индексов, т.е. больших усилий со стороны администраторов БД. Только при использовании схем типа «звезда» производительность хорошо настроенных реляционных систем может быть приближена к производительности систем на основе многомерных баз данных.
HOLAP-серверы используют
HOLAP применяют подход ROLAP для разреженных
областей многомерного
Таким образом, во-первых, хранилище данных должно решать определенные задачи: получение полной информации о клиенте, предоставление конкретных данных для последующего анализа определенного сегмента рынка и т.д. Во-вторых, хранилище должно быть гибким. Практика показывает, что по мере развития бизнеса задачи меняются. Соответственно, меняются требования к данным, отчетности и, как следствие, к хранилищу. Появление новых систем, слияния и поглощения компаний являются отправной точкой для наполнения хранилища новой информацией. Отсюда следует, что используемые для загрузки данных в хранилища ETL-средства также должны обеспечивать гибкость и быстроту внесения таких изменений. Бизнес требует срочной реакции на любые изменения для правильного принятия решений. В-третьих, хранилище должно быть актуальным. Данные, которые в дальнейшем будут использованы для отчетности или анализа не должны быть устаревшими. Бизнес может оценить значение хранилища при постоянном использовании только свежих, актуальных данных.
При построении хранилища данных, первый, и основной этап – это правильная постановка задачи. Компания должна четко понимать, какую цель она преследует, создавая хранилище. Неверное понимание задачи может привести потом к несоответствию требованиям собственного бизнеса компании. Следующий этап – это выбор технология, которые будут использованы для построения хранилища. Сюда входит выбор средств построения моделей данных, ETL-, BI-средств т.д. в зависимости от поставленной задачи. Дальнейшие этапы совпадают с обычными IT-проектами: анализ структур и качества данных, проектирование, разработка, тестирование и внедрение в эксплуатацию. Практика показывает, что большую сложность вызывает именно этап тестирования результатов, поскольку для этого требуется разработанная технология сравнения получаемых данных с реальными.
Чаще всего хранилища данных на российском рынке используются для получения управленческой отчетности или анализа данных по конкретному сегменту бизнеса компании.
Кроме того, необходимо отметить, что существуют три основных проблемы, которым уделяется недостаточное внимание при создании хранилищ данных: качество данных, оптимальный выбор источников данных и производительность и масштабируемость. На рынке имеется несколько средств очистки данных, которые начинают применяться для очистки грязных данных разнообразных типов. Однако эти средства, конечно, не затрагивают все типы грязных данных, и, конечно, лишь немногие предприятия принимают на вооружение такие средства или процессы для предотвращения или обнаружения и очистки грязных данных, а также для отслеживания и проведения количественной оценки качества данных в хранилищах данных. Сегодня в хранилищах данных содержится множество данных, которые никогда не используются приложениями, выполняемыми над этими хранилищами данных, и эти ненужные данные являются одной из причин снижения эффективности выполнения запросов. Нужно обеспечить возможность регистрации полного набора запросов. Нужно обеспечить возможность регистрации полного набора запросов, генерируемых всеми приложениями, и использования таблиц и полей, фигурирующих в запросах, для тонкой настройки содержимого хранилищ данных. В сегодняшних хранилищах данных для хранения данных и управления ими в значительной степени используются системы РБД. Однако возможности сегодняшних систем РБД не достаточны для обработки запросов, ориентированных на сканирование, таких как группировка записей и вычисление агрегатов, и операций перемещения файлов, которые преобладают на этапе преобразования данных хранилищ данных и этапе подготовки данных при добыче данных.
№ п/п |
Понятие |
Определение |
1 |
Базы данных |
совокупность связанных данных, организованных по определенным правилам, предусматривающим общие принципы описания, хранения и манипулирования, независимая от прикладных программ |
2 |
Хранилище данных |
предметно-ориентированная информационная корпоративная база данных, предназначенная для подготовки отчетов, анализа бизнес-процессов и поддержки принятия решений. |
3 |
Витрина данных |
срез хранилища данных, представляющих собой массив тематической, узконаправленной информации, ориентированной, например, на пользователей одной рабочей группы или департамента. |
4 |
СУБД |
специализированная программа, предназначенная для манипулированная базой данных. |
5 |
Клиент-сервер |
сетевая архитектура, в которой устройства являются либо клиентами, либо серверами. Клиентом является запрашивающая машина (обычно ПК), сервером – машина, которая отвечает на запрос. |
6 |
OLAP |
технология обработки информации, включающая составление и динамическую публикацию отчетов и документов. Используется аналитиками для быстрой обработки сложных запросов к базе данных. |
7 |
Схема «звезды» |
схема звездного соединения – специальная организация реляционных таблиц, удобная для хранения многомерных показателей. Лежит в основе реляционного OLAP. |
8 |
Современные системы поддержки принятия решения (СППР) |
системы, возникшие в результате слияния управленческих информационных систем и систем управления базами данных, представляют собой, максимально приспособленные к решению задач повседневной управленческой деятельности, являются инструментом, призванным оказать помощь лицам, принимающие решения. |
9 |
Метаданные |
это данные, характеризующие или поясняющие другие данные. |
10 |
Сбор данных |
процесс, который состоит в организации передачи данных из внешних источников в хранилищ данных. |
1 |
Гудсон Дж. Практическое руководство по доступу к данным [Текст] / Дж.Гудсон, Р. Стюард Пер.: С. Таранушенко СПб.: БХВ-Петербург, 2013. - 304 с. - ISBN 978-5-9775-0921-3 |
2 |
Дунаев В. Базы данных. Язык SQL для студента [Текст] : СПб.: БХВ-Петербург, 2012. - 320 с. - ISBN 978-5-9775-0113-2 |
3 |
Кузин А. Базы данных [Текст] / А.Кузин, С. Левонисова М.: Академия, 2012. - 320 с. - ISBN 978-5-7695-9308-6 |
4 |
Могилев А. Технологии поиска и хранения информации. Технологии автоматизации управления [Текст] / А. Могилев, Л. Листрова. - СПб.: БХВ-Петербург, 2012. - 320 с. - ISBN 978-5-9775-0469-0 |
5 |
Нестеров С.А. Базы данных [Текст] : М.: Политех, 2013. - 150 с. |
6 |
Ржеуцкая С.Ю. Базы данных. Язык SQL [Текст] : В.: ВоГТУ, 2010. - 159 с. |
7 |
Сарка Д. Microsoft SQL Server 2012. Реализация хранилищ данных. Учебный курс Microsoft [Текст] / Д. Сарка, М. Лах, Г. Йеркич. - М.: Русская Редакция, 2014. - 816 с. - ISBN 978-5-7502-0431-1 |
8 |
Станек У.Р. Microsoft SQL Server 2012. Справочник администратора [Текст] : СПб.: БХВ-Петербург, 2013. - 576 с. - ISBN 978-5-9775-0917-6 |
9 |
Токмаков Г.П. Базы данных. Концепция баз данных, реляционная модель данных, языки SQL [Текст] : УлГТ, 2010. - 193 с. |
10 |
Фуфаев Э.В. Базы данных. Изд. 7-е [Текст] / Э.В. Фуфаев, Д.Э. Фуфаев. - М.: Академия, 2012. - 320 с. |
11 |
Цифровой. Открытые системы. СУБД 10/2013 Периодическое издание [Текст] : М.: Открытые Системы, 2013. |
А |
|
Б |
|
1 Ржеуцкая С.Ю. Базы данных. Язык SQL. С. 69
2 Ржеуцкая С.Ю. Базы данных. Язык SQL. С. 72
3 Фуфаев Э.В. Базы данных. Изд. 7-е. С.183
4 Токмаков Г.П. Базы данных. Концепция баз данных, реляционная модель данных, языки SQL. С. 51
5 Токмаков Г.П. Базы данных. Концепция баз данных, реляционная модель данных, языки SQL. С. 68
6 Токмаков Г.П. Базы данных. Концепция баз данных, реляционная модель данных, языки SQL. С. 53
7 Токмаков Г.П. Базы данных. Концепция баз данных, реляционная модель данных, языки SQL. С. 92
8 Токмаков Г.П. Базы данных. Концепция баз данных, реляционная модель данных, языки SQL. С. 93