Автор работы: Пользователь скрыл имя, 01 Июня 2012 в 14:51, контрольная работа
Тезаурусы. история, применение, составление.
В настоящее время, на человека обрушивается мощный поток информации, прежде всего документальной, и у него возникают проблемы с ее переработкой. Необходимы специальные методы информационной обработки документов, организации быстрого и эффективного поиска документальной информации. Именно информационно-поисковые тезаурусы служат решению этой проблемы.
Титульный лист
Введение
В настоящее время в связи с возрастанием объема документальной информации, необходимой для принятия эффективного управленческого решения, и возможностями, предоставляемыми новыми компьютерными технологиями, автоматизированные информационно-поисковые системы стали широко использоваться в различных сферах экономики.
Организация быстрого и эффективного поиска документальной информации становится все более неразрешимой проблемой.
Цель документального поиска - нахождение и выдача соответствующих запросу пользователя документов или их описаний.
Традиционно
информационно-поисковые
Таким образом, сфера приложения для технологий информационно-поисковых систем представляется достаточно широкой.
При автоматизации поиска документальной информации важнейшей является задача формализации содержания документа и запроса. При этом поиск происходит по всему тексту документа или по его поисковому образу, а в качестве запроса чаще всего выступают отдельные ключевые слова или их логические комбинации. Именно на этой технологии основано действие информационно-поискового тезауруса (ИПТ). Цель моей работы - дать необходимые определения, определить цели разработки ИПТ, его структуру и построение, а также значение и перспективы развития.
1. Информационно-поисковые системы
Автоматизированный документальный поиск может быть организован на основе различных технологий: поиска по поисковому образу документа, поиска по полному тексту документа, поиска документов по гипертекстовым ссылкам.
Технология полнотекстового поиска является неотъемлемой составляющей таких современных и перспективных информационных технологий, как: системы управления документами (Document management system, DMS), технологии групповой работы над документами (groupware), технологии поиска в Internet/intranet. На технологии гипертекста базируется самый известный сервис Internet World Wide Web (WWW).
Информационно-поисковая система для управленческих документов, как правило, требует разработки собственного информационно-поискового языка, адекватного данной предметной области.
В документальных информационно-поисковых системах поиск документа происходит по краткому формализованному описанию его содержания - так называемому поисковому образу документа.
Важнейшей структурной составляющей является информационно-поисковый язык.
Информационно-поисковый язык, ИПЯ (indexing language, retrieval language) - искусственный язык для выражения содержания документов или запросов с целью последующего поиска.
Основное назначение ИПЯ - установить принадлежность того или иного документа к определенной группе понятий.
Перевод текстов документов и запросов на ИПЯ называется индексированием.
В результате индексирования содержание документа отображается в поисковый образ документа, а содержание запроса - в поисковое предписание.
Индексирование может быть ручным (когда его производит человек) или автоматическим.
Для
общения человека с компьютером
разрабатываются специальные
Синонимы - слова, различающиеся по написанию, но совпадающие по смыслу (Россия, РФ, Российская Федерация).
Омонимы - слова, совпадающие по звуковому и графическому составу, но имеющие разные значения (ключ может быть - телеграфный, поисковый, к замку, к шкафу и т.д.).
Полисемия - наличие у одного и того же слова нескольких разных, но связанных между собой значений (например: фамилия - как имя и фамилия - как семья).
Избыточность
ЕЯ - наличие лишней информации, без
которой можно точно и
Искусственный язык, как правило, разрабатывается на основе ЕЯ. При этом устраняется многозначность слов ЕЯ.
Слова любого языка в процессе отображения предметов реального мира вступают между собой в определенные отношения. Эти отношения можно разделить на парадигматические и синтагматические.
Парадигматические
отношения - логические отношения, существующие
между лексическими единицами ИПЯ
независимо от контекста, в котором
эти лексические единицы
Учет
парадигматических отношений
Наиболее
часто в качестве основания деления
при классификации ИПЯ
Дескрипторные языки семантически более сильны, чем классификационные, но более сложны для формальной обработки.
Дескриптор - ключевое слово или словосочетание, служащее именем класса эквивалентных ключевых слов (синонимов). Как правило, в качестве дескриптора выбирают одно, наиболее употребляемое ключевое слово из класса синонимичных ключевых слов.
Разработка дескрипторного языка фактически сводится к разработке информационно-поискового тезауруса.
2. Информационно-поисковый тезаурус: определение, цель разработки
Тезаурус
- термин, широко используемый в информатике
как составная часть
Можно
выделить два определения информационно-
1.
Информационно-поисковый
2.
Информационно-поисковый
И в том, и в другом случае речь идет о словаре, который призван облегчить поиск необходимой информации.
Возможно два способа расположения слов в словарях: по близости их буквенного состава и по смысловой близости.
По
первому способу создаются
Цели разработки ИПТ:
-
перевод языка авторов на
-
обеспечение
- обозначение отношений между терминами;
-
облегчение информационного
3. Использование
Тезаурусы используют в своей работе специалисты, в той или иной степени связанные с подготовкой и обработкой текстовой информации: переводчики, редакторы, научные работники, референты и др.
Информационно-поисковые тезаурусы используются при индексировании документов и запросов.
Различают безтезаурусное индексирование и индексирование с тезаурусным контролем лексики.
При безтезаурусном индексировании поисковый образ документа представляется в виде списка ключевых слов, выбранных непосредственно из текста документа. Такое индексирование требует меньше времени и менее трудоемко. Однако такой режим индексирования обладает рядом недостатков: возможна синонимия; нельзя отразить парадигматические отношения.
При
индексировании с тезаурусным контролем
лексики для выражения
Таким
образом, информационно-поисковые
- перевода текста с ЕЯ на дескрипторный ИПЯ путем замены ключевых слов соответствующими дескрипторами, при этом исключается многозначность;
- отображения парадигматических связей между дескрипторами.
4. Структура информационно-
Тезаурус имеет вид словаря, в котором в определенном порядке расположены термины и зафиксированы связи между ними.
Как правило, тезаурус состоит из введения, алфавитного указателя (словарная часть) и систематического указателя.
Введение содержит общие характеристики тезауруса - область применения, правила использования, число дескрипторов, ключевых слов и другую справочную информацию.
Алфавитный указатель включает алфавитный перечень дескрипторных статей.
Дескрипторная статья может иметь следующую структуру:
- заглавный дескриптор;
-
ключевые слова из класса
-
дескрипторы, подчиняющие
-
дескрипторы, подчиненные
-
дескрипторы, ассоциированные
Ассоциации могут быть следующих видов:
Систематический
указатель служит для раскрытия,
учета и контроля парадигматических
отношений между дескрипторами.
Для каждого дескриптора ИПЯ
должны быть найдены соответствующие
родовые и видовые дескрипторы.
Причем предварительно необходимо сформулировать
критерии, определяющие число уровней
иерархии. Определение степени
5. Методика создания тезауруса
Тезаурусы разрабатываются для отдельных отраслей. Например, существует «Тезаурус по документации», «Дескрипторный словарь по информатике» и т.п. Тезаурус может быть разработан и для обслуживания конкретной информационно-поисковой системы.
Построение тезауруса состоит из нескольких взаимосвязанных этапов. Первый этап - формирование словника.
Словник
- первоначальные множества ключевых
слов. При этом рассматривается