Контрольная работы по информатике

Автор работы: Пользователь скрыл имя, 01 Июня 2012 в 14:51, контрольная работа

Краткое описание

Тезаурусы. история, применение, составление.
В настоящее время, на человека обрушивается мощный поток информации, прежде всего документальной, и у него возникают проблемы с ее переработкой. Необходимы специальные методы информационной обработки документов, организации быстрого и эффективного поиска документальной информации. Именно информационно-поисковые тезаурусы служат решению этой проблемы.

Прикрепленные файлы: 1 файл

тезаурус.docx

— 35.35 Кб (Скачать документ)

Титульный лист

 

 

Введение

     В настоящее время в связи с  возрастанием объема документальной информации, необходимой для принятия эффективного управленческого решения, и возможностями, предоставляемыми новыми компьютерными  технологиями, автоматизированные информационно-поисковые  системы стали широко использоваться в различных сферах экономики.

     Организация быстрого и эффективного поиска документальной информации становится все более неразрешимой проблемой.

     Цель  документального поиска - нахождение и выдача соответствующих запросу  пользователя документов или их описаний.

     Традиционно информационно-поисковые системы (ИПС) применяются для тематического  поиска научно-технической информации в крупных библиотеках, научно-технических  центрах, архивах, патентных библиотеках.

     Таким образом, сфера приложения для технологий информационно-поисковых систем представляется достаточно широкой.

     При автоматизации поиска документальной информации важнейшей является задача формализации содержания документа  и запроса. При этом поиск происходит по всему тексту документа или  по его поисковому образу, а в  качестве запроса чаще всего выступают  отдельные ключевые слова или  их логические комбинации. Именно на этой технологии основано действие информационно-поискового тезауруса (ИПТ). Цель моей работы - дать необходимые определения, определить цели разработки ИПТ, его структуру  и построение, а также значение и перспективы развития.

 

     

1. Информационно-поисковые системы

     Автоматизированный  документальный поиск может быть организован на основе различных  технологий: поиска по поисковому образу документа, поиска по полному тексту документа, поиска документов по гипертекстовым ссылкам.

     Технология  полнотекстового поиска является неотъемлемой составляющей таких современных  и перспективных информационных технологий, как: системы управления документами (Document management system, DMS), технологии групповой работы над документами (groupware), технологии поиска в Internet/intranet. На технологии гипертекста базируется самый известный сервис Internet World Wide Web (WWW).

     Информационно-поисковая  система для управленческих документов, как правило, требует разработки собственного информационно-поискового языка, адекватного данной предметной области.

     В документальных информационно-поисковых  системах поиск документа происходит по краткому формализованному описанию его содержания - так называемому  поисковому образу документа.

     Важнейшей структурной составляющей является информационно-поисковый язык.

     Информационно-поисковый  язык, ИПЯ (indexing language, retrieval language) - искусственный язык для выражения содержания документов или запросов с целью последующего поиска.

     Основное  назначение ИПЯ - установить принадлежность того или иного документа к  определенной группе понятий.

     Перевод текстов документов и запросов на ИПЯ называется индексированием.

     В результате индексирования содержание документа отображается в поисковый  образ документа, а содержание запроса - в поисковое предписание.

     Индексирование  может быть ручным (когда его производит человек) или автоматическим.

     Для общения человека с компьютером  разрабатываются специальные искусственные  языки, естественный язык (ЕЯ) в этом качестве пока не может быть использован  без специального предварительного преобразования. В естественном языке  присутствуют: синонимия, омонимия и  полисемия, избыточность, субъективность и другие свойства, препятствующие его автоматизированной обработке.

     Синонимы - слова, различающиеся по написанию, но совпадающие по смыслу (Россия, РФ, Российская Федерация).

     Омонимы - слова, совпадающие по звуковому  и графическому составу, но имеющие  разные значения (ключ может быть - телеграфный, поисковый, к замку, к шкафу и  т.д.).

     Полисемия - наличие у одного и того же слова  нескольких разных, но связанных между  собой значений (например: фамилия - как имя и фамилия - как семья).

     Избыточность  ЕЯ - наличие лишней информации, без  которой можно точно и однозначно установить смысл или значение сообщения. Таким образом, в естественном языке  часто нет однозначного соответствия между словом и его значением.

     Искусственный язык, как правило, разрабатывается  на основе ЕЯ. При этом устраняется  многозначность слов ЕЯ.

     Слова любого языка в процессе отображения  предметов реального мира вступают между собой в определенные отношения. Эти отношения можно разделить  на парадигматические и синтагматические.

     Парадигматические отношения - логические отношения, существующие между лексическими единицами ИПЯ  независимо от контекста, в котором  эти лексические единицы употребляются. Эти отношения обусловлены предметно-логическими, а не языковыми факторами, т.е. относятся  к категории внеязыковых связей. Примеры парадигматических отношений: часть - целое (отдел - организация); род - вид (ценная бумага - акция); причина - следствие; функциональное сходство; ассоциации.

     Учет  парадигматических отношений необходим  для правильного выбора и точного  употребления слов.

     Наиболее  часто в качестве основания деления  при классификации ИПЯ используют способ организации понятий. По способу  организации понятий различают: предкоординируемые (классификационные) ИПЯ; посткоординируемые (дескрипторные) ИПЯ.

     Дескрипторные языки семантически более сильны, чем классификационные, но более  сложны для формальной обработки.

     Дескриптор - ключевое слово или словосочетание, служащее именем класса эквивалентных  ключевых слов (синонимов). Как правило, в качестве дескриптора выбирают одно, наиболее употребляемое ключевое слово из класса синонимичных ключевых слов.

     Разработка  дескрипторного языка фактически сводится к разработке информационно-поискового тезауруса.

2. Информационно-поисковый тезаурус: определение, цель разработки

     Тезаурус - термин, широко используемый в информатике  как составная часть информационно-поисковых  систем.

     Можно выделить два определения информационно-поискового тезауруса:

     1. Информационно-поисковый тезаурус  представляет собой словарь, отображающий  семантические отношения между  лексическими единицами дескрипторного  информационно-поискового языка  (дескрипторами) и предназначенный  для поиска слов по их смысловому  содержанию.

     2. Информационно-поисковый тезаурус (ИПТ) - контролируемый словарь терминов  предметной области, создаваемый  для улучшения качества информационного  поиска в данной предметной  области.

     И в том, и в другом случае речь идет о словаре, который призван облегчить  поиск необходимой информации.

     Возможно  два способа расположения слов в  словарях: по близости их буквенного состава  и по смысловой близости.

     По  первому способу создаются алфавитные словари. По второму способу - тезаурусы. Алфавитные словари служат для раскрытия  значения данного слова. Тезаурусы  служат для поиска слов для выражения  данного понятия. Т.е., если в обычном  словаре по слову ищется его смысл, то в тезаурусе по заданному смыслу ищутся слова, которые этот смысл  выражают. 

     Цели  разработки ИПТ:

     - перевод языка авторов на контролируемый  язык, используемый для индексации  и поиска;

     - обеспечение последовательности  в присваивании индексных терминов;

     - обозначение отношений между  терминами;

     - облегчение информационного поиска.

3. Использование информационно-поисковых тезаурусов

     Тезаурусы используют в своей работе специалисты, в той или иной степени связанные  с подготовкой и обработкой текстовой  информации: переводчики, редакторы, научные  работники, референты и др.

     Информационно-поисковые  тезаурусы используются при индексировании документов и запросов.

     Различают безтезаурусное индексирование и индексирование с тезаурусным контролем лексики.

     При безтезаурусном индексировании поисковый образ документа представляется в виде списка ключевых слов, выбранных непосредственно из текста документа. Такое индексирование требует меньше времени и менее трудоемко. Однако такой режим индексирования обладает рядом недостатков: возможна синонимия; нельзя отразить парадигматические отношения.

     При индексировании с тезаурусным контролем  лексики для выражения содержания документа и запроса используют только дескрипторы, входящие в информационно-поисковый  тезаурус, что позволяет исключить  синонимию и учесть парадигматические связи, и, в конечном счете, повышает эффективность поиска.

     Таким образом, информационно-поисковые тезаурусы  используются для:

     - перевода текста с ЕЯ на  дескрипторный ИПЯ путем замены ключевых слов соответствующими дескрипторами, при этом исключается многозначность;

     - отображения парадигматических  связей между дескрипторами.

4. Структура информационно-поискового тезауруса

     Тезаурус  имеет вид словаря, в котором  в определенном порядке расположены  термины и зафиксированы связи  между ними.

     Как правило, тезаурус состоит из введения, алфавитного указателя (словарная  часть) и систематического указателя.

     Введение  содержит общие характеристики тезауруса - область применения, правила использования, число дескрипторов, ключевых слов и другую справочную информацию.

     Алфавитный  указатель включает алфавитный перечень дескрипторных статей.

     Дескрипторная статья может иметь следующую  структуру:

     - заглавный дескриптор;

     - ключевые слова из класса эквивалентности;

     - дескрипторы, подчиняющие заглавный;

     - дескрипторы, подчиненные заглавному;

     - дескрипторы, ассоциированные с  заглавным.

     Ассоциации  могут быть следующих видов:

    • причина - следствие;
    • сырье - продукт;
    • процесс - объект;
    • процесс - субъект;
    • свойство - носитель свойства;
    • функциональное сходство и др.

     Систематический указатель служит для раскрытия, учета и контроля парадигматических  отношений между дескрипторами. Для каждого дескриптора ИПЯ  должны быть найдены соответствующие  родовые и видовые дескрипторы. Причем предварительно необходимо сформулировать критерии, определяющие число уровней  иерархии. Определение степени отображения  парадигматических отношений зависит  от требований, предъявляемых к системе. Чем шире эти отношения отображены, тем выше полнота выдачи, но одновременно происходит увеличение словарного запаса, усложняется система ссылок и  может произойти уменьшение точности поиска.

5. Методика создания  тезауруса

     Тезаурусы разрабатываются для отдельных  отраслей. Например, существует «Тезаурус  по документации», «Дескрипторный словарь  по информатике» и т.п. Тезаурус может  быть разработан и для обслуживания конкретной информационно-поисковой  системы. 

      

     Построение  тезауруса состоит из нескольких взаимосвязанных этапов.  Первый этап - формирование словника.

     Словник - первоначальные множества ключевых слов. При этом рассматривается представительный массив наиболее информативных для  данной предметной области документов.

Информация о работе Контрольная работы по информатике