Лингвистическое обеспечение АБИС

Автор работы: Пользователь скрыл имя, 29 Августа 2013 в 12:44, курсовая работа

Краткое описание

Лингвистическое обеспечение включает в себя лингвистические средства и средства манипулирования с данными и информационными массивами. Лингвистические средства — это совокупность информационно-поисковых языков (ИПЯ), используемых в информационно-поисковой системе (ИПС), правил перевода информации с естественного языка на ИПЯ и критерия выдачи информации, обеспечивающих представление смыслового содержания документов информационных массивов в виде, удобном для машинной обработки и обеспечивающем автоматизированный поиск информации. Информационно-поисковые языки являются основным элементом ЛО, поскольку от них зависит эффективность поиска. Они предназначены для выражения основного содержания документов и информационных запросов с целью последующего хранения и поиска информации в ИПС. Информационно-поисковые языки по сути считаются главной характеристикой ИПС, поскольку от их качества (терминологической наполненности, терминологической однозначности лексических единиц, наличия логической связи между элементами, справочного аппарата, удобства пользования и т. д.) зависит эффективность поиска, его полнота и точность.

Содержание

Введение ……..………………………………………………………….

Глава 1. Лингвистическое обеспечение АБИС.
Теоретический аспект. ………………………………………….………

Понятие, состав и задачи лингвистического обеспечения………………

Современные тенденции в развитии
лингвистического обеспечения АБИС. …………………………………

Глава 2. Средства лингвистического обеспечения АБИС ……………….……

ИПЯ ….……………………………………………………………………..

Дескрипторный язык.
Тезаурус - назначение, структура и использование …………….….…

Классификационные языки ……………………………………………...

Язык алфавитно-предметной классификации …………………...………

Средства лексического обеспечения
ГУ «Витебская областная библиотека им. В.И. Ленина» ……………………..

Заключение ……………………..………………………………………….

Список сокращений …………………………………………………………..

Библиография …………………………………………………………..

Прикрепленные файлы: 1 файл

Лингвистическое обеспечение АБИС.docx

— 99.38 Кб (Скачать документ)

Основные  функции лингвистического обеспечения  АБИС связаны с обеспечением индексирования документов и запросов, а также  эффективного поиска в электронном  каталоге. Лингвистическое обеспечение  корпоративной АБИС в отличие  от локальной АБИС носит более  универсальный или комплексный  характер (например, может включать несколько классификационных языков или единую систему предметных рубрик) и требует соблюдения дополнительных условий реализации лингвистической совместимости.

Лингвистическое обеспечение АБИС понимается как  применяемая в ее технологиях  совокупность информационных языков, словарных баз данных, лингвистических  процессоров и средств ведения  и использования словарей. Оно  предназначено обеспечить индексирование документов и запросов, эффективный  поиск в документальных базах  данных по тематическим запросам, лингвистическую  совместимость электронного каталога библиотеки с электронными каталогами других библиотек и информационных центров.

Планируя  развитие лингвистического обеспечения, необходимо исходить из потребностей пользователей, которые могут быть многообразны. Лингвистическое обеспечение в АБИС должно реализовывать тематический поиск отраслевого и предметного типа. Поиск поддерживается различными классификационными системами, словарями, тезаурусами, соответствующими языками индексирования и информационно-поисковыми языками.

В АБИС предпочтительно  параллельное использование нескольких классификационных систем, что расширяет  возможности поиска, совместимости  и обмена. Так, Универсальная десятичная классификация (УДК) по сравнению с  Десятичной классификацией Дьюи (ДКД) является более гибкой системой, обладающей богатым набором средств отражения  и синтеза информации, что позволяет  наиболее полно отображать содержание документа и легко создавать  индексы для новых и измененных понятий. Правила построения индексов УДК строго не регламентированы, что  приводит к большой свободе интерпретации. Кроме того, эталонный вариант  УДК содержит только 61 тыс. записей, а национальные варианты – в два  раза большее число записей, что  определяет расхождения в индексировании на глубоких уровнях. С другой стороны  ДКД свойственна универсальность  средств и правил построения индексов и единообразие схемы и практики использования классификации на разных языках. Таким образом, одна и та же черта классификационной  системы, как например, гибкость УДК, может иметь не только положительную, но и отрицательную сторону, поскольку  нарушает ее универсальность и осложняет  доступ к информации. Поэтому представляется целесообразным пойти по пути совместного  использования УДК и ДКД, что  ответит интересам пользователей, заинтересованных в поиске нужных документов, и организаций, обменивающихся библиографической  информацией. Так же не следует, отказываться от отечественных классификационных  систем (ББК, ГРНТИ), поскольку ни одна международная классификационная  система не отражает в должной  степени национальные особенности нашей страны. Все отмеченные классификационные системы успешно развиваются.

Библиотечная  практика показывает, что пользователь чаще заинтересован в использовании  информационных языков вербального  типа, чем информационных языков классификационного типа. Классификационные языки обеспечивают в основном поиск по запросам отраслевого  характера и обладают большей  универсальностью и формализованностью, а вербальные языки – по запросам предметного характера, а именно предметные запросы чаще всего делаются пользователями.

В качестве языков индексирования вербального  типа могут выступать языки предметных рубрик и ключевых терминов. При  этом язык предметных рубрик является менее эффективным средством  тематического поиска ввиду отсутствия единой системы предметизации и  универсального словаря предметных рубрик, кроме того не всякая поисковая система может обеспечить поиск целиком по всей рубрике. Поэтому представляется целесообразным использовать в АБИС в качестве информационно-поискового языка вербального типа язык ключевых терминов, а поисковые образы документов вести на языке ключевых терминов или транслировать с языка предметных рубрик на язык ключевых терминов (применяя соответствующий лингвистический процессор).

 ГПНТБ  России продолжает использовать  предметные рубрики в практике  индексирования. Ведется база данных  предметных рубрик библиотеки. Однако  сами индексаторы высказываются  в пользу языка ключевых терминов.       Сам пользователь также заинтересован  оперировать ключевыми терминами,  которые являются для него  наиболее понятным поисковым  средством. Кроме того, при данном  виде поиска пользователь может  обогащать свой запрос, используя  тезаурус. Практика показывает, что  при поиске с помощью ключевых  терминов удается найти большее  число релевантных документов, чем  при поиске с помощью предметных  рубрик.

Современный уровень автоматизации требует  наличия в АБИС словарных баз  данных, а также средств их автоматизированного  ведения и использования при  поиске. Оптимальным вариантом представляется функционирование в рамках АБИС автоматизированной системы словарного обеспечения, которая  поддерживает ведение словарей. [14. С. 54-55 моя ссылка]

    1. Современные тенденции в развитии

лингвистического обеспечения  АБИС

 

Словарные средства АБИС обычно требуют многолетнего рутинного ведения, поэтому прогресс в развитии лингвистического обеспечения  не столь очевиден, как например в развитии аппаратного или программного обеспечения. При этом очень часто  именно изменение или усложнение последних компонент вызывает продвижение  вперед первой. Можно выделить следующие  современные тенденции в развитии лингвистического обеспечения АБИС.

Комплексное использование элементов библиографического описания, классификационных индексов, ключевых терминов/слов, предметных рубрик в качестве ключевых элементов при  поиске.

Следует избегать смешения понятий ключевых терминов/слов и применения при индексировании одновременно и тех, и других элементов. Это приводит к усложнению правил нормирования лексики и правил индексирования, что затрудняет работу индексаторов. Использование стандартизованных  изолированных прилагательных в  форме единственного числа требует  знания пользователем правил индексирования или же обязательного наличия  в системе лингвистического процессора отсечения окончаний. Перевод прилагательных в существительные при нормировании ключевых слов влечет за собой проблему выбора слов/основ при составлении  поискового предписания. Кроме того, индексирование документов с помощью ключевых слов не дает возможности пользователю получить представление о содержании документа на основе ПОД и судить о релевантности документа.

Применение  в технологии индексирования одного или нескольких классификационных  языков, обеспечивающих поиск по широкотематическим запросам, и хотя бы одного вербального  языка, обеспечивающего поиск по узкотематическим запросам. В числе  классификационных языков один должен быть универсальным, а другие могут  носить отраслевой или локальный  характер (например классификация стандартов, патентов, архивная классификация).

Среди вербальных языков наблюдается тенденция к  предпочтительному использованию  в качестве языка индексирования языка ключевых терминов, в наибольшей степени отвечающего потребностям пользователя в актуальной терминологии при узкотематических запросах. Возможно применение контролируемого (на основе словаря) или свободного (неконтролируемого  словарем) индексирования. В любом  случае предпочтительно иметь тезаурус и использовать его для обогащения поисковых предписаний.

Преимущества  тезауруса по сравнению со списком  ключевых слов/терминов очевидны. В  списках ключевых слов/терминов не отражены смысловые связи между  терминами, при этом алфавитный порядок  расположения терминов усугубляет эту  разобщенность: родственные понятия  удалены друг от друга. Использование  тезауруса в информационно-поисковых  системах повышает качество анализа  текста и полноту поиска информации, позволяя расширить запрос синонимическими, более общими или более частными понятиями.

Ведение и поддержка в актуальном состоянии  баз данных классификационных систем, тезаурусов, предметных рубрик, применяемых  при индексировании и поиске. Ведение  авторитетных файлов и их использование  при каталогизации и поиске документов.

Организация поиска в классификационных базах  данных по ключевым словам с последующим  выходом на поиск по классификационному индексу в электронном каталоге. Ведутся работы по созданию конкордансных  таблиц разных классификаций, классификационной  системы и системы предметных рубрик или ключевых терминов.

Увеличение  количества и усложнение лингвистических  процессоров в составе лингвистического обеспечения АБИС. К таким процессорам  относятся процессоры транслитерации, трансляторы ПОД с одного языка  индексирования на другой, грамматические процессоры типа процедур отсечения  окончаний или идентификации  словоформ одного слова, словарные  процессоры, т.е. средства автоматизированного  ведения словарей (например, процессор  словарно-грамматической фильтрации слов, процессор тезаурусной фильтрации терминов).

Лингвистическое обеспечение электронной библиотеки, оперирующей текстовой информацией, неизбежно должно иметь свои особенности. Большие объемы текстовой и гипертекстовой информации создают значительные трудности  при ее классификации традиционными  способами.

Интеллектуальная  обработка требует значительных временных затрат, что несовместимо с необходимостью оперативного анализа  текстовых документов. Поэтому в  рассматриваемой сфере реализуются  разработки технологий автоматической обработки текста (в частности  автоматического смыслового анализа), автоматического индексирования текстов, аннотирования или реферирования  и смыслового поиска в информационных ресурсах. Таким образом, подводя итог вышеизложенному, можно увидеть, что лингвистическое обеспечение идет по пути интенсивного развития, которое сопровождается развитием тезаурусных и грамматических словарей. Следует отметить, что классификационные и вербальные информационно-поисковые языки в электронных библиотеках мало используются, что приводит к недостаткам функционирования системы.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Глава 2. Средства лингвистического обеспечения  АБИС

 

    1.  Информационно-поисковый язык

 

Любая ИПК включает следующие элементы: информационный массив; ИПЯ, на которой переводится входная информация и запросы; правила этого перевода (индексирование); критерии выдачи, то есть правила сравнения перевода запроса на ИПЯ с результатами перевода на ИПЯ входной информации, определяющие отбор информации, подлежащей выдаче на запрос.

Понятие ЛО шире понятия  информационно-поискового языка, поскольку включает их в себя. Лингвистическое обеспечение автоматизированных систем включает ИПЯ, методики индексирования документов и запросов на них, инструкции и методики их ведения и использования,а также средства поддержания ИПЯ в автоматизированной системе.

Средством свертывания  информации и смысловой обработки документов является информационно-поисковый язык (ИПЯ) - формализованный искусственный язык предназначенный для индексирования документов, информационных запросов и описания фактов с целью но следующего их хранения и поиска.

Искусственный язык, специально разработанный для автоматизированного поиска, лишен недостатков естественного языка (многозначность, избыточность) и лучше приспособлен для информационного поиска, увеличивая полноту и точность выдачи информации. При создании ИПЯ учитываются требования, которые отвечают его задаче — полноте и точности поиска: однозначность — каждая запись на ИПЯ должна иметь только один смысл, то есть искусственный ИПЯ должен устранять такие недостатки, с точки зрения поиска естественного языка, как полисемия и омонимия; явное выражение полезных для поиска семантических (смысловых) отношений между словами (логических отношений и психологических ассоциаций) ИПЯ; возможность корректировки и дополнения ИПЯ; удобство пользования, ИПЯ должен обладать компактностью записей, способствующих его запоминанию; способность точно идентифицировать предмет, отличить его особенности и описать его с необходимой степенью детализации и глубины. [Журнал библ-ка 2006 ИПЯ]

ИПЯ и дополняющие их методики систематизации документов, инструкций по ведению  каталогов и т.п. составляют лингвистическое  обеспечение традиционных ИПС. В  автоматизированных ИПС используются специально разработанные ИПЯ (рубрикаторы, словари ключевых слов, тезаурусы  и т.д.). Информационными массивами  являются электронные каталоги и  базы данных на машиночитаемых носителях; организация и использование  информационных массивов определяются соответствующими стандартами и обеспечиваются программными и техническими средствами. Эффективность информационного поиска в автоматизированных ИПС в значительной степени зависит от ее лингвистического обеспечения: ИПЯ и средств их ведения и поддержки.

Задачи ИПЯ:

  • полно и точно передавать содержание, а при необходимости – форму и назначение документа, отражаемого в данной ИПС;
  • обеспечивать однозначное толкование терминов индексирования;
  • допускать многоаспектное индексирование;
  • допускать внесение изменений (дополнений и исправлений);
  • обеспечивать достаточную простоту и удобство индексирования, информационного поиска и ведение данной ИПС;
  • отражать современное состояние терминосистемы в данной области знания.

Информация о работе Лингвистическое обеспечение АБИС