Лингвистическое обеспечение АБИС

Автор работы: Пользователь скрыл имя, 29 Августа 2013 в 12:44, курсовая работа

Краткое описание

Лингвистическое обеспечение включает в себя лингвистические средства и средства манипулирования с данными и информационными массивами. Лингвистические средства — это совокупность информационно-поисковых языков (ИПЯ), используемых в информационно-поисковой системе (ИПС), правил перевода информации с естественного языка на ИПЯ и критерия выдачи информации, обеспечивающих представление смыслового содержания документов информационных массивов в виде, удобном для машинной обработки и обеспечивающем автоматизированный поиск информации. Информационно-поисковые языки являются основным элементом ЛО, поскольку от них зависит эффективность поиска. Они предназначены для выражения основного содержания документов и информационных запросов с целью последующего хранения и поиска информации в ИПС. Информационно-поисковые языки по сути считаются главной характеристикой ИПС, поскольку от их качества (терминологической наполненности, терминологической однозначности лексических единиц, наличия логической связи между элементами, справочного аппарата, удобства пользования и т. д.) зависит эффективность поиска, его полнота и точность.

Содержание

Введение ……..………………………………………………………….

Глава 1. Лингвистическое обеспечение АБИС.
Теоретический аспект. ………………………………………….………

Понятие, состав и задачи лингвистического обеспечения………………

Современные тенденции в развитии
лингвистического обеспечения АБИС. …………………………………

Глава 2. Средства лингвистического обеспечения АБИС ……………….……

ИПЯ ….……………………………………………………………………..

Дескрипторный язык.
Тезаурус - назначение, структура и использование …………….….…

Классификационные языки ……………………………………………...

Язык алфавитно-предметной классификации …………………...………

Средства лексического обеспечения
ГУ «Витебская областная библиотека им. В.И. Ленина» ……………………..

Заключение ……………………..………………………………………….

Список сокращений …………………………………………………………..

Библиография …………………………………………………………..

Прикрепленные файлы: 1 файл

Лингвистическое обеспечение АБИС.docx

— 99.38 Кб (Скачать документ)

Перед составителями тезауруса  стоит сложная задача — произвести отбор терминов, сгруппировать их в классы и увязать между собой сложные иерархические деревья с тем, чтобы тезаурус обеспечивал удовлетворительную полноту и точность поиска.

Сбор терминов осуществляется путем  детального свободного индексирования поискового массива.

Для облегчения выделения дескрипторов массив в виде списка ключевых слов разбивается на тематические поля.

Наиболее важными парадигматическими отношениями ИПТ являются:

♦ соподчинение;

♦ род - вид;

♦ часть - целое;

♦ причина - следствие;

♦ функциональное сходство.

Обобщенная структура ИПТ включает как минимум три составляющих: словарную часть, семантическую карту, руководство по использованию.

Приведем ряд определений.

Словарная часть - алфавитный список дескрипторов с их словарными статьями.

Семантическая карта — система тематических классов дескрипторов, представленная в виде графической схемы или таблицы.

Руководство по использованию ИПТ содержит правила перевода ключевых слов и словосочетаний на ИПЯ, правила лексикографического контроля и редактирования ПОД и ПОЗ, а также правила ведения ИПТ.

Отличием информационно-поисковых  тезаурусов от информационно-поисковых  каталогов на основе предметной иерархической  рубрикации является то, что в тезаурусах, помимо классификационной схемы, присутствуют сами ключевые слова и дескрипторы, объединяемые под названием классов, рубрик и т. д. В каталогах же присутствуют только лишь обозначения (названия) классов.

Главная идея информационно-поисковых тезаурусов заключается в повышении эффективности  индексирования документов в рамках дескриптивного подхода. Иначе говоря, в системах на основе ПИТ ПОД представлен набором дескрипторов. Однако в процессе индексирования документов учитываются семантические отношения между дескрипторами, что, в конечном счете, обеспечивает более адекватный содержанию документа ПОД и повышает эффективность поиска документов. [2. С. 73 – 75]

Словарь тезауруса включает следующие типы ЛЕ:

• одиночные слова (существительные — в именительном падеже, в единственном или множественном числе в соответствии с лексикографической традицией либо принятой практикой; прилагательные и причастия — в форме мужского рода; глаголы — в форме инфинитива, рекомендуется по возможности заменять глаголы отглагольными существительными; наречия);

• именные словосочетания;

  • лексически значимые компоненты сложных слов (например, ЭЛЕКТРО-, ГИДРО-);
  • сокращения слов и словосочетаний — в соответствии с принятыми стандартами.

При наличии аббревиатур  в словарь включаются также соответствующие им полные формы.

В классах эквивалентности  ЛЕ, иначе говоря — из ряда эквивалентных, равнозначных понятий, выбирается одна ЛЕ, которая вводится в словарь в форме ДЕСКРИПТОРА (дескрипторы представлены в словнике прописными буквами). Все остальные эквивалентные ЛЕ считаются аскрипторами, а в работе с тезаурусом (как при индексировании, так и при поиске) заменяются на дескрипторы. Таким образом, каждая ЛЕ в словаре получает статус дескриптора или аскриптора. Аскрипторы связываются с соответствующими дескрипторами ссылками.

Для дескрипторов устанавливаются  парадигматические отношения, отражающие лексико-семантические связи между понятиями. Все виды связей также обозначаются соответствующими ссылками.

При построении словарных  статей используются следующие виды ссылок:

1. Ссылка от аскриптора

к эквивалентному дескриптору   см.  смотри

2. Ссылка от дескриптора

к эквивалентному аскриптору   с     синоним

3. Ссылка от аскриптора

к нескольким альтернативно заменяющим

его дескрипторам   на   используй альтернативно

4. Ссылка от аскриптора

к заменяющей его комбинации дескрипторов     ик    используй комбинацию

5. Ссылка от дескриптора    в  выше

6. Ссылка от дескриптора

к вышестоящему родовому дескриптору  вр  выше - род

7. Ссылка от дескриптора

к вышестоящему дескриптору,

обозначающему целое    ВЦ  выше - целое

8. Ссылка от дескриптора

к нижестоящему дескриптору    н  ниже

9. Ссылка от дескриптора

 к нижестоящему видовому  дескриптору  нв  ниже -  вид

10. Ссылка от дескриптора

к нижестоящему видовому дескриптору,

обозначающему часть    нч  ниже - часть

11. Ссылка от дескриптора

к ассоциативно связанному дескриптору  а  ассоциация

12. Ссылка от дескриптора

к аскриптору, который заменяется

 данным дескриптором  при альтернативном 

выборе (обратная ссылка к  «иа»)   СА сравни альтернативный выбор

13. Сылка от дескриптора

к аскриптору, который заменяется комбинацией,

 включающей данный  дескриптор

(обратная ссылка к  «ик»)    ск  сравни комбинацию

  1. Техническая обратная ссылка   ср  сравни
  1. Уточнение значения и области применения  лп лексическое примечание

Неоднозначность ле (явление омонимии) устраняется релятором смазка (процесс), смазка (вещество) или лексическим примечанием (поясняющим текстом на естественном языке).

Эквивалентность (равнозначность) устанавливается:

между абсолютными  синонимами: геометрия римана = риманова геометрия

между аббревиатурами и полными формами ле: ипт = информационно-поисковый тезаурус

между стилистическими  синонимами: пневмония = воспаление легких

между относительными синонимами: винт и болт

А также в тех случаях, когда ле различаются по значению, но семантически связаны между собой (отождествление таких понятий полезно для функционирования ипс):

торговля = продажа  устойчивость - неустойчивость

При установлении иерархических отношений могут быть обозначены связи по нескольким аспектам деления, которые можно указать в примечании:

антенны и высокочастотные  антенны (диапазон) низкочастотные антенны (диапазон) параболические антенны (конструкция) теслескопические антенны (конструкция)

С помощью цифровых обозначений можно также показать и несколько уровней иерархии. например, для ряда понятий «армия — дивизия — полк — батальон — рота»:

полк в1 дивизия  в2 армия н1  батальон н2 рота

Основной частью ИПТ является лексико-семантический указатель — упорядоченная последовательность словарных статей в алфавитном порядке (в соответствии с заглавными ЛЕ). Стандартом установлен следующий приоритет символов при алфавитном расположении ЛЕ:

    • пробел и знаки препинания, кроме дефиса (приоритеты всех знаков препинания и их сочетаний считаются одинаковыми),
    • русские буквы,
    • цифры,
    • латинские буквы,
    • буквы других алфавитов и специальные символы.

При этом ЛЕ, написанные через дефис, занимают то же алфавитное место, что и при слитном написании.

Словарная часть  может включать кодовый номер  дескриптора, код (классификационный  индекс) систематического указателя, иноязычные эквиваленты и другие, семантические  и лексикографические пометки.

Работа с ИПТ  облегчается наличием ряда указателей, в совокупности образующих дополнительные части ИПТ.

Систематический указатель является перечнем дескрипторов, сгруппированных согласно принятой в ИПТ рубрикации. Систематические указатели могут быть тематическими, категориальными и смешанными.

Указатель иерархических  отношений отражает полную структуру ИПТ. Каждый список начинается с дескриптора, не имеющего вышестоящих. Затем приводятся (в иерархии) соответствующие нижестоящие дескрипторы. Уровень иерархии можно показать графически:

армия . дивизия .. полк ... батальон ...рота

Пермутационный  указатель предназначен для поиска ЛЕ по отдельным словам, входящим в текст ЛЕ (в том числе и по тем, которые не стоят в начале ЛЕ). ИПТ — сложная по структуре и составу система поисковых средств, для создания которой требуется концентрация усилий лингвистов (нескольких специальностей) и отраслевых специалистов. Объем работы, как правило, бывает настолько значительным, что выполнить его «в ручном режиме», без применения компьютерной техники, становится невозможно. Это значит, что в коллектив разработчиков вводятся программисты и технические специалисты. Создание универсального по тематике тезауруса — задача, на решение которой придется потратить годы и годы. Трудно заранее представить себе характер технических, методических, организационных, экономических (связанных с финансированием) проблем. [1. С. 25 – 54]

Поэтому, пока в  мире предпринимаются лишь единичные (и не всегда удачные) попытки создания универсальных тезаурусов. В подавляющем большинстве случаев разрабатываются специальные, отраслевые или многоотраслевые ИПТ. Если имеются удачные зарубежные или международные разработки, они используются в России, хотя перевод тезауруса, равно как и подготовка многоязычного ИПТ, также требует большого вложения сил и средств.

Составление дескрипторных тезаурусов очень сложный и финансово  затратный процесс. Именно поэтому  вместо того, чтобы составлять национальные дескрипторные тезаурусы в Беларуси пользуются зарубежными.

Например, Российский научно-медицинский  рубрикатор и ИРБИС используются в Беларуси.

Тезаурусом является известный во всем мире Library of Congress List of Subject Headings (LCSH) — список ПР Библиотеки Конгресса.

Российский научно-медицинский  рубрикатор пользуется рубрикатором, созданным на базе американского  тезауруса по медицине MeSH (Medical Subject Headings). MESH состоит из следующих языковых средств: заглавие, географическое заглавие, основные характеристики, вторичные дескрипторы, термины вне тезауруса и входящие термины.

Заголовок – главный предметный заголовок и используется в качестве рубрикатора при библиографическом поиске.

Географический заголовок включает термины, которые используются в  специальных библиографических  указателях.

Термины вне тезауруса введены  в словарь для удобного построения классификационных схем, они не используются при индексировании и выполнении запросов.

Вторичные предметные рубрики используются при автоматизированном поиске.

Обязательные характеристики представляют собой  фиксированные значения на наличие или отсутствие которых  проверяется каждый документ.

Подзаголовки служат для уточнения  смысла дескрипторов при помощи указания области его использования.

Входящие термины ссылаются  на соответствующие им дескрипторы  и обеспечивают эффективный поиск  при замене дескрипторов.

Тезаурус MESH имеет сложную иерархическую структуру, постоянно развивается и уточняется, поиск на русском и английском языках.

В БелСХБ используется тезаурус  “AGROVOG” разработанный Международной организацией по продовольствию и питанию (ФАО) ООН, для сети библиотек Министерства сельского хозяйства Беларуси, также встроены ИРБИС. Электронная версия используется в БД «Агрис».

SPORT THESAURUS - спортивный  тезаурус, создаваемый коллективными усилиями Международной Ассоциации спортивной информации и Канадским центром спортивной информации, для библиотек Министерства по физической культуре и спорту,  EUROVOC – многоязычный политематический  тезаурус  Европейского парламента, используемый Президентской библиотекой для индексирования и поиска официальных государственных документов и др. [5. С. 35 – 50]

 

    1. Классификационные языки

 

Классификационный язык предназначен для индексирования документов и информационных запросов посредством понятий и кодов  какой-либо классификационной системы (ББК, УДК, ГРНТИ и др.).

В основе классификационных языков лежит  систематическая классификация  понятий, т.е. классификация, отражающая смысловые отношения между понятиями. Классификационные языки предназначены  прежде всего для формализации логических связей слов естественного языка.

Некоторые библиотеки предлагают использовать в ЭК в качестве классификационного языка формализованную и модернизированную ББК в машиночитаемом виде с предметным входом в нее.

Выбор ББК  в качестве ИПЯ ЭК, обусловлен следующими факторами:

Информация о работе Лингвистическое обеспечение АБИС