Автор работы: Пользователь скрыл имя, 29 Августа 2013 в 12:44, курсовая работа
Лингвистическое обеспечение включает в себя лингвистические средства и средства манипулирования с данными и информационными массивами. Лингвистические средства — это совокупность информационно-поисковых языков (ИПЯ), используемых в информационно-поисковой системе (ИПС), правил перевода информации с естественного языка на ИПЯ и критерия выдачи информации, обеспечивающих представление смыслового содержания документов информационных массивов в виде, удобном для машинной обработки и обеспечивающем автоматизированный поиск информации. Информационно-поисковые языки являются основным элементом ЛО, поскольку от них зависит эффективность поиска. Они предназначены для выражения основного содержания документов и информационных запросов с целью последующего хранения и поиска информации в ИПС. Информационно-поисковые языки по сути считаются главной характеристикой ИПС, поскольку от их качества (терминологической наполненности, терминологической однозначности лексических единиц, наличия логической связи между элементами, справочного аппарата, удобства пользования и т. д.) зависит эффективность поиска, его полнота и точность.
Введение ……..………………………………………………………….
Глава 1. Лингвистическое обеспечение АБИС.
Теоретический аспект. ………………………………………….………
Понятие, состав и задачи лингвистического обеспечения………………
Современные тенденции в развитии
лингвистического обеспечения АБИС. …………………………………
Глава 2. Средства лингвистического обеспечения АБИС ……………….……
ИПЯ ….……………………………………………………………………..
Дескрипторный язык.
Тезаурус - назначение, структура и использование …………….….…
Классификационные языки ……………………………………………...
Язык алфавитно-предметной классификации …………………...………
Средства лексического обеспечения
ГУ «Витебская областная библиотека им. В.И. Ленина» ……………………..
Заключение ……………………..………………………………………….
Список сокращений …………………………………………………………..
Библиография …………………………………………………………..
Тезаурус и ключевые слова дают эффективный узкотематический поиск. Важное значение имеет использование методик индексирования на ИПЯ используемых в ИПС. Методики способствуют унификации индексирования документов, препятствуют проявлению субъективизма индексатора в определении места документа, обеспечивают точность, полноту и однозначность отображения информации в БД.
Индексирование — это основное средство раскрытия содержания документа и соответственно всего текущего документного потока, который составляет фонд библиотеки. От качества индексирования зависит не только эффективность тематического поиска в информационных ресурсах, но и эффективность использования ее фондов.
Независимо, от типа ИПЯ основными требованиями, которые предъявляются к процессу индексирования документа, являются: а) полнота и точность раскрытия содержания; б) объективность его раскрытия; в) единообразие отображения средствами данного ИПЯ сходных по содержанию документов (другими словами все документы по одному вопросу должны получить одинаковые индексы, рубрики, дескрипторы и т. д. и попасть в одно место в информационно-поисковой системе).
Процесс индексирования включает несколько этапов: анализ содержания документа; выявление и отбор понятий, тем, отражающих основное содержание документа; выбор терминов индексирования (рубрик, кодов, индексов, дескрипторов, ключевых слов) и принятие решений о составе ПОД; перевод содержания документа с естественного языка на ИПЯ; добавление любой необходимой информации к названию документа (расширение названия, создание аннотации); редактирование терминов индексирования на ИПЯ.
Как для классификационных (УДК, ББК), так и для дескрипторных (тезаурус) ИПЯ полнота и детальность индексирования связаны с обеспечением полноты и релевантности тематического поиска.
Полнота и детальность индексирования зависят от семантической наполненности ИПЯ, его способности описать документ в характеристиках, присущих индексируемому документу. Повышение глубины (детальности) индексирования увеличивает точность информационного поиска, его эффективность за счет возможности предоставления информации по самым «узким», специальным вопросам.
Поэтому при создании автоматизированной ИПС, электронного каталога библиотека стоит перед выбором лингвистического обеспечения, которое будет в них использоваться. (статья «ИПЯ» из журнала)
В настоящее время для целей информационного поиска используются четыре основных типа информационно-поискового языка: библиотечно-библиографических классификаций, алфавитно-предметной классификации, дескрипторные языки и смешанные языки, объединяющие положительные стороны классификационных и дескрипторных ИПЯ. Необходимость многоаспектного поиска, т. е. поиска по любому, заранее не заданному сочетанию признаков, требует использования метода координатного индексирования и основанного на нем дескрипторного ИПЯ.
Но для того чтобы метод координатного индексирования был эффективен, нужно обеспечить единообразное индексирование одинаковых по содержанию документов и информационных запросов, т. е. необходимо устранить такие явления естественного языка, как синонимия, омонимия и полисемия. Осуществить это можно лишь путем установления контроля за употреблением слов и словосочетаний естественного языка, выступающих в качестве ключевых. Такой контроль обеспечивается составлением специального словаря-справочника. Специфика его в том, что ключевые слова в нем сгруппированы в классы эквивалентности, т. е. группы, обозначающие близкие по смыслу понятия. Из каждой такой группы выбирается одно слово или словосочетание, которым обозначается вся группа. Такое нормативное слово принято называть дескриптором, а словарь дескрипторов получил название тезауруса (от греческого thesaurus — сокровищница, кладовая, клад).
Дескрипторный
язык служит для координатного
Именно
дескрипторные языки открыли
возможность для автоматизации
информационного поиска. Они позволяют
достаточно детально и многоаспектно
раскрывать содержание документов. Дескрипторы
и ключевые слова легко дополняются,
обновляются, поскольку в алфавитный
перечень можно включить любую лексическую
единицу, необходимую для
Классификационные и дескрипторные языки отражают две противоположные тенденции во взаимоотношениях между науками и отраслями: дифференциацию наук и их интеграцию.
Нет исследований,
обосновывающих ведение нескольких
систем индексирования. Но, поскольку
каждый из существующих ИПЯ обеспечивает
выполнение определенных задач и
имеет наряду с достоинствами
и недостатки, в ЭК целесообразнее
использовать несколько ИПЯ. По мнению
специалиста РГБ Е.М. Зайцевой, использование
в ЭК нескольких систем индексирования
позволяет расширить
Дескрипторный язык – это информационно
поисковый язык, предназначенный
для координатного
В основе дескрипторных ИПЯ лежит алфавитный перечень лексических единиц.
Именно дескрипторные языки
открыли возможность для
В основе построения дескрипторных
информационно-поисковых языков лежит
принцип координатного
Основными элементами дескрипторных ИПЯ являются:
♦ словарь лексических единиц;
♦ правила применения ИПЯ (грамматика), определяющие процедуру перевода текстов документов и запросов с естественного языка на ИПЯ;
♦ правила построения ИПЯ;
словари лексических единиц делятся на две группы:
В состав ИПЯ входят множество лексических единиц (слово, устойчивое словосочетание или другая единица языка, способная обозначать предметы, явления, их признаки и т.п.) и грамматические (парадигматические и синтагматические) отношения между ними. Грамматические отношения позволяют организовать ЛЕ в систему.
[4. С. 33 – 35]
Синтагма (от греч. Syntagma, – вместе построенное, соединенное) – смысловое единство, которое в определенном контексте выражается словом, группой слов или предложением. Отдельно взятые слова (например, «методика», «пособие», «индексирование») вступают в предложении в синтагматические отношения с помощью грамматических средств языка, таких, как склонение, спряжение, предлоги, союзы и пр. Три приведенных слова могут образовать различные «синтагмы»: «пособие по методике индексирования», «методическое пособие по индексированию», «индексирование методических пособий» и т. д. Синтагматические отношения возникают между единицами языка, последовательно расположенными и непосредственно сочетающимися друг с другом в тексте или в речи.
Парадигма (от греч. Paradigma –пример, образец) – любой класс лингвистических единиц, объединяемый на основе единого признака, выражающего не столько внешние, сколько внутренние, сущностные характеристики. Парадигматические отношения отражают смысловые связи между ЛЕ. В практической жизни и в процессе индексирования мы постоянно встречаемся с парадигматическими отношениями. Это, прежде всего родовидовые (иерархические) отношения между понятиями. Такую систему отношений мы встречаем в таблицах классификации, если будем двигаться сверху вниз (сельское хозяйство – растениеводство – овощеводство – корнеплоды – морковь). Часто встречаются связи между соподчиненными понятиями, являющимися «видами» одного и того же «рода» (абонемент – читальный зал). Порой понятия пересекаются друг с другом (библиотековедение – педагогика). Приведем еще несколько распространенных видов парадигматических отношений: «Целое – часть» (человеческий организм – рука – кисть – палец), «Система – элемент» (система пищеварения – желудок), «Причина – следствие» (переутомление – нервное истощение).
В качестве лексических единиц основных словарей используются ключевые слова, словосочетания и дескрипторы.
Лексической единицей дескрипторного ИПЯ является дескриптор.
Дескриптор — понятие, обозначающее группу эквивалентных или близких по смыслу ключевых слов. Дескриптор - это имя класса синонимов. В качестве дескрипторов могут быть использованы код, слово или словосочетание.
Этот термин ввел Кэльвин Муэрс. Он понимал под дескриптором словесный символ, предназначенный для обозначения идеи или понятия.
Так же Муэрс предложил перевести
названия документов на дескрипторный
язык с помощью специальных
В дальнейшем эту теорию начал разрабатывать М.А. Таубе. В 1952 году он разработал систему «УНИТЕРМ». В роли индексов выступали отдельные слова, взятые из текста документа. Он предлагал на каждый термин заводить картинку с номером документа (унитерм карты). К этим картам он выдвигал следующие требования:
Следовательно, при индексировании дескриптор выбирается не из обрабатываемых текстов, а из словаря.
Дескриптор отличается от ключевых слов тем, что его значение однозначно.
При помощи дескрипторного языка можно осуществлять углубленное индексирование и многоаспектный тематический поиск.
Разработка дескрипторного языка фактически сводится к разработке информационно-поискового тезауруса (ИПТ).
Рассмотрим ниже вопросы оформления ИПТ, так как при индексировании и поиске необходимо знать все особенности оформления тезауруса, принятые стандартизованнные аббревиатуры, эффективно использовать весь аппарат, включая указатели.
Вывод:
В данной главе была раскрыта тема
дескрипторных языков, рассмотрены
вопросы, касающиеся дескрипторных
информационно поисковых
Именно дескрипторные языки
открыли возможность для
Сегодня уже ясны перспективы развития теории и практики этого направления библиотечно-информационной науки. В будущем мы будем располагать системами, которые смогут сочетать индексирование и поиск пак по тезаурусам, так и по другим классификационным системам. Достаточно приписать к каждому дескриптору классификационный индекс, и тезаурус станет выполнять функции алфавитно-предметного указателя.
Тезаурус (от греч. «хранилище», «сокровищница»)
в узком смысле представляет собой
специальный словарь-
Совокупность дескрипторных
Тезаурус – это перечисление дескрипторов, между которыми установлены определённые отношения, которые могут быть сильными или слабыми.
Первый тезаурус был составлен Роджетом. Тезаурус получил широкое распространение в 60-70-х годах 20 века.
Основные правила описаны в ГОСТе 7.25-2001 «Требования к тезаурусам».
Структура тезауруса сочетает признаки
классификационных схем и перечней
предметных рубрик. Термины его должны
располагаться в алфавитном порядке,
отражая в то же время иерархические
отношения между терминами
Необходимость в таком словаре возникает вследствие наличия множества слов с неточно определенным объемом значения, что отрицательно сказывается на результатах индексирования и поиска. Тезаурус должен быть единым в масштабах страны, чтобы была возможность последующей стыковки разрабатываемых в настоящее время отраслевых ИПС. Перед нормированным перечнем терминов не стоит задача стандартизации терминологии, он должен лишь устранить встречающиеся в практике терминологические расхождения применительно к разработке и функционированию информационно-поисковой системы.
Точность и определенность языка, отсутствие (за достаточно редким исключением) расплывчатых, двусмысленных и многозначных терминов значительно облегчают задачу создания тезауруса. Последнее, однако, не означает, что в информационно-поисковый язык нет необходимости вводить искусственные средства для отражения связей между понятиями.