Автор работы: Пользователь скрыл имя, 01 Июня 2012 в 14:51, контрольная работа
Тезаурусы. история, применение, составление.
В настоящее время, на человека обрушивается мощный поток информации, прежде всего документальной, и у него возникают проблемы с ее переработкой. Необходимы специальные методы информационной обработки документов, организации быстрого и эффективного поиска документальной информации. Именно информационно-поисковые тезаурусы служат решению этой проблемы.
Например:
реферативные журналы, словари, учебники,
справочники, нормативные документы
и т.д. Выбираются слова, употребляемые
в этих источниках, при этом устанавливается
частота употребления слов и учитываются
все формы, которые могут иметь слова.
Второй этап - формирование
множества ключевых
слов.
Из словника формируется множество ключевых слов. При отборе ключевых слов учитывается информативность слова, которая определяется исходя из частоты встречаемости слова, роли слова в данной предметной области. Процесс выбора ключевых слов достаточно сложно формализовать. Например, такой критерий, как частота встречаемости не может быть абсолютным. Если слово встречается в текстах очень часто, это может означать, что оно выражает чрезмерно широкое понятие, либо недостаточно четко определено, т.е. неинформативно. Если ключевое слово встречается очень редко, это может означать, что оно выражает новое понятие и таким образом является информативным.
Третий
этап - формирование
классов эквивалентности.
Выделение дескрипторов.
Класс эквивалентности - это группа
терминов, равнозначных по смыслу в пределах
сферы действия данной системы. Одно из
слов класса эквивалентности объявляется
дескриптором (как правило, наиболее употребляемое).
Все слова, включенные в класс эквивалентности,
объявляются условными синонимами (условными
- так как они равнозначны в пределах данной
предметной области, а в ЕЯ эти слова могут
не являться синонимами).
Критерием включения слов в класс эквивалентности
является семантическая значимость этого
слова при поиске документов, т.е. если
данное слово при поиске документа может
быть заменено другим словом, так, что
на любой запрос выдача документов будет
такой же, как и до замены, то такие два
слова объявляются условными эквивалентами
и включаются в один класс эквивалентности.
Ключевые слова, относящиеся к одному
классу эквивалентности, помещаются в
соответствующую дескрипторную статью
и помечаются символом «с».
В
процессе построения тезауруса
и выделения множества
В ЕЯ многие слова могут быть правильно истолкованы только с учетом контекста. В ИПЯ для правильной трактовки ключевых слов необходимы средства для исключения многозначности трактования слов.
Для
устранения многозначности (омонимии
и полисемии) ключевое слово,
которое можно неоднозначно
Разработка
тезауруса без использования
компьютерных технологий - достаточно
длительный и трудоемкий
Большинство
автоматизированных методов
Частота слова в документе | |||||||
1 | 2 | 3 | 4 | 5 | 6 | 7 | |
D1 D2 D3 D4 |
Рис.1. Пример матрицы «термин-документ»
Автоматические
информационно-поисковые
6.
Применение тезауруса
В настоящее время происходит расширение сфер применения автоматических тезаурусов. При этом тезаурусы выступают составной частью современных систем подготовки текстов, осуществляя лингвистическую поддержку процесса подготовки и обработки текстов на естественном языке.
Среди наиболее перспективных направлений развития автоматических тезаурусов можно указать следующие:
1. Получение
справки по используемому
2. Контекстные
замены по требованию
3. Автоматическая
оценка стиля. Если слова и
словосочетания в тезаурусе
7.
Примеры тезаурусов
Информационно-поисковый
тезаурус по сохранности
документов (БАН)
Первый отечественный двуязычный тезаурус по сохранности документов, подготовленный в Библиотеке Российской академии наук. тезаурус насчитывает 5 166 терминов.
Издание представляет собой образец смешанного двуязычного (русско-английского) тезауруса. Основным языком выбран английский. Это значит, что в качестве дескрипторов выбраны английские термины, а русские термины приводятся как синонимы.
Настоящий
информационно-поисковый
В состав тезауруса входят:
-
лексико-семантический
- иерархический указатель;
- хронологический идентификатор.
Дескрипторы часто определяют как классы условной эквивалентности терминов, поскольку имеется поисковая и обычная (общеязыковая) эквивалентность языковых единиц, и эти два вида лексической равнозначности терминов в дескрипторных словарях могут не полностью совпадать. Так, например, у лексических единиц, входящих в дескриптор «DERATISATION c. Дератизация, н. MICE, RATS», содержание понятий «мыши» и «крысы» относятся к семантическим категориям «живые организмы», «биологический фактор», а понятие «дератизация» – к лексической категории «операции». Но поскольку при проведении поиска информации различия в категориальном значении указанных слов являются не очень существенными и более важным является их информационно-поисковая эквивалентность, в тезаурусе по сохранности документов понятия «мыши» и «крысы» являются нижестоящими по отношению к термину «deratisation».
В
лексико-семантическом
В
рамках дескрипторной статьи термины
располагаются в следующем
-
заглавные дескрипторы
- дополнительные данные;
- аскрипторы или дескрипторы синонимы, которые следуют за индексом «с»;
- вышестоящие дискрипторы следующие за индексом «в»;
- нижестоящие дескрипторы следующие за индексом «н».
Пример:
ACCTSS CONTROL
c Visitors control
Контроль и управление доступом
в ORGANIZATION OF SECURITY SISTEMS
н ACCESS CONTROL
3.
В дескрипторных статьях
- лексическое примечание;
-
дескрипторы связанные другими видами
отношений.
Тезаурус
терминов по морскому
делу и парусному
туризму. (информационно-поисковый
тезаурус). Составитель
В.Н. Белозеров. Москва 2001
Тезаурус содержит около 2200 терминов с определениями и тезаурусными связями.
Настоящий словарь-справочник по морскому делу и парусному туризму является терминологическим словарем, в котором для каждого термина дано его определение, при необходимости — примечания о характере использования, а также семантические связи с другим понятиями.
Наличие явного указания на семантические связи понятий в совокупности с раскрытием их содержания в определениях и комментариях позволяет использовать словарь как "программированный учебник", который ведет читателя от слова к слову, сообщая сведения о понятиях всей сферы интереса.
В состав словаря входит вся специальная терминология, необходимая для изложения материала по организации и проведению туристских плаваний на транспортабельных разборных судах по внутренним водоемам и прибрежным районам морей. Терминология этого вида деятельности дополнена лексикой классического парусного дела, парусного спорта, навигации, гидрографии, организации морских перевозок, что позволяет использовать словарь как справочник по морскому делу в целом.
Словарь
состоит из настоящего введения и
алфавитного лексико-
Тематику
словаря можно отнести к
71.37.01
Общие вопросы туристско-
73.34.01
Общие вопросы водного
77.01.33
Терминология. Справочники, словари,
учебная литература по
77.29.32 Парусный спорт. Виндсерфинг
77.29.33 Спортивный туризм
Заглавная
лексическая единица
Определение
следует непосредственно после
заглавной лексической единицы,
отделено от нее тире и набрано
шрифтом с уменьшенной высотой
букв (в настоящем варианте петит
не реализован). В некоторых случаях,
когда определение термина
Например:
обычное определение:
КЛИВЕР — треугольный косой парус, передняя шкаторина которого крепится к кливер-лееру, соединяющему стеньгу с ноком бушприта или утлегарем.
определение опущено:
ДАЛЬНОСТЬ ВИДИМОСТИ —
два определения (со стороны значения и со стороны формы):
АЗ — флаг ВМСС, обозначающий русскую букву А; красный с косицами и белым квадратом у древка.
Важной частью статьи являются ссылки на другие термины или другие формы того же термина. Они позволяют знакомиться с содержанием тезауруса методом "навигации" по ссылкам и уточняют значение терминов, дополнительно раскрывая его через связи термина (набранного обычным светлым шрифтом). Если в статье приводится два или более ссылочных термина, имеющих одинаковый характер связи с заглавной лексической единицей, обозначение ссылки приводится только один раз в первой из строк.