Компьютерная лингвистика и когнитивные элементы

Автор работы: Пользователь скрыл имя, 20 Мая 2013 в 17:24, реферат

Краткое описание

КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА, направление в прикладной лингвистике, ориентированное на использование компьютерных инструментов – программ, компьютерных технологий организации и обработки данных – для моделирования функционирования языка в тех или иных условиях, ситуациях, проблемных сферах и т.д., а также вся сфера применения компьютерных моделей языка в лингвистике и смежных дисциплинах.

Содержание

Понятие «компьютерная лингвистика»
Инструментарий компьютерной лингвистики
Направления компьютерной лингвистики
Когнитивный инструментарий компьютерной лингвистики
Список литературы

Прикрепленные файлы: 1 файл

Реферат Компьютерная лингвистика и когнитивные единицы.docx

— 50.90 Кб (Скачать документ)

В компьютерной системе гипертекст представлен в виде графа, в узлах которого находятся традиционные тексты или их фрагменты, изображения, таблицы, видеоролики и т.д. Узлы связаны разнообразными отношениями, типы которых задаются разработчиками программного обеспечения гипертекста или самим читателем. Отношения задают потенциальные возможности передвижения, или навигации по гипертексту. Отношения могут быть однонаправленными или двунаправленными. Соответственно, двунаправленные стрелки позволяют двигаться пользователю в обе стороны, а однонаправленные – только в одну. Цепочка узлов, через которые проходит читатель при просмотре компонентов текста, образует путь, или маршрут.

Компьютерные реализации гипертекста бывают иерархическими или сетевыми. Иерархическое –  древовидное – строение гипертекста  существенно ограничивает возможности  перехода между его компонентами. В таком гипертексте отношения  между компонентами напоминают структуру  тезауруса, основанного на родо-видовых связях. Сетевой гипертекст позволяет использовать различные типы отношений между компонентами, не ограничиваясь отношениями «род – вид». По способу существования гипертекста выделяются статические и динамические гипертексты. Статический гипертекст не меняется в процессе эксплуатации; в нем пользователь может фиксировать свои комментарии, однако они не меняют существо дела. Для динамического гипертекста изменение является нормальной формой существования. Обычно динамические гипертексты функционируют там, где необходимо постоянно анализировать поток информации, т.е. в информационных службах различного рода. Гипертекстовой является, например, Аризонская информационная система (AAIS), которая ежемесячно пополняется на 300–500 рефератов в месяц.

Отношения между элементами гипертекста могут изначально фиксироваться  создателями, а могут порождаться  всякий раз, когда происходит обращение  пользователя к гипертексту. В первом случае речь идет о гипертекстах жесткой  структуры, а во втором – о гипертекстах мягкой структуры. Жесткая структура  технологически вполне понятна. Технология организации мягкой структуры должна основываться на семантическом анализе  близости документов (или других источников информации) друг к другу. Это нетривиальная задача компьютерной лингвистики. В настоящее время широко распространено использование технологий мягкой структуры на ключевых словах. Переход от одного узла к другому в сети гипертекста осуществляется в результате поиска ключевых слов. Поскольку набор ключевых слов каждый раз может различаться, каждый раз меняется и структура гипертекста.

Технология построения гипертекстовых систем не делает различий между текстовой  и нетекстовой информацией. Между  тем включение визуальной и звуковой информации (видеороликов, картин, фотографий, звукозаписей и т.п.) требует существенного  изменения интерфейса с пользователем  и более мощной программной и  компьютерной поддержки. Такие системы  получили название гипермедиа, или  мультимедиа. Наглядность мультимедийных систем предопределила их широкое использование  в обучении, в создании компьютерных вариантов энциклопедий. Существуют, например, прекрасно выполненные CD-ромы с мультимедийными системами  по детским энциклопедиям издательства «Дорлин Киндерсли».

В рамках компьютерной лексикографии  разрабатываются компьютерные технологии составления и эксплуатации словарей. Специальные программы – базы данных, компьютерные картотеки, программы  обработки текста – позволяют  в автоматическом режиме формировать  словарные статьи, хранить словарную  информацию и обрабатывать ее. Множество  различных компьютерных лексикографических программ разделяются на две больших  группы: программы поддержки лексикографических работ и автоматические словари  различных типов, включающие лексикографические базы данных. Автоматический словарь  – это словарь в специальном  машинном формате, предназначенный  для использования на ЭВМ пользователем  или компьютерной программой обработки  текста. Иными словами, различаются  автоматические словари конечного  пользователя-человека и автоматические словари для программ обработки  текста. Автоматические словари, предназначенные  для конечного пользователя, по интерфейсу и структуре словарной статьи существенно отличаются от автоматических словарей, включенных в системы машинного  перевода, системы автоматического  реферирования, информационного поиска и т.д. Чаще всего они являются компьютерными версиями хорошо известных  обычных словарей. На рынке программного обеспечения имеются компьютерные аналоги толковых словарей английского  языка (автоматический Вебстер, автоматический толковый словарь английского языка  издательства Коллинз, автоматический вариант Нового большого англо-русского словаря под ред. Ю.Д.Апресяна и Э.М.Медниковой), существует и компьютерная версия словаря Ожегова. Автоматические словари для программ обработки текста можно назвать автоматическими словарями в точном смысле. Они, как правило, не предназначены для обычного пользователя. Особенности их структуры, сфера охвата словарного материала задаются теми программами, которые с ними взаимодействуют.

Компьютерное моделирование  структуры сюжета – еще одно перспективное  направление компьютерной лингвистики. Изучение структуры сюжета относится  к проблематике структурного литературоведения (в широком смысле), семиотики  и культурологии. Имеющиеся компьютерные программы моделирования сюжета основываются на трех базовых формализмах представления сюжета – морфологическом и синтаксическом направлениях представления сюжета, а также на когнитивном подходе. Идеи о морфологическом устройстве структуры сюжета восходят к известным работам В.Я.Проппа (см.) о русской волшебной сказке. Пропп заметил, что при обилии персонажей и событий волшебной сказки количество функций персонажей ограничено, и предложил аппарат для описания этих функций. Идеи Проппа легли в основу компьютерной программы TALE, моделирующей порождение сюжета сказки. В основу алгоритма программы TALE положена последовательность функций персонажей сказки. Фактически функции Проппа задавали множество типизированных ситуаций, упорядоченных на основе анализа эмпирического материала. Возможности сцепления различных ситуаций в правилах порождения определялись типичной последовательностью функций – в том виде, в котором это удается установить из текстов сказок. В программе типичные последовательности функций описывались как типовые сценарии встреч персонажей.

Теоретическую основу синтаксического  подхода к сюжету текста составили  «сюжетные грамматики», или «грамматики  повествования» (story grammars). Они появились в середине 1970-х годов в результате переноса идей порождающей грамматики Н.Хомского на описание макроструктуры текста. Если важнейшими составляющими синтаксической структуры в порождающей грамматике были глагольные и именные группы, то в большинстве сюжетных грамматик в качестве базовых выделялись экспозиция (setting), событие и эпизод. В теории сюжетных грамматик широко обсуждались условия минимальности, то есть ограничения, определявшие статус последовательности из элементов сюжета как нормальный сюжет. Оказалось, однако, что чисто лингвистическими методами это сделать невозможно. Многие ограничения носят социокультурный характер. Сюжетные грамматики, существенно различаясь набором категорий в дереве порождения, допускали весьма ограниченный набор правил модификации повествовательной (нарративной) структуры.

В начале 1980-х годов одной  из учениц Р.Шенка – В.Ленерт в рамках работ по созданию компьютерного генератора сюжетов был предложен оригинальный формализм эмоциональных сюжетных единиц (Affective Plot Units), оказавшийся мощным средством представления структуры сюжета. При том, что он был изначально разработан для системы искусственного интеллекта, этот формализм использовался в чисто теоретических исследованиях. Сущность подхода Ленерт заключалась в том, что сюжет описывался как последовательная смена когнитивно-эмоциональных состояний персонажей. Тем самым в центре внимания формализма Ленерт стоят не внешние компоненты сюжета – экспозиция, событие, эпизод, мораль, – а его содержательные характеристики. В этом отношении формализм Ленерт отчасти оказывается возвращением к идеям Проппа.

К компетенции компьютерной лингвистики относится и машинный перевод, переживающий в настоящее  время второе рождение.

Когнитивный инструментарий компьютерной лингвистики.

Компьютерная лингвистика  как особая прикладная дисциплина выделяется прежде всего по инструменту — то есть по использованию компьютерных средств обработки языковых данных. Поскольку компьютерные программы, моделирующие те или иные аспекты функционирования языка, могут использовать самые разные средства программирования, то об общем метаязыке говорить вроде бы не приходится. Однако это не так. Существуют общие принципы компьютерного моделирования мышления, которые так или иначе реализуются в любой компьютерной модели. В основе этого языка лежит теория знаний, разработанная в искусственном интеллекте и образующая важный раздел когнитивной науки.

Основной тезис теории знаний гласит, что мышление — это  процесс обработки и порождения знаний. «Знания» или «знание» считается неопределяемой категорией. В качестве «процессора», обрабатывающего знания, выступает когнитивная система человека. В эпистемологии и когнитивной науке различают два основных вида знаний — декларативные («знание что») и процедурные («знание как»)). Декларативные знания представляются обычно в виде совокупности пропозиций, утверждений о чем-либо. Типичным примером декларативных знаний можно считать толкования слов в обычных толковых словарях. Например, чашка — 'небольшой сосуд для питья округлой формы, обычно с ручкой, из фарфора, фаянса и т. п.' [MAC]. Декларативные знания поддаются процедуре верификации в терминах «истина—ложь». Процедурные знания представляются как последовательность (список) операций, действий, которые следует выполнить. Это некоторая общая инструкция о действиях в некоторой ситуации. Характерный пример процедурных знаний — инструкции по пользованию бытовыми приборами. Ср. текст инструкции о настойке видеосигнала для видеомагнитофона:

1) Выберите видеоканал. 2) Включите выключатель «Проверочный  канал». 3) Установите переключатель  «Система» в «I» положение. 4) Отрегулируйте ТВ канал таким образом, чтобы настроечная сетка была четко видна.

2)Разграничение между  «знанием что» и «знанием как»  восходит к Райлу [Ryle 1949]

В отличие от декларативных  знаний, процедурные знания невозможно верифицировать как истинные или ложные. Их можно оценивать только по успешности—неуспешности алгоритма.

Большинство понятий когнитивного инструментария компьютерной лингвистики  омонимично: они одновременно обозначают некоторые реальные сущности когнитивной системы человека и способы представления этих сущностей на некоторых метаязыках. Иными словами, элементы метаязыка имеют онтологический и инструментальный аспект. Онтологически разделение декларативных и процедурных знаний соответствует различным типам знаний когнитивной системы человека. Так, знания о конкретных предметах, объектах действительности преимущественно декларативны, а функциональные способности человека к хождению, бегу, вождению машины реализуются в когнитивной системе как процедурные знания. Т. Виноград в связи с этим отмечает: «Очевидно, что многое из того, что мы знаем, лучше представляется процедурно; такое знание интерпретировать чисто декларативно трудно. Если мы хотим, чтобы робот действовал в относительной простой среде (такой, например, как игровые кубики), то мы сделаем это наиболее естественно, описав его манипуляции как программы» [Winograd 1975, р. 189]. Инструментально знание (как онтологически процедурное, так и декларативное) можно представить как совокупность дескрипций, описаний и как алгоритм, инструкцию. Иными словами, онтологически декларативное знание об объекте действительности «стол» можно представить процедурно как совокупность инструкций, алгоритмов по его созданию, сборке (= креативный аспект процедурного знания) или как алгоритм его типичного использования (= функциональный аспект процедурного знания). В первом случае это может быть руководство для начинающего столяра, а во втором — описание возможностей офисного стола. Верно и обратное: онтологически процедурное знание можно представить декларативно.

Требует отдельного обсуждения, всякое ли онтологически декларативное знание представимо как процедурное, а всякое онтологически процедурное — как декларативное. Исследователи сходятся в том, что всякое декларативное знание в принципе можно представить процедурно, хотя это может оказаться для когнитивной системы очень неэкономным. Обратное вряд ли справедливо. Дело в том, что декларативное знание существенно более эксплицитно, оно легче осознается человеком, чем процедурное. В противоположность декларативному знанию, процедурное знание преимущественно имплицитно. Так, языковая способность, будучи процедурным знанием, скрыта от человека, не осознается им. Попытка эксплицировать механизмы функционирования языка приводит к дисфункции. Специалистам в области лексической семантики известно, например, что длительная семантическая интроспекция, необходимая для изучения плана содержания слова, приводит к тому, что исследователь частично теряет способность к различению правильных и неправильных употреблений анализируемого слова. Можно привести и другиепримеры. Известно, что с точки зрения механики тело человека является сложнейшей системой двух взаимодействующих маятников. Представьте себе человека, который внимательно анализирует каждое свое движение в процессе ходьбы — далеко ли он уйдет? В одном из фантастических рассказов описывается вполне правдоподобная трагикомическая ситуация: герой рассказа, обладавший способностью летать, полностью теряет ее после того, как группа высоколобых научных консультантов начинает изучать, как он это делает. Иными словами, экспликация имплицитного процедурного знания часто приводит к его разрушению. Тем самым возникает вопрос о возможности декларативного представления любого процедурного знания.

В теории знаний для изучения и представления знания используются различные структуры знаний — фреймы, сценарии, планы. Согласно М. Минскому, «фрейм — это структура данных, предназначенная для представления стереотипной ситуации» [Минский 1978, с. 254]. Более развернуто можно сказать, что фрейм является концептуальной структурой для декларативного представления знаний о типизированной тематически единой ситуации, содержащей слоты, связанные между собой определенными семантическими отношениями. В целях наглядности фрейм часто представляют в виде таблицы, строки которой образуют слоты. Каждый слот имеет свое имя и содержание (табл. 1).

Таблица 1

Фрагмент фрейма «стол» в  табличном представлении

Имя слота

Содержание слота

количество ножек

четыре, возможно больше, минимум три

материал

дерево, пластмасса, стекло

поверхность

прямоугольник, овал, круг, квадрат

наличие тумб

факультативно

функции

обеденный, журнальный, рабочий и  пр.

и т.д.

 

Информация о работе Компьютерная лингвистика и когнитивные элементы