Автор работы: Пользователь скрыл имя, 11 Июня 2013 в 12:35, реферат
При отсутствии адекватных и эффективных инструментов по извлечению знаний из текстов - пользователь вынужден более или менее внимательно прочитывать тексты. При работе с большим массивом текстов - это затруднительно и пользователь обращается к инструментам, позволяющим сократить массив документов за счет исключения мало информативных, повторяющихся, неактуальных и т.п., - выполняет фильтрацию. При осуществлении фильтрации средствами "дознаниевых" технологий (поиск и отбор по ключевым словам, другим формальным признакам) - задача решается слабо, а при ужесточении формальных критериев - резко возрастает риск отбраковки полезных, информативных или даже ключевых документов.
Введение 3
Общее описание технологии извлечения знаний из текстов 5
Язык структурно-лингвистического анализа текстов 8
Система извлечения знаний из текстов, "Аналитический курьер", "Х-FILES" 9
Заключение 14
Список использованной литературы 15
Системы автоматического извлечения знаний из текста
В Интернете и корпоративных сетях содержится огромное количество информации в виде неформализованных текстов на естественном языке. Но при существующих сегодня инструментах (программно-аппаратных средствах) человеку приходится тратить огромное количество времени и усилий для того, чтобы добыть знания, необходимые для решения практических задач. Парадоксальность ситуации в том, что чем больше информации предоставляет человеку компьютеризированный мир, тем более недоступными становятся знания.
Для решения данной проблемы нужно иметь технологии извлечения знаний из массивов текстовой информации. Знания - всегда знания о некотором объекте. Поэтому знаниевые технологии должны в первую очередь реконструировать описанные в тексте объекты, то есть - обеспечивать обработку текстов по содержанию.
Автор текста сообщает о некотором реальном предмете, явлении, ситуации и т.п., выражая при этом свою точку зрения, освещая ситуацию с определенной стороны. Читателю важны знания о том, что описано в тексте, поэтому он восстанавливает в мысли и понимании то, что "стоит за словами" - объективное содержание текста, устройство самого предмета, явления, ситуации. Кроме того, читателю бывает важно знать об источнике сведений и вносить в картину ситуации поправку на точку зрения автора.
При отсутствии адекватных и эффективных инструментов по извлечению знаний из текстов - пользователь вынужден более или менее внимательно прочитывать тексты. При работе с большим массивом текстов - это затруднительно и пользователь обращается к инструментам, позволяющим сократить массив документов за счет исключения мало информативных, повторяющихся, неактуальных и т.п., - выполняет фильтрацию. При осуществлении фильтрации средствами "дознаниевых" технологий (поиск и отбор по ключевым словам, другим формальным признакам) - задача решается слабо, а при ужесточении формальных критериев - резко возрастает риск отбраковки полезных, информативных или даже ключевых документов.
Задачей автоматизированной системы, призванной помогать пользователю в получении знаний из больших массивов текстовых документов - является: в упрощенном варианте - выполнять эффективную фильтрацию документов с низким риском отбраковки содержательно-значимых материалов; в развитом варианте - представлять пользователю обобщенные знания об интересующем предмете (явлении, ситуации и т.п.) в готовом виде (схемы, компактные отчеты, рефераты), с возможностью обратиться к первоисточникам, из которых эти знания выделены.
Основная сложность в
Технология, решающая данную задачу,
строится на основе последовательного
анализа текста, в процессе которого
осуществляется выделение содержательно-
На этом пути с помощью словаря идентифицируются и характеризуются слова текста, выделяются предложения, вплоть до простых переложений в составе сложных. Проводится синтаксический анализ, в частности определяются падежи слов (при этом разрешаются сложные случаи омонимии), выделяются главные члены предложения и др.
Итогом лингвистического анализа является перевод простых предложений (и др. лингвистических единиц) в единую "каноническую" форму Е-5 структуры. Е-5 структура содержит в себе пять элементов (тематические объект и предикат, связку, рематические объект и предикат) и играет роль обобщенной пропозициональной модели.
Полученный результат можно назвать "лингвистическим портретом" содержания. Этот портрет - оптимум того, что нужно узнать о тексте, используя только формально-грамматические и синтаксические признаки, и не привлекая знаний о семантических значениях слов.
В "канонической" пропозициональной модели оказываются отвлеченными многие особенности формы выражения, что и создает возможность перехода к собственно объективному содержанию. Основой реконструкции содержания является категориальный аппарат: именно категории задают тип объектов, описанных в тексте. Для каждой лингвистической единицы строятся модели возможных объектов содержания.
Синтез отдельных объектов в единую систему осуществляется за счет конструктивных моделей. Эти модели - с одной стороны могут быть заданы экспертами, настраивающими систему под прикладные задачи конкретных пользователей (групп пользователей); с другой стороны - самими пользователями через особые возможности интерфейса (семантико-схематический запрос) и в ходе диалога с системой (доуточнение запросов, ответы на наводящие вопросы системы и т.п.).
Извлеченные из текста сведения или реконструированные модели передаются на хранение в базу данных (базу знаний), где они являются доступными для отображения пользователю в виде различных схем, отчетов, рефератов; для последующей формальной обработки; для содержательного анализа другими модулями масштабной интеллектуальной системы и т.д.
Блок-схема реализации данной технологии приведена на рис.1.
Описанные выше механизмы получения "лингвистического портрета содержания текста" реализуются в прикладных подпрограммах, написанных на языке высокого уровня tExp. Этот язык специально создан для решения задач структурного анализа неформализованных текстов на естественном языке. Наличие в составе технологии собственного языка программирования, ориентированного на задачи обработки лингвистической информации, обеспечивает высокую гибкость и возможность быстрой настойки на конкретные особенности практических задач.
В подпрограммах на языке tExp реализуется обработка текста с учетом правил, традиций и феноменов выражения содержания на естественном (русском) языке. Наиболее объемная информация (как, например, база слов языка и их атрибутов - падежей, склонений и т.п) - хранится в специальной базе данных (словарях), к которым имеют доступ подпрограммы на языке tExp.
В экспериментальных реализациях технологии создан ограниченный набор подпрограмм на языке tExp, который позволяет проверить и отладить общий технологический цикл. Для качественного и эффективного решения практических задач - набор подпрограмм пополняется, корректируется и оптимизируется.
Наличие языка tExp позволяет не только
гибко подстраивать систему под
особенности выражения
Система "Аналитический курьер" имеет многослойную архитектуру с "тонким" клиентом, предоставляет пользователям Web-интерфейс, реализована на Windows-платформе. Такая архитектура предполагает, что система состоит из относительно независимых звеньев - сервера данных, сервера приложений, Web-сервера и самих приложений. Компания "Ай-Теко" имеет партнерский статус Microsoft Gold Certified Partner ("Золотой партнер" Microsoft в категории Advanced Infrastructure Solutions).
Система "Аналитический курьер" развивается в направлении улучшения качества анализа текстов, увеличения поддерживаемых иностранных языков, поддержки большего числа серверных и портальных платформ, улучшения интерфейса аналитика и администратора.
"Аналитический курьер" позволяет быстро погружаться в новые предметные области, которым посвящены тексты фонда, структурировать проблематику, готовить отчёты и информационно-аналитические материалы.
Уникальные функциональные возможности системы обеспечили ей внедрение в организациях, обрабатывающих большие объёмы документов.
Рис.2 Образец тематической кластерной карты сообщений
Рис.3 Образец семантической карты
"Система управления
фактографической информацией
"X-Files" предоставляет аналитическое
обеспечение деятельности
В качестве источника документов и сообщений система управления досье "X-Files" может эффективно использовать хранилища документов системы "Аналитический курьер".
"X-Files" автоматически выявляет
факты, связанные с объектами,
на которые системой
Рис.4 Пример карты связей
Понятие факт системы "X-Files" характеризуется рядом возможных свойств:
С помощью программ-автоматов, допускающих параллельную работу, система "X-Files" осуществляет выявление фактов из документов и заполняет досье поставленных на мониторинг объектов.
В дальнейшем система предоставляет
доступ к накопленной фактографической
информации через Web-интерфейс для
решения следующих
Архитектура системы предусматривает взаимодействие с конечным пользователем через портал, использование Web-сервисов для взаимодействия с другими информационными системами, выгрузку данных в формате XML для имеющихся унаследованных приложений Заказчика.
Использование:
Аналитические подразделения и службы безопасности банка
Анализ кредитоспособности клиента, ведение досье на объекты, осуществляющие определённые подозрительные платежи и т.д.
Страховые компании
Обнаружение мошенников, неоднократно причинивших ущерб, недобросовестных объектов-страхователей, их связей, а также закономерностей событий (по месту и времени), происходящих с клиентами страховой компании.
Аналитические подразделения производственных компаний
Анализ наиболее частых неполадок, помощь в принятии решений.
Подразделения экономической разведки предприятий (анализ рынка), подразделения
Предоставление руководителям ценной информации, необходимой для принятия стратегически важных управленческих решений.
Подразделения специальных служб, правоохранительных органов
Ведение досье на избранные объекты, поиск закономерностей в их деятельности и фактов, которые с ними связаны.
Аналитические подразделения и службы безопасности гос.органов
Поиск информации, анализ проблем, ведение досье на объекты, получение регламентных отчетов. Обеспечение лиц, принимающих управленческие решения, такой информацией, которая помогала бы выбрать наиболее оптимальный вариант решения стоящей перед организацией проблемы.
В работе рассмотрена технология автоматизированного извлечения знаний из текстов на естественном языке, приведена принципиальная блок-схема системы, построенной по данной технологии, а также описаны ключевые моменты, позволяющие достигать эффективного решения поставленной задачи. Наиболее важными элементами технологии являются: выделение из текста содержательно-значащих единиц, их отвлечение от грамматической формы и переход к моделям содержания; язык структурно-лингвистического анализа текстов; механизм формирования пользователем интересующих моделей содержания.
Информация о работе Системы автоматического извлечения знаний из текста