Системы автоматического извлечения знаний из текста

Автор работы: Пользователь скрыл имя, 11 Июня 2013 в 12:35, реферат

Краткое описание

При отсутствии адекватных и эффективных инструментов по извлечению знаний из текстов - пользователь вынужден более или менее внимательно прочитывать тексты. При работе с большим массивом текстов - это затруднительно и пользователь обращается к инструментам, позволяющим сократить массив документов за счет исключения мало информативных, повторяющихся, неактуальных и т.п., - выполняет фильтрацию. При осуществлении фильтрации средствами "дознаниевых" технологий (поиск и отбор по ключевым словам, другим формальным признакам) - задача решается слабо, а при ужесточении формальных критериев - резко возрастает риск отбраковки полезных, информативных или даже ключевых документов.

Содержание

Введение 3
Общее описание технологии извлечения знаний из текстов 5
Язык структурно-лингвистического анализа текстов 8
Система извлечения знаний из текстов, "Аналитический курьер", "Х-FILES" 9
Заключение 14
Список использованной литературы 15

Прикрепленные файлы: 1 файл

Системы автоматического извлечения знаний из текста.doc

— 170.50 Кб (Скачать документ)

Системы автоматического извлечения знаний из текста

 

Содержание

 

 

 

 

Введение

 

В Интернете и корпоративных  сетях содержится огромное количество информации в виде неформализованных текстов на естественном языке. Но при существующих сегодня инструментах (программно-аппаратных средствах) человеку приходится тратить огромное количество времени и усилий для того, чтобы добыть знания, необходимые для решения практических задач. Парадоксальность ситуации в том, что чем больше информации предоставляет человеку компьютеризированный мир, тем более недоступными становятся знания.

Для решения данной проблемы нужно  иметь технологии извлечения знаний из массивов текстовой информации. Знания - всегда знания о некотором объекте. Поэтому знаниевые технологии должны в первую очередь реконструировать описанные в тексте объекты, то есть - обеспечивать обработку текстов по содержанию.

Автор текста сообщает о некотором реальном предмете, явлении, ситуации и т.п., выражая при этом свою точку зрения, освещая ситуацию с определенной стороны. Читателю важны знания о том, что описано в тексте, поэтому он восстанавливает в мысли и понимании то, что "стоит за словами" - объективное содержание текста, устройство самого предмета, явления, ситуации. Кроме того, читателю бывает важно знать об источнике сведений и вносить в картину ситуации поправку на точку зрения автора.

При отсутствии адекватных и эффективных инструментов по извлечению знаний из текстов - пользователь вынужден более или менее внимательно прочитывать тексты. При работе с большим массивом текстов - это затруднительно и пользователь обращается к инструментам, позволяющим сократить массив документов за счет исключения мало информативных, повторяющихся, неактуальных и т.п., - выполняет фильтрацию. При осуществлении фильтрации средствами "дознаниевых" технологий (поиск и отбор по ключевым словам, другим формальным признакам) - задача решается слабо, а при ужесточении формальных критериев - резко возрастает риск отбраковки полезных, информативных или даже ключевых документов.

Задачей автоматизированной системы, призванной помогать пользователю в  получении знаний из больших массивов текстовых документов - является: в упрощенном варианте - выполнять эффективную фильтрацию документов с низким риском отбраковки содержательно-значимых материалов; в развитом варианте - представлять пользователю обобщенные знания об интересующем предмете (явлении, ситуации и т.п.) в готовом виде (схемы, компактные отчеты, рефераты), с возможностью обратиться к первоисточникам, из которых эти знания выделены.

 

Общее описание технологии извлечения знаний из текстов

 

Основная сложность в автоматическом анализе и понимании текста состоит в том, что в письменной речи отпечатано множество принципиально различных структур: формы грамматики языка, коммуникативная окраска высказывания, логическая культура автора, устройство описываемого в тексте объекта. Эта сложность текста проявляется в том, что одну и ту же мысль можно выразить в совершенно разной форме.

Технология, решающая данную задачу, строится на основе последовательного  анализа текста, в процессе которого осуществляется выделение содержательно-значащих единиц, отвлечение этих единиц от их грамматической формы и переход к моделям содержания.

На этом пути с помощью словаря  идентифицируются и характеризуются  слова текста, выделяются предложения, вплоть до простых переложений в  составе сложных. Проводится синтаксический анализ, в частности определяются падежи слов (при этом разрешаются сложные случаи омонимии), выделяются главные члены предложения и др.

Итогом лингвистического анализа  является перевод простых предложений (и др. лингвистических единиц) в  единую "каноническую" форму Е-5 структуры. Е-5 структура содержит в себе пять элементов (тематические объект и предикат, связку, рематические объект и предикат) и играет роль обобщенной пропозициональной модели.

Полученный результат можно  назвать "лингвистическим портретом" содержания. Этот портрет - оптимум того, что нужно узнать о тексте, используя только формально-грамматические и синтаксические признаки, и не привлекая знаний о семантических значениях слов.

В "канонической" пропозициональной  модели оказываются отвлеченными многие особенности формы выражения, что и создает возможность перехода к собственно объективному содержанию. Основой реконструкции содержания является категориальный аппарат: именно категории задают тип объектов, описанных в тексте. Для каждой лингвистической единицы строятся модели возможных объектов содержания.

Синтез отдельных объектов в  единую систему осуществляется за счет конструктивных моделей. Эти модели - с одной стороны могут быть заданы экспертами, настраивающими систему  под прикладные задачи конкретных пользователей (групп пользователей); с другой стороны - самими пользователями через особые возможности интерфейса (семантико-схематический запрос) и в ходе диалога с системой (доуточнение запросов, ответы на наводящие вопросы системы и т.п.).

Извлеченные из текста сведения или  реконструированные модели передаются на хранение в базу данных (базу знаний), где они являются доступными для  отображения пользователю в виде различных схем, отчетов, рефератов; для последующей формальной обработки; для содержательного анализа другими модулями масштабной интеллектуальной системы и т.д.

Блок-схема реализации данной технологии приведена на рис.1.

 

Язык структурно-лингвистического анализа текстов

 

Описанные выше механизмы получения "лингвистического портрета содержания текста" реализуются в прикладных подпрограммах, написанных на языке высокого уровня tExp. Этот язык специально создан для решения задач структурного анализа неформализованных текстов на естественном языке. Наличие в составе технологии собственного языка программирования, ориентированного на задачи обработки лингвистической информации, обеспечивает высокую гибкость и возможность быстрой настойки на конкретные особенности практических задач.

В подпрограммах на языке tExp реализуется  обработка текста с учетом правил, традиций и феноменов выражения содержания на естественном (русском) языке. Наиболее объемная информация (как, например, база слов языка и их атрибутов - падежей, склонений и т.п) - хранится в специальной базе данных (словарях), к которым имеют доступ подпрограммы на языке tExp.

В экспериментальных реализациях  технологии создан ограниченный набор  подпрограмм на языке tExp, который  позволяет проверить и отладить общий технологический цикл. Для  качественного и эффективного решения  практических задач - набор подпрограмм пополняется, корректируется и оптимизируется.

Наличие языка tExp позволяет не только гибко подстраивать систему под  особенности выражения содержания в отдельных прикладных областях (например, техническая литература, Интернет-публицистика, юридическая документация), но также модифицировать систему в ходе естественного развития и видоизменения языка (появление новых слов, типических выражений, устоявшихся фразеологических оборотов и пр.).

 

Система извлечения знаний из текстов, "Аналитический курьер",  "Х-FILES"

 

Система "Аналитический курьер" имеет многослойную архитектуру с "тонким" клиентом, предоставляет пользователям Web-интерфейс, реализована на Windows-платформе. Такая архитектура предполагает, что система состоит из относительно независимых звеньев - сервера данных, сервера приложений, Web-сервера и самих приложений. Компания "Ай-Теко" имеет партнерский статус Microsoft Gold Certified Partner ("Золотой партнер" Microsoft в категории Advanced Infrastructure Solutions).

Система "Аналитический курьер" развивается в направлении улучшения качества анализа текстов, увеличения поддерживаемых иностранных языков, поддержки большего числа серверных и портальных платформ, улучшения интерфейса аналитика и администратора.

"Аналитический курьер" позволяет  быстро погружаться в новые предметные области, которым посвящены тексты фонда, структурировать проблематику, готовить отчёты и информационно-аналитические материалы.

Уникальные функциональные возможности  системы обеспечили ей внедрение  в организациях, обрабатывающих большие объёмы документов.

Рис.2 Образец тематической кластерной карты сообщений

 

Рис.3 Образец семантической карты

"Система управления  фактографической информацией X-Files" предназначена для выделения фактов из различных источников, заполнения ими досье и их последующей аналитической обработки. Она позволяет следить за потоками текстовой информации и извлекать из них необходимые факты.

"X-Files" предоставляет аналитическое  обеспечение деятельности органов  государственной власти, правоохранительных органов, крупных коммерческих компаний. Этот программный комплекс применяется и как аналитический инструмент разведки, и как подсистема поддержки корпоративной безопасности подразделений.

В качестве источника документов и  сообщений система управления досье "X-Files" может эффективно использовать хранилища документов системы "Аналитический курьер".

"X-Files" автоматически выявляет  факты, связанные с объектами,  на которые системой автоматически  ведётся досье. Зачастую факты  свидетельствуют о взаимосвязях  объектов, что позволяет находить скрытые причины событий или прогнозировать поведение объектов в будущем. Взаимосвязи объектов визуально представляются в виде карты связей или деревьев.

 

 

Рис.4 Пример карты связей

Понятие факт системы "X-Files" характеризуется рядом возможных свойств:

  • тип факта;
  • объект-владелец факта;
  • место действия факта;
  • объекты-участники факта;
  • время длительности факта;
  • значение факта (например, "продажа бизнеса").

С помощью программ-автоматов, допускающих  параллельную работу, система "X-Files" осуществляет выявление фактов из документов и заполняет досье поставленных на мониторинг объектов.

В дальнейшем система предоставляет  доступ к накопленной фактографической информации через Web-интерфейс для  решения следующих аналитических  задач:

  • автоматическое выявление прямых и косвенных (т.е. через третье лицо) связей объекта;
  • автоматическое выявление связей объектов по месту и времени (когда события произошли с разными объектами в одном месте или в близкое время);
  • типизация связей, представленных различной лексикой;
  • формирование групп объектов, связанных между собой общностью фактов (например, место, время, содержание факта);
  • построение карты связей объектов для различных типов связей, визуализация и фильтрация связей;
  • поиск оптимальных (обычно, кратчайших) связей между заданными объектами;
  • построение многомерных частотных распределений фактов.

Архитектура системы предусматривает  взаимодействие с конечным пользователем  через портал, использование Web-сервисов для взаимодействия с другими  информационными системами, выгрузку данных в формате XML для имеющихся унаследованных приложений Заказчика. 

Использование:

Аналитические подразделения и  службы безопасности банка

Анализ кредитоспособности клиента, ведение досье на объекты, осуществляющие определённые подозрительные платежи и т.д.

Страховые компании

Обнаружение мошенников, неоднократно причинивших ущерб, недобросовестных объектов-страхователей, их связей, а  также закономерностей событий (по месту и времени), происходящих с  клиентами страховой компании.

Аналитические подразделения производственных компаний

Анализ наиболее частых неполадок, помощь в принятии решений.

Подразделения экономической разведки предприятий (анализ рынка), подразделения

Предоставление руководителям  ценной информации, необходимой для принятия стратегически важных управленческих решений.

Подразделения специальных служб, правоохранительных органов

Ведение досье на избранные объекты, поиск закономерностей в их деятельности и фактов, которые с ними связаны.

Аналитические подразделения и службы безопасности гос.органов

Поиск информации, анализ проблем, ведение  досье на объекты, получение регламентных отчетов. Обеспечение лиц, принимающих  управленческие решения, такой информацией, которая помогала бы выбрать наиболее оптимальный вариант решения стоящей перед организацией проблемы.

 

Заключение

 

В работе рассмотрена технология автоматизированного извлечения знаний из текстов на естественном языке, приведена принципиальная блок-схема системы, построенной по данной технологии, а также описаны ключевые моменты, позволяющие достигать эффективного решения поставленной задачи. Наиболее важными элементами технологии являются: выделение из текста содержательно-значащих единиц, их отвлечение от грамматической формы и переход к моделям содержания; язык структурно-лингвистического анализа текстов; механизм формирования пользователем интересующих моделей содержания.

 

Список использованной литературы

 

  1. http://www.noolab.ru
  2. http://www.ntores.uz

Информация о работе Системы автоматического извлечения знаний из текста