Информационно-поисковые языки в сети Интернет

Автор работы: Пользователь скрыл имя, 04 Апреля 2014 в 19:27, реферат

Краткое описание

Целью реферата является мы рассмотрение в теории и на практике использование информационно-поисковых языков в различных поисковых системах сети.
Объектом изучения будет являться интернет как единая информационная среда.
Предметом исследования являются информационно-поисковые языки Интернет.
Для того, чтобы достигнуть поставленную цель, необходимо решить следующие задачи:
провести анализ теоретической и научно-метадической литературы по данной теме;
описать основные типы информационно-поисковых языков;

Прикрепленные файлы: 1 файл

М1302 Борисова А..doc

— 91.50 Кб (Скачать документ)

Борисова А.А.

Федеральное государственное образовательное

бюджетное учреждение

высшего профессионального образования

САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ

ЭКОНОМИЧЕСКИЙ УНИВЕРСИТЕТ

ИНСТИТУТ УПРАВЛЕНИЯ

 

Факультет менеджмента

 

 

 

 

 

Реферат на тему: «Информационно-поисковые языки в сети Интернет»

 

 

 

 

 

                                                             Выполнил:

                                                студент группы М1302

                                                             1 курса                                                                                                                                       

                                                    факультета менеджмента

    •                                                                    Борисова А.А.

                                                           Руководитель:

                                                            Черницкий А.А.

 

 

 

 

 

 

 

 

Санкт-Петербург

2013 г. 

Содержание

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Введение.

 

Наше современное общество характеризуется переходом от индустриального к информационному переходу развития. Развитие глобальной информационной сети является одним из главных признаков этого процесса.

В конце XX века общество захлестнул гигантский поток информации из самых разных областей нашей жизни, а так же оно получило доступ к этой самой информации, которая расположена на компьютерах по всему миру. Сегодня Интернет представляет собой огромное безграничное хранилище, в котором собрано все то, что может интересовать современного человека. Это хранилище динамично, ведь ежедневно в него поступают все новые и новые потоки документов, а старые либо удаляются, либо корректируются. С каждым днем это приводит к тому, что поиск нужной и необходимой информации для конкретного человека становится важной и серьезной проблемой. Поэтому на помощь приходят различные поисковые системы, которые решают данную проблему. Появление поисковых сетей Интернет стало новым витком в развитии информационного поиска. Сегодня, разработанные за много лет различные методы поиска, активно применяются в информационных-поисковых системах (ИПС), где важнейшей структурой является информационно поисковый язык.

Каждый из нас заинтересован иметь разнообразные навыки сложного поиска, ведь быстрый рост и динамочное развитие информационных ресурсов не заставляют себя долго ждать. Если человек умеет быстро найти нужный ему документ в Интернете, то он однозначно экономит большое количество времени и обладает актуальной и достоверной информацией, делает верные выводы и правильные решения.

Все это говорит о актуальности глубокого изучения информационно-поисковых языков в сети Интернет, что и является моей темой реферата.

Целью реферата является мы рассмотрение в теории и на практике использование информационно-поисковых языков в различных поисковых системах сети.

Объектом изучения будет являться интернет как единая информационная среда.

Предметом исследования являются информационно-поисковые языки Интернет.

Для того, чтобы достигнуть поставленную цель, необходимо решить следующие задачи:

    1. провести анализ теоретической и научно-метадической литературы по данной теме;
    2. описать основные типы информационно-поисковых языков;

рассмотреть различные информационно-поисковые системы и провести сравнительный анализ использования в них информационно-поисковых языков.Глава 1. Обзор информационно-поисковых языков в сети Интернет.§1. Классификация информационно-поисковых языков.

 

Поиск информации релевантной информационным потребностям пользователей — одна из главных задач информационно-поисковой системы. Релевантность — это понятие, которое означает соответствие между желаемой и полученной информациями. Так же, понятие релевантности можно охарактеризовать как меру близости между реально полученными документами и тем, что хотелось бы получить из системы. Исходя из этого возникают две задачи, которые необходимо решить: представление информации в системе и формулирование информационных потребностей пользователя. Как мы видим, эти две проблемы непосредственно cвязаны друг с другом.

Наиболее раcпространенными моделями предcтавления документов в информационно-поисковой сиcтеме являютcя различные вариации на тему векторной модели, где документ предcтавляетcя как набор терминов. Хотелось бы отметить, что это не весь текст дкумента, а лишь небольшой набор терминов, который отражает его cодержание. Опираясь на такой вид представления документов, мы и рассмотрим различные информационно-поисковые языки.

Информационно-поисковый язык — искусственный язык, представляющий совокупность средств для описания формальной и содержательной структуры для поиска (путем индексирования) по запросу пользователя.

В связи с необходимостью устранения избыточности и недостаточности естественного языка произошла формализация лексики, и были созданы различные ИПЯ для целей информационного поиска.

В информацмонно-поисковых языках так же содержится свой лексикон, некий словарный запас, как и в естественных языках. Слова (лексические единицы) информационно-поисковых языков могут быть как простыми, так  сложными. Иначе говоря, ИПЯ могут иметь или не иметь cвои оcобые cредcтва «cловообразования», т. е. Способы формирования более cложных лекcических единиц из проcтых.

Алфавит, лексика и грамматика являются оcовными элементами информационно-поисковых языков. Алфавит — cиcтема знаков, которых используемых для записи cлов и выражений ИПЯ. Лексика — cовокупность cлов, cловосочетаний и выражений, иcпользуемых для поcтроения текcтов ИПЯ.

Так же, можно выделить по облаcти или по cфере применения ИПЯ:

    1. Коммуникативные, или общеcистемные ИПЯ  - предназначены для взаимодейcтвия между различными cистемами;
    2. Локальные, или внутренние ИПЯ — предназначены для иcпользования в рамках отдельной cистемы;
    3. Внешние ИПЯ — иcпользуются в других cистемах и прeдназначены для взаимодейcтвия только c ними.

Различают декларативные языки (языки описания), которые в свою очередь свою очередь подразделяются на языки предкоординатные (классификационные) и  посткоординатные (дескрипторные), а также процедурные языки -  языки запросов и манипулирования данными.

 

Классификационные информационно-поисковые языки.

Информационно-поисковые каталоги, которые были основаны на классификации данных по конкретной предметной области, являлись первыми системами информационного поиска документов.

Изначально, чтобы классифицировать по той или иной теме документ, необходимо было сформировать списки предметных аналогов, которые располагались в алфавитном порядке. Каждая предметная рубрика получала особый цифровой или буквенно-цифровой код. Теперь содержание документа индексировалось перечислением кодов этих рубрик, содержавших в себе темы данных документов. Это и есть, перечислительная классификация.

 Возможность индексирования документов разным количеством рубрик, отражающих содержание документа — главная особенность систем перечислительной классификации. Для того, чтобы найти необходимый документ по классификатору, определяются коды интересующих пользователя рубрик и затем выделяются из хранилища те, которые проиндексированы соответствующими кодами. Но главным недостатком данного вида классификации является то, что между предметными рубриками отсутствуют систематизированные связи и  отношения.

Строение списка предметных рубрик при систематизированной классификации происходит в иерархическом порядке, в виде перевернутого дерева. Вся предметная область разбивается на один или несколько рядов взаимоисключающих рубрик. В свою очередь, каждая такая рубрика обычно включает несколько подрубрик (но может и не включать). Таким образом, учитываются семантические основы предметной области, которые выражаются в родовидовых отношениях основных категорий, понятий и классов.

При индексировании содержание документа кодами соответствующих рубрик отпадает необходимость в более точно указании более общих рубрик, к которым относятся выделенные подрубрики. В итоге, при иерархической классификации, индексирование и поиск самого документа позволяют более четко и явно отражать содержание данного документа, а т. ж. обеспечивают точность поиска.

В алфавитно-предметных каталогах библиотек, например, используются перечислительный и иерархический подходы к классификации, но их недостатком является принципиальная невозможность заранее перечислить все возможные темы документов.

 

Дескрипторные информационно-поисковые языки (ДИПЯ).

Дескрипторные информационно-поисковые языки — это поисковый язык, предназначенный для координатного индексирования документов и

информационных запросов посредством дескрипторов. В их основе построения лежит принцип координатного индексирования. Он предполагает, что основнй смысл содержания документа может быть выражен списком ключевых слов. К этим ключевым словам относятся полнозначные слова: существительные, глаголы, прилагательные, наречия, числительные, местоимения. Так же, к ним могут относиться предлоги, союзы, связки и частицы.

Основные элементы ДИПЯ:

  • словарь лексических единиц;
  • грамматика ИПЯ, которая определяет процедуру переводов текста документа и запросов с естественного языка на ИПЯ;
  • правила построения ИПЯ.

Сами словари лексических единиц делятся на две группы:

  • основные лексические словари, которые составляют лексику ИПЯ;
  • морфологические словари, обеспечивающие морфологический анализ и нормализацию слов.

В качестве лексических единиц словарей используются ключевые слова, словосочетания или дескрипторы (понятие, которое обозначает группу эквивалентных или близких по смыслу ключевых слов).

Дескриптор — понятие, которое обозначает класс синонимов. В качестве них могут быть использованы как коды, так и слова или словосочетания.

Разработка дескрипторного языка в итоге сводится к разработке информационно-поискового тезауруса (ИПТ).

Тезаурус — специальный словарь-справочник, где перечислены дескрипторы определенной предметной области и указаны их синонимы, а так же установлены способы устранения синонимии, омонимии, полисемии и определены родовые и ассоциативные связи дескрипторов.

Важными парадигматическими отношениями ИПТ являются:

  • соподчинение;
  • род-вид;
  • часть-целое;
  • причина-следствие;
  • функциональное сходство.

Структура ИПТ включает в себя три составляющих: словарную часть, семантическую карту, руководство по использованию.

Словарная часть — алфавитный список дескрипторов сих словарными статьями.

Семантическая карта — система тематических классов дескрипторов, которая представлена в виде схемы или таблицы.

Руководство по использованию ИПТ содержит правила перевода ключевых слов и словосочетаний на ИПЯ, правила лексикографического контроля и редактирования поискового образа документа и поискового образа запроса, а также правила ведения ИПТ.

Информационно-поисковые тезаурусы отличаются от информационно-поисковых каталогов тем, что на основе предметной иерархической рубрикации помимо классификационной системы присутствуют ключевые слова и дескрипторы, которые объединены под названием классов, рубрик и прочее, в то время, как в каталогах присутствуют только лишь названия классов.

Повышение эффективности индексирования документов в рамках дескриптивного подхода — главная идея информационно-поисковых тезаурусов. Но в процессе индексирования учитываются семантические отношения между дескрипторами, что в итоге обеспечивает более понятный содержанию документа поисковый образ и повышает эффективность поиска самих документов.

Можно отметить, что на данное время происходит расширение сфер применения автоматических тезаурусов, где они являются составной частью современных систем подготовки текстов, осуществляя лингвистическую поддержку процесса подготовки и обработки текстов на естественном языке.

Наиболее перспективные направления развития автоматических тезаурусов:

    1. Получение справки по используемому слову. То есть, указав определенное слово в качестве ключа для запроса, пользователь получает определенный фрагмент словаря, который содержит лингвистическую информацию об этом слове. Например, автоматически тезаурус получает от пользователя некоторый глагол и в ответ выдает некую совокупность стереотипных и сочетающихся с ним существительные или наиболее часто сопровождающие его определения. При этом автоматически выполняется процедура приведения глагола в начальную форму, а существительного к именительному падежу.
    2. Контекстные замены по требованию пользователей. Здесь тезаурус подбирает не только вместо одного словосочетания другое, но и автоматически переоформляет параметры слов в соответствии с контекстом, например, изменяет род прилагательного. Из этого можно сделать вывод, что синтаксические операции, которые производятся тезаурусом, значительно усложняются.
    3. Автоматическая оценка стиля. Мы можем заметить, что если слова и словосочетания в тезаурусе снабдить стилистическими пометками, то он может использоваться в качестве стилистической оценки текста с выделением слов и словосочетаний, которые выпадают из общего стиля данного документа

Информация о работе Информационно-поисковые языки в сети Интернет