Автор работы: Пользователь скрыл имя, 06 Ноября 2014 в 06:12, практическая работа
В файле практ_поиск_ФИО.docx оформить ответы на поставленные вопросы:
1. По каким признакам можно осуществлять информационный поиск?
2. Почему важно правильно составить формулировку запроса?
3. Каковы основные функции поисковых систем?
4. Почему в автоматизированных системах поиск считается основным направлением функционирования системы?
5. По каким схемам происходит поиск информации?
6. Что подразумевается под понятием «паук» в контексте поисковых операций?
7. Как объяснить понятие «релевантность страницы»?
8. Какие виды поиска Вы знаете?
9. Назовите и расшифруйте методы поиска
10. Что такое хешинг и кластеризация?
11. Создайте таблицу символов-операторов и заполните ее
Практическая работа «Поиск информации в автоматизированных системах»
В файле практ_поиск_ФИО.docx оформить ответы на поставленные вопросы:
Оператор |
Значение оператора |
Например, * (звездочка) |
Заменяет любые символы, любой последовательности |
"?". |
в ключевом слове запроса заменяет один символ в слове |
"*" |
последовательность символов |
"+" |
должно обязательно присутствовать в результате запроса |
"-" |
должно обязательно отсутствовать |
"|" |
позволяет искать хотя бы одно из слов ключевой фразы |
"&" |
сокращение |
"~" |
тильда, то есть исключает из результата слова, отмеченные этим знаком. |
– "" |
используется для поиска фразы целиком |
Задание |
Варианты выражений для поисковой строки |
Результат поиска |
Например, Найти информацию о сотовом телефоне Samsung и аксессуарах к нему |
"сотовый телефон Samsung +аксессуары" сотовый телефон Samsung +аксессуары |
28 ответов
10 млн. ответов |
Найти информацию об устройствах хранения данных, кроме их рекламы |
устройства хранения данных без рекламы |
|
Отыскать полный текст произведения Сказка о царе Салтане |
«Сказка о царе Салтане» |
|
Найти стоимость внешнего жесткого диска Seagate Expansion в Омских магазинах |
стоимость внешнего жесткого диска Seagate Expansion в Омских магазинах |
|
Отыскать информацию только о копировальном аппарате Kyocera и Canon |
информация о копировальном аппарате Kyocera и Canon |
|
Что будет найдено, если ввести в поисковую строку архивные/2 стеллажи |
архивные стеллажи |
3. Основные функции поисковых машин:
- по заданным ключевым словам они осуществляют поиск в интернете;
- поисковики индексируют слова, которые они ищут и места, в которых их нашли;
- поисковики дают возможность
искать по своим базам, в которые
уже занесены
4. Автоматизированная подсистема управления АИС охватывает следующие основные направления функционирования системы: составление планов информационного обеспечения потребителей; установление контроля за выполнением количественных и качественных показателей функционирования подсистем сбора, обработки, хранения, поиска и распространения информации.
5. Работа поисковых систем, к которым часто и при этом ошибочно относят и каталоги, полностью автоматизирована и ведется по следующей схеме: сканирование ресурсов с помощью программы-робота, формирование индексной базы данных и, наконец, обслуживание запросов по ключевым словам.
6. Перед
тем как поисковые системы выдадут вам
информацию по вашему запросу, они должны
сначала найти эту информацию. Разумеется,
они не сканируют весь интернет при вводе
каждого запроса. Это было бы слишком расточительно
и очень долго.
Вместо этого поисковики создают некую
базу данных по всем страницам, содержащимся
в сети, и производят поиск в этой базе
данных. Разумеется, это намного быстрее,
чем множество раз проводить поиск по
всем сайтам. Как же поисковики заполняют
эту свою базу данных (обычно, базу данных
называют индексом поисковой системы,
а включение определенного сайта в этот
индекс называют индексированием сайта).
Каждый поисковик имеет специальную программу-робота,
которая и индексирует сайты. Эта программа
называется пауком, а процесс индексирования
– ползание паука. И, действительно, если
подумать, то процесс напоминает ползание
паука по различным сайтам и собирание
информации с них (индексация).
7. Периодически стратегии подсчета корректируются, вводятся новые параметры, изменяются старые. Поисковик проводит поиск в своей базе. Находит страницы, подходящие под запрос пользователя и выводит их в порядке убывания соответствия запросу. Соответствие запросу называется – релевантностью страницы.
8. Виды поиска
Систему поиска можно разделить на три вида:
Полнотекстовый поиск – поиск документа в базе данных текстов на основании содержимого этих документов. Первые версии программ полнотекстового поиска предполагали сканирование всего содержимого всех документов в поиске заданного слова или фразы. При использовании такой технологии поиск занимал очень много времени (в зависимости от размера базы), а в интернете был бы невыполним. Современные алгоритмы заранее формируют для поиска так называемый полнотекстовый индекс – словарь, в котором перечислены все слова и указано, в каких местах они встречаются. При наличии такого индекса достаточно осуществить поиск нужных слов в нём и тогда сразу же будет получен список документов, в которых они встречаются.
Поиск по метаданным — это поиск по неким атрибутам документа, поддерживаемым системой – название документа, дата создания, размер, автор и т. д. Метаданные – это информация об используемых данных. Информация об информации. Пример: Имя автора правки в тексте. Этот термин в широком смысле слова используется для любой информации о данных: именах таблиц, колонок в таблице в реляционных базах данных, номер версии в файле программы (то есть как информативная часть в бинарном файле) и т.п. Метатеги служат для того, чтобы задавать ключевые слова и фразы для web-страницы, и определяют ее основное содержание. Когда ключевые слова повторяются на странице несколько раз, то метатеги указывают поисковику правильный выбор ключевых слов для индексации страницы. Поисковые пауки умеют выявлять попытки накрутки страницы с помощью популярных поисковых слов, которые при этом не соответствуют содержимому страницы. Для этого они анализируют смысловую связь метатегов с содержимым web-страницы.
Структурированные данные, представляющие собой характеристики описываемых сущностей для целей их идентификации, поиска, оценки, управления ими.
Поиск изображений – поиск по содержанию изображения. Поисковая система распознает содержание фотографии (загружена пользователем или добавлен URL изображения). В результатах поиска пользователь получает похожие изображения.
Алгоритм поиска должен анализировать содержание изображения, например, цвет представленных на нём объектов, их форму, текстуру, композицию сцены. При отсутствии возможности проанализировать сцену при поиске рассматриваются метаданные: ключевые слова, метки.
9. Методы поиска
У системы автоматизированного поиска можно выделить 4 метода поиска:
- адресный поиск
- семантический поиск
- документальный поиск
- фактографический поиск
Адресный поиск – процесс поиска документов по чисто формальным признакам, указанным в запросе. Для осуществления нужны следующие условия:
- наличие у документа точного адреса
- обеспечение строгого
порядка расположения
Адресами документов
могут выступать адреса веб-
Семантический
поиск - процесс поиска документов
по их содержанию. Для осуществления нужны
следующие условия:
- перевод содержания документов
и запросов с естественного
языка на информационно-
- составление поискового
описания, в котором указывается
дополнительное условие поиска.
Принципиальная разница между адресным
и семантическим поисками состоит в том,
что при адресном поиске документ рассматривается
как объект с точки зрения формы, а при
семантическом поиске — с точки зрения
содержания.
Документальный поиск - процесс поиска в хранилище информационно-поисковой системы первичных документов или в базе данных вторичных документов, соответствующих запросу пользователя.
Можно выделить два вида документального поиска:
- библиотечный, направленный на нахождение первичных документов.
- библиографический, направленный на нахождение сведений о документах, представленных в виде библиографических записей.
Фактографический
поиск - процесс поиска фактов, соответствующих
информационному запросу. К фактографическим
данным относятся сведения, извлеченные
из документов, как первичных, так и вторичных
и получаемые непосредственно из источников
их возникновения.
Различают два вида фактографического
поиска:
- документально-
- фактологический (описание фактов), предполагающий создание новых фактографических описаний в процессе поиска путем логической переработки найденной фактографической информации.
10. Самый эффективный способ для индексации – это построение хеш-таблиц. При хешировании каждому слову присваивается числовое значение, для этого используется определенная формула.
С некоторых букв, в любом языке, начинается гораздо больше слов, чем с остальных букв. Поэтому на поиск слова, начинающегося с более популярной буквы уходит больше времени. Хешинг позволяет уравнять эту разницу, тем самым уменьшить среднее время поиска, кроме того, хешинг отделяет индекс от реальных данных.
Кластеризация документов – одна из задач информационного поиска. Целью кластеризации документов является автоматическое выявление групп семантически похожих документов среди заданного фиксированного множества документов.
Информация о работе Поиск информации в автоматизированных системах