Інформаційно-аналітичні технології

Автор работы: Пользователь скрыл имя, 10 Января 2014 в 13:11, практическая работа

Краткое описание

Будь-яка діяльність людини базується на інформації. Однією з головних проблем, що виникає при задоволенні інформаційних потреб людства є проблема пошуку інформації. Все більше ускладнюється пошук інформації в мережі Internet. Це відбувається внаслідок вражаючого зростання обсягів і темпів росту web-ресурсів мережі. Так, за результатами дослідження компанії Netcraft, у 1998 році кількість серверів у мережі Internet становила 1 млн. Згідно з даними експертів компанії Inktomi, на лютий 2000 року їх нараховувалося вже понад 6 млн. Загальна кількість web-сторінок на серверах Internet перевищує мільярд.

Прикрепленные файлы: 1 файл

proekt_по_ИАТ_магистри.doc

— 459.00 Кб (Скачать документ)

Серед всіх розглянутих  систем, Yahoo - єдина чисто каталогова, на Yahoo немає власної пошукової  машини. Зате список категорій на Yahoo є якнайповнішим і простим.

При введенні ключових слів з основної сторінки Yahoo, запит обробляється по методу "Intelligent default", тобто Yahoo шукає найвідповідніші результати в таких областях: в категоріях Yahoo; в Web-сайтах, зареєстрованих на Yahoo; на Altavista (запит передається за відсутності результатів); в новинах. При завданні критеріїв пошуку для Yahoo потрібно пам'ятати, що Yahoo шукає ці слова тільки в назві і описі сторінки, оскільки повнотекстового індексу на Yahoo немає. Тому не слід указувати при пошуку дуже багато термінів або синоніми - кількість результатів знизиться або навіть буде нульовим. У випадку, якщо на Yahoo немає результатів, відразу виводяться результати з Altavista. Кількість результатів пошуку на Yahoo, природньо, невелика, зате більшість з них є релевантними. Можлива проблема з відсутніми сторінками, оскільки вебмайстри звичайно забувають видалити свої сайти з пошукових систем, а на Yahoo немає механізму автоматичного оновлення.

Для розширеного пошуку Yahoo пропонує не дуже великий, але дуже корисний набір інструментів: обмеження результатів по даті, пошук в Yahoo, Usenet і серед E- mail адрес, використовування логічних операцій над термінами і пошук конкретної фрази. Також є можливість шукати слова з довільними закінченнями, указувати слова, які повинні або не повинні бути присутні в документі, і т.д.

 

Інформаційно-пошукова система Mail.ru Російськомовна пошукова система Mail.ru має непогані можливості пошуку. Розділи, перераховані на головній сторінці Mail.ru висвітлюють російськомовні Web ресурси. В разі, якщо користувачу необхідно працювати в специфічній області, йому слід використати запропоновану класифікацію інформації.

Стандартні засоби пошуку дозволяють оперувати безпосередньо  з рядка «Поиск», розміщеного  у верхній частині сторінки Mail.ru.

Взагалі в пошуковій система Mail.ru переважають інформаційні ресурси розважального характеру, в меншій мірі тут присутні інформаційні ресурси з іншим функціональним призначенням.

Пошук у цій системі  можна здійснювати за простим  і розширеним запитом, а також  за допомогою синтаксису мови запитів.

2. Методика розрахунку  якості пошуку

 

Якість пошуку релевантної  інформації характеризується двома  параметрами: повнотою і точністю.

Релевантність – це характеристика ступеня відповідності змісту документа, знайденого в результаті інформаційного пошуку, змісту інформаційного запиту.

Релевантна інформація – це та частина корисної інформації, необхідної для вирішення певної проблеми, яка повністю усуває (з  точки зору вирішення проблеми) невизначеність користувача про об’єкт.

Саме таку інформацію надіється отримати користувач на свій запит при роботі з пошуковою системою. І основне завдання пошукової системи полягає в мінімізації часу, який витрачається користувачем на пошук релевантної інформації.

Проведемо оцінку релевантності  інформації. Зробимо це за такою схемою:

1. Задання запиту й  отримання певної кількості документів

 

2. Аналіз і відбір  релевантних документів

 

3. Аналіз і відбір  ідеально релевантних документів

 

4. Визначення точності  і повноти отриманої інформації

 

 

Точність визначає наскільки пошукова система здатна мінімізувати час на пошук релевантної даному запиту інформації.

Повнота визначає наскільки пошукова система здатна знайти релевантну даному запиту інформацію

Точність визначаємо за формулою:

   (1)

 

де   rq – кількість отриманих документів, ідеально релевантних запиту q

       nq – загальна кількість документів отриманих на запит q

 

Повноту інформації визначаємо за формулою:

   (2)

де Rq – кількість документів колекції С, релевантних даному запиту.

 

3. Аналіз результатів  пошуку

3.1 Пошук за простим  запитом

 

Результати пошуку за простими запитами подані в табл.. 1

Таблиця 1

Аналіз  результатів пошуку за простими запитами

 

Формулювання запиту

ІПС

Кількість отриманих  документів

Якість пошуку

Загальна кількість документів

Релевантні  документи

Ідеально релевантні документи

Фінансово-економічні інформаційні системи

Фінансово-економічні інформаційні системи

Yandex

1504

604

54

Точність – 3 %

Повнота – 8 %

Google

791

280

48

Точність – 6 %

Повнота – 17 %

Інформаційні  системи у бізнесі

Інформаційні системи  і  технології в бізнесі

Аport

48

29

9

Точність – 19%

Повнота – 31%

Rambler

2207

101

37

Точність – 1,7%

Повнота – 37%

Інформаційні  системи у менеджменті

Інформаційні системи  у менеджменті

Alta Vista

9750

1324

25

Точність –0,3%

Повнота –2%

Info Seek

7856

1115

16

Точність –0,2%

Повнота –1,45%

Інформаційні системи у менеджменті в галузі охорони здоров′я

Інформаційні системи  в менеджменті в галузі охорони  здоров’я

Mail. ru

3300

54

19

Точність – 0,6 %

Повнота – 2,3 %

Yahoo!

1240

65

23

Точність – 2 %

Повнота – 1,6 %


 

Як видно з таблиці 1, при заданні простих запитів ми отримуємо велику кількість документів (сотні, а то й тисячі). Знайти серед такої кількості документів релевантні запиту документи дуже важко, причому переважна більшість виданих документів є нерелевантними нашим запитам, тобто має місце негативна тенденція наявності інформаційного шуму. Про це свідчать наші розрахунки. Так, в ІПС Alta Vista на запит Інформаційні системи у менеджменті знайдено 9750 документів, з них, за нашими розрахунками, 1324 релевантних і 25 ідеально релевантних документів, точність і повнота відповідно є такими: 0,3 % і 2 %. Дані показники точності і ефективності свідчать про низьку якість пошуку.

Мало знайдено релевантних  документів і в ПС Info Seek: з 7856 виданих  на запит Інформаційні системи у  менеджменті 1115 релевантних і лише 16 ідеально релевантних документів. Більшу кількість релевантних документів на запит „Фінансово-економічні інформаційні системи” знайдено в ПС Yandex і Google (Yandex: загальна кількість виданих документів – 1504, кількість релевантних документів – 604, кількість ідеально релевантних документів – 54; Google: загальна кількість виданих документів – 791, кількість релевантних документів – 280, кількість ідеально релевантних документів – 48), але, як бачимо з таблиці 1 якість і повнота пошуку в цих системах є невисокою (Yandex: точність - 3 %, повнота – 8 %; Google: точність – 6 %, повнота – 17 %).

Найкращі результати під час відбору релевантних  документів з усієї кількості  виданих на запит Інформаційні системи  і технології в бізнесі документів отримані при роботі з ПС Апорт (із 48 виданих документів 29 релевантних  та 9 ідеально релевантних документів; точність і повнота пошуку становить відповідно 19 % і 31 %).

Порівнюючи результати пошуку інформації за простим запитом  з нашої тематики в обраних  нами пошукових системах, слід відзначити, що найменш ефективними для пошуку інформації  за простим запитом з тематики „Інформаційні системи” є такі ПС, як Alta Vista та Info Seek, доцільніше здійснювати пошук за даною тематикою в ПС Google, Апорт та Yandex.

За результатами наших розрахунків можна зробити висновок про те, що при здійсненні пошуку інформації  за простим запитом з нашої тематики й при заданні запитів, поданих в таблиці 1,чим менша загальна кількість отриманих документів, тим більша точність і повнота пошуку, а отже – вища якість пошуку. Зокрема, точність і повнота пошуку на запит Інформаційні системи в бізнесі в ПС Апорт при отриманих 48 документах становлять відповідно 19 % та 31 %, а точність і повнота пошуку в пошуковій системі Info Seek при загальній кількості отриманих документів (7856) на запит „Інформаційні системи в менеджменті” становить відповідно 0,2 % і 1,45 %.

З метою зменшення  кількості документів, нерелевантних  запиту, необхідно змінювати формулювання запиту, використовувати інші технології пошуку, такі як розширений пошук та синтаксис мови запитів.

3.2. Розширений  пошук

 

Технологія розширеного  пошуку дає можливість підвищити  ефективність інформаційного пошуку. За умови використання технології розширеного  пошуку ми маємо можливість задавати параметри пошуку, такі як: відстань між словами, формат, дата оновлення, розміщення слів на сторінці, пошук за точною фразою та ін.

Проведемо аналіз функції  розширеного пошуку деяких ІПС й  подамо результати в таблиці 2.

Таблиця 2

Аналіз  організації розширеного пошуку ІПС

Основні можливості розширеного  пошуку

Переваги організації  розширеного пошуку

Недоліки функцій розширеного  пошуку

Яндекс

 

1 Вказання умов:

А) розміщення слів, що шукаються відносно одне одного (підряд, в одному реченні, не дуже далеко, на одній сторінці);

Б) розміщення слів, що шукаються на сторінці (де завгодно, в заголовку, в тексті посилання на сайт).

 

2 Вказання властивосте  сторінок, що шукаються:

а) мова (російська, англійська, французька, німецька, українська, білоруська, будь-яка);

б) дата (останні 2 місяці, останній місяць, останні 3 місяці, останній рік, вільний  діапазон, будь-яка);

в) формат (будь-який,HTML, PDF (Adobe Acrobat), RTF (Rich Text Format), DOC (MS Word), XLS (MS Excel), PPT (MS PowerPoint), SWF (Macromedia Flash))

г) зміст посилань;

д) вибір кількості посилань на знайдені документи, що показуються (10, 20, 30, 50);

е) документи, що шукаються містять  посилання;

є) знаходяться на певному сайті;

ж) схожі на сторінку (вказуємо адресу сторінки).

 

1. Можливість задання широкого діапазону періоду, за який здійснюється пошук (наявність „вільний діапазон”, будь-який).

2. Великий вибір форматів.

3. Можливість вказання посилання  у випадку, якщо його містять  документи, що шукаються.

4. Вказання адреси схожої сторінки.

5. Можливість задання розміщення слів, що шукаються, відносно одне одного.

 

Рамблер

 

Є можливість задання таких параметрів пошуку:

1) пошук по тексту: всього документа,  назви, гіперпосилань;

2) пошук слів запиту: усіх („і”), хоча б одного („або”), точну фразу;

3) відстань між словами: обмежувати, не обмежувати:

4) задання слів для виключення  документів, які містять хоча  б одне із цих слів;

5) мова документа: російська,  українська, англійська, будь-яка.

6) формат документа: будь-який, HTML,  DOC (MS Word).

6) дата документа: починаючи з... і по...

7) вказання сайтів, на яких потрібно  шукати документи;

8) задання умов виведення результатів:  сортування пошуку (сайти за релевантністю,  сторінки за релевантністю, сторінки  за датою (спочатку нові), сторінки  за датою (спочатку старі)); показ зв’язаних запитів (окремою колонкою або внизу сторінки); кількість сайтів, що видаються (по 15, 30, 50).

 

1. Можливість обме-ження відстані  між словами.

2. Можливість задання таких умов  виведення результатів пошуку, як  сортування пошуку, і показ зв’язаних запитів.

 

Обмеженність у виборі формату  документа. Є лише 3 можливих варіанта будь-який HTML, DOC (MS Word).

Можливість задання періоду, за який здійснюється пошук, відсутня.

Alta Vista

 

1.Можливості побудови запиту:

1) пошук за всіма із заданих слів

2) за точною фразою

3) за будь-яким із заданих  слів

4) задання слів для виключення  документів, які містять хоча  б одне з них.

2. Проведення пошуку:

а) по всьому світу, б) по Великобританії.

3. Видача результатів:

а) на всіх мовах, б) на англійській мові.

4. Задання періоду  охоплення пошуку:

а) будь-який, б) за останню неділю, в) за останні 2 неділі, г) за місяць, д) 8 місяців, е) рік

5. Задання формату:

 будь-який, Adobe PDF (.pdf), MS Word (.doc), MS Excel (.xls), MS PowerPoint (.ppt), HTML (.htm, .html), Text (.txt)

6. Вказання сайтів, на  яких потрібно шукати документи.

7. Задання кількості  сайтів, що видаються на сторінці (10, 20, 30, 40, 50).

 

Є можливість задання періоду охоплення  пошуку.

 

Можливість вказання розміщення слів, що шукаються, на сторінці відсутня.

Можливість задання розміщення слів, що шукаються, відносно одне одного відсутня

Yahoo!

 

    Можливість задання таких  параметрів: пошук за кожним із  заданих слів запиту, за точною  фразою, за будь-яким із заданих  слів, задання слів для виключення документів, які містять хоча б одне з них. Ключові слова можуть знаходитися в будь-якому місці сторінки, в заголовку, задається адреса сайту.

    Вибір періоду пошуку: а) пошук здійснюється за весь  час, б) за три останні місяці, в) за 6 місяців, г) за рік.

    Задаються типи доменів: любий домен, лише .com, лише .edu, лише лише.gov, лише .org

    Присутня можливість  команди фільтрації сайтів.

    Вибір типу форматів: будь-який, HTML (.htm, .html), Adobe PDF (.pdf), MS Excel (.xls), MS PowerPoint (.ppt), MS Word (.doc), RSS/XML (.xml) Text Format (.txt)

    Вибір країни і вибір  мови:

Arabic, Bulgarian, Catalan, Chinese (Simplified), Chinese (Traditional), Croatian, Czech, Danish, Dutch, English, Estonian, Finnish, French German, Greek, Hebrew , Hungarian, Icelandic, Indonesian, Italian, Japanese, Korean, Latvian, Lithuanian, Norwegian, Persian, Polish, Portuguese, Romanian, Russian, Serbian, Slovak Slovenian, Spanish, Swedish, Thai,Turkish

    Задання кількості сайтів, що видаються на сторінці : по 10, 20, 30, 40, 50, 100

 

1. Можливість задання типів доменів.

2. Можливість вибору команди  фільтрації сайтів.

3. Великий вибір форматів.

 

Можливість задання розміщення слів , що шукаються, відносно одне одного відсутня

Google

 

    Можливості пошуку:

1) задання параметрів пошуку : зі  всіма словами, з точною фразою, з будь-яким із слів, без слів;

2) вибір кількості результатів,  що видаються: 10, 20, 30, 50, 100;

3) вибір формату файла: будь-який  формат, Adobe Acrobat PDF (.pdf), Adobe Postscript (.ps), MS Word (.doc), MS Excel (.xls), MS PowerPoint (.ppt), Rich Text Format (.rtf)

    Час оновлення сторінок : протягом будь-якого часу, протягом  останніх 3 місяців, протягом останніх 6 місяців, за рік.

    Вказання розміщення  ключових слів: будь-де на сторінці, в адресі сторінки, в заголовку сторінки, в основній частині сторінки, в посиланнях на дану сторінку.

    Вказання домена: Домен [Тільки], [не] з сайту або домена …

 

1. Вибір домену або всієї адреси  сайта, на якій знаходиться  потрібний документ або навпаки – не знаходиться.

2. Великий вибір форматів.

 

Можливість задання розміщення слів , що шукаються, відносно одне одного відсутня


 

Отже, як бачимо, кожна  пошукова система має свої особливості  щодо організації розширеного пошуку. Спробуймо оцінити можливості розширеного пошуку обраних пошукових систем та провести аналіз якості отриманих результатів.

Результати розширеного  пошуку подано в таблиці 3.

 

 

Таблиця 3

Аналіз  результатів розширеного пошуку з тематичного напряму „Інформаційні  системи”

 

Інформаційно-пошукова система

 

Умови запиту

Кількість отриманих  документів

Якість інформації

Загальна кількість документів

Релевантні документи

Ідеально релевантні документи

Фінансово-економічні інформаційні системи

Яndex

Формулювання запиту: фінансово-економічні інформаційні системи. Розташування слів відносно один одного: в одному реченні; розташування слів на сторінці: де завгодно; вживання слів в тексті: в будь-якій формі; мова: будь-яка; формат: будь-який; кількість результатів, що видаватимуться: 10.

26

19

7

Точність – 27 %

Повнота – 37 %

Формулювання запиту: фінансово-економічні інформаційні системи. Розташування слів відносно один одного: в одному реченні; розташування слів на сторінці: де завгодно; вживання слів в тексті: в будь-якій формі; мова: будь-яка; формат: (*.doc); кількість результатів, що видаватимуться: 10.

49

23

9

Точність – 18 %

Повнота – 39 %

Формулювання запиту: фінансові  інформаційні системи. Розташування слів відносно один одного: підряд; розташування слів на сторінці: де завгодно; вживання слів в тексті: в будь-якій формі; мова: будь-яка; формат: будь-який; кількість результатів, що видаватимуться: 10.

785

133

48

Точність – 6 %

Повнота – 36 %

Формулювання запиту: економічні інформаційні системи. Розташування слів відносно один одного: підряд; розташування слів на сторінці: де завгодно; вживання слів в тексті: в будь-якій формі; мова: будь-яка; формат: будь-який; кількість результатів, що видаватимуться: 10.

789

141

32

Точність – 4 %

Повнота – 23 %

Запит: з точною фразою: фінансово-економічні інформаційні системи; кількість  результатів в порціях, що видаватимуться: 10; мова: будь-яка; формат файлів: будь-який; час зміни сторінок: протягом будь-якого часу; розміщення ключових слів: в основній частині сторінки.

33

28

4

Точність – 12 %

Повнота –  14 %

Google

Запит: з точною фразою: фінансові  інформаційні системи; кількість  результатів  в порціях, що видаватимуться: 10; мова: будь-яка; формат файлів: будь-який;  час зміни сторінок: протягом будь-якого  часу; розміщення ключових слів: в основній частині сторінки.

2940

147

38

Точність – 1 %

Повнота –  26 %

Запит: з точною фразою: економічні інформаційні системи; кількість  результатів  в порціях, що видаватимуться: 10; мова: будь-яка; формат файлів: будь-який;  час зміни сторінок: протягом будь-якого часу; розміщення ключових слів: в основній частині сторінки.

138

63

11

Точність – 8 %

Повнота –  17 %

Інформаційні  системи та технології в бізнесі

Апорт

Розширений пошук відсутній

-

-

-

-

Rambler

Формулювання запиту: Інформаційні технології в бізнесі.

Пошук по тексту: назва;

Пошук слів запиту: всіх (і);

Відстань між словами: не обмежувать;

Мова документа: українська;

Формат документа: будь-який;

Дата документа: будь-яка;

Задання умов виведення результатів: сортування пошуку (сайти за релевантністю);

Кількість сайтів, що видаються: по 15.

8

4

2

Точність – 25%

Повнота –  50%

Формулювання запиту: Інформаційні технології в бізнесі.

Пошук по тексту: назва;

Пошук слів запиту: всіх (і);

Відстань між словами: не обмежувать;

Мова документа: українська;

Формат документа: будь-який;

Дата документа: починаючи з  01.01.1994;

Задання умов виведення результатів: сортування пошуку (сайти за релевантністю);

Кількість сайтів, що видаються: по 15.

10

3

1

Точність – 10%

Повнота –  33%

Інформаційні  системи у менеджменті

Alta Vista

Запит: з точною фразою: інформаційні системи та технології в менеджменті;; кількість  результатів -20; мова: будь-яка; формат файлів: будь-який;  час зміни  сторінок: протягом будь-якого часу; розміщення ключових слів: в заголовку.

78

11

3

Точність – 4%

Повнота – 27%

Info Seek

Запит: з точною фразою: інформаційні системи та технології в менеджменті; кількість  результатів в порціях, що видаватимуться: 10; мова: будь-яка; формат файлів: будь-який;  час зміни сторінок: протягом будь-якого часу; розміщення ключових слів: в основній частині сторінки.

26

4

1

Точність – 4%

Повнота – 25%

Інформаційні  системи у менеджменті в галузі охорони здоров′я

Yahoo!

Формулювання запиту: Информационные системы технологии здравоохранения.

Пошук слів запиту: всіх (і);

Мова документа: російська;

Формат документа: будь-який;

Дата документа: будь-яка;

Задання умов виведення результатів: сортування пошуку (сайти за релевантністю);

Кількість сайтів, що видаються: по 10.

207

79

33

Точність – 16%

Повнота – 42%

Mail.ru

Формулювання запиту: Информационные системы технологии здравоохранения.

Пошук слів запиту: всіх (і);

Формат документа: будь-який;

Дата документа: будь-яка;

Задання умов виведення результатів: сортування пошуку (сайти за релевантністю);

Кількість сайтів, що видаються: по 10.

481

55

28

Точність – 6%

Повнота – 51%

Информация о работе Інформаційно-аналітичні технології