Автор работы: Пользователь скрыл имя, 10 Января 2014 в 13:11, практическая работа
Будь-яка діяльність людини базується на інформації. Однією з головних проблем, що виникає при задоволенні інформаційних потреб людства є проблема пошуку інформації. Все більше ускладнюється пошук інформації в мережі Internet. Це відбувається внаслідок вражаючого зростання обсягів і темпів росту web-ресурсів мережі. Так, за результатами дослідження компанії Netcraft, у 1998 році кількість серверів у мережі Internet становила 1 млн. Згідно з даними експертів компанії Inktomi, на лютий 2000 року їх нараховувалося вже понад 6 млн. Загальна кількість web-сторінок на серверах Internet перевищує мільярд.
За результатами розширеного пошуку, поданими в таблиці 3, можна зробити висновок про те, що технологія розширеного пошуку є значно ефективнішою за простий пошук. Про це свідчить те, що повнота і якість розширеного пошуку за нашою тематикою при заданні різних запитів майже в усіх випадках є більшою за повноту і точність простого пошуку. Крім того, важливим аргументом є те, що саме при розширеному пошуку знайдені найбільш релевантні нашим запитам сайти, зокрема такі: сайт „Корпоративний менеджмент” (www.cfin.ru) – знайдений в трьох ПС (Alta Vista, Rambler, Google) на запити з трьох тем („Інформаційні системи і технології в бізнесі”, „Інформаційні системи в менеджменті”, „Фінансово-економічні інформаційні системи”), сайт Українського порталу (www.uaportal.com) та інші. Загальна кількість документів, що видалися пошуковими системами при розширеному пошуку майже в усіх випадках є меншою за кількість виданих документів при простому пошуку, якість пошуку також є відповідно вищою. Це свідчить про меншу міру „інформаційного шуму” в результатах розширеного пошуку. Але не в усіх випадках якість розширеного пошуку за нашою тематикою може нас задовольнити. Так, в системі Google на один із наших запитів видалося 2940 документів, з яких лише 147 є релевантними нашому запиту і 38 – ідеально релевантними ( точність пошуку – 1 %, повнота пошуку – 26 %). Як бачимо, якість пошуку є низькою. При іншому формулюванні запиту в цій же системі якість пошуку є вищою (точність – 8 %, повнота – 17 %). Отже, потрібно ще звертати увагу на формулювання запиту.
Порівнюючи якість розширеного пошуку систем, слід зазначити, що найдоцільніше проводити розширений пошук за нашою тематикою в таких ПС: Rambler (найвища якість пошуку за нашою тематикою (точність і повнота на один із запитів становить відповідно 25 % і 50 %; на інший запит – 10 % і 33%), Yahoo! (точність на один із запитів – 16%, повнота – 38%), Yandex (але потрібно звертати увагу на формулювання запиту).
Основним завданням користувача, звісно ж, є формування запиту. Практично у всіх пошукових системах для цього застосовується метод ключових слів. Пошукова система відбирає документи, що містять (або не містять) слова, зазначені в запиті, або їхні словосполучення. При цьому найчастіше практично неможливо зафіксувати семантичні характеристики документа, але саме вони остаточно визначають його дійсну релевантність.
Для того, щоб ефективно використовувати можливості мережних інформаційно-пошукових серверів корисно дізнатися, як вони працюють „зсередини”, ознайомитися з принципами пошуку і використання синтаксису мови запитів.
Пошук інформації за синтаксисом мови запитів здійснюється за допомогою спеціальної мови запитів, використовуючи наступні символи:
1. „ „ - пошук точної фрази
2. + - обов‘язкова наявність слова в найденому документі
3. ~~ або – не повинно бути слова в межах документа (та ні)
4. ~ - не повинно бути слова в межах речення
5. ! - шукати тільки вказану форму слова
6. пробіл або & - логічне І (в межах речення)
7. && - логічне І (в межах документа)
8. | - логічне АБО
9. / (n m) – відстань між словами (- назад, + вперед)
10. &&/ (n m) – відстань в реченням (- назад, + вперед)
11. () – групування слів
Формулювання запитів з використання символів синтаксису мови запитів та результати пошуку наведені в таблиці 4.
Таблиця 4
Результати тематичного пошуку за допомогою синтаксису мов запитів
Формулювання запиту |
Кількість отриманих документів |
Якість пошуку | ||||||||
Фінансово-економічні інформаційні системи | ||||||||||
Яndex |
Yandex |
|||||||||
Загальна кількість документів |
Релевантні документи |
Ідеально релевантні документи |
Загальна кількість документів |
Релевантні документи |
Ідеально релевантні документи |
Точність |
Повнота |
Точність |
Повнота | |
”фінансово економічні інформаційні системи„ |
3 |
1 |
1 |
33 |
28 |
4 |
3 % |
1 % |
25 % |
29 % |
„фінансові | економічні інформаційні системи” |
41 |
28 |
8 |
11400 |
230 |
64 |
20 % |
28 % |
1% |
19 % |
+фінансові | +економічні інформаційні +системи |
18464 |
452 |
66 |
176000 |
540 |
51 |
0,3 % |
15 % |
0,2 % |
9 % |
+финансово +економічні |
692 |
223 |
71 |
18300 |
203 |
32 |
10 % |
32 % |
0,2 % |
16 % |
фінансові && економічні інформаційні системи ~~(ресурси | інформація | проблеми | діяльність) |
413 |
89 |
8 |
- |
- |
- |
2 % |
9 % |
- |
- |
+фінансові +економічні |
479 |
113 |
22 |
- |
- |
- |
5 % |
19 % |
- |
- |
!фінансово !економічні інформаційні !системи - (ресурси | діяльність | програми | методи | словники) |
453 |
56 |
12 |
768 |
184 |
36 |
2 % |
21 % |
5 % |
20 % |
фінансові & економічні інформаційні системи |
1096 |
232 |
29 |
- |
- |
- |
3 % |
12 % |
- |
- |
фінансові | економічні інформаційні системи |
18460 |
207 |
41 |
192000 |
630 |
66 |
0,2 % |
20 % |
0,3 % |
10 % |
(фінансові & економічні /+1інформаційні системи) ~ /+1стан ~/+1аналіз ~/+1програма ~/+1ресурси |
70 |
46 |
7 |
- |
- |
- |
10 % |
15 % |
- |
- |
фінансово економічні інформаційні системи && / 3 бюджетування
|
1392 |
534 |
94 |
- |
- |
- |
7 % |
18 % |
- |
- |
(фінансово економічні) інформаційні системи |
918 |
348 |
69 |
24100 |
173 |
84 |
8 % |
20 % |
0,3% |
49 % |
Інформаційні системи і технології в бізнесі | ||||||||||
Aport |
Rambler |
Aport |
Rambler | |||||||
Загальна кількість документів |
Релевантні документи |
Ідеально релевантні документи |
Загальна кількість документів |
Релевантні документи |
Ідеально релевантні документи |
Точність |
Повнота |
Точність |
Повнота | |
“Інформаційні системи в бізнесі” |
783 |
48 |
22 |
2708 |
77 |
46 |
5 % |
46 % |
2 % |
59 % |
Інформаційні + системи + технології в бізнесі |
48 |
24 |
9 |
2231 |
88 |
39 |
19 % |
37 % |
2 % |
44 % |
Інформаційні системи в |
58 |
20 |
7 |
610 |
46 |
16 |
12 % |
35 % |
3 % |
35 % |
Інформаційні технології в бізнесі ~ ресурси |
56 |
24 |
8 |
1530 |
67 |
13 |
14 % |
33 % |
1 % |
19 % |
Інформаційні !технології в бізнесі |
368 |
49 |
14 |
72 |
21 |
8 |
4 % |
28 % |
11 % |
38 % |
Інформаційні системи та технології в бізнесі |
48 |
24 |
9 |
2207 |
101 |
37 |
19 % |
37 % |
1,7 % |
36,6 % |
Інформаційні технології && інформаційні системи в бізнесі |
52 |
22 |
10 |
1546 |
71 |
12 |
19 % |
45 % |
0,7 % |
17 % |
Інформаційні технології OR інформаційні системи в бізнесі |
970 |
68 |
19 |
5956 |
112 |
38 |
2 % |
28 % |
0,6 % |
34 % |
Інформаційні технології /3 в бізнесі |
74 |
27 |
16 |
1953 |
89 |
23 |
8 % |
22 % |
1 % |
26 % |
Інформаційні системи &&/3 в бізнесі |
78 |
32 |
8 |
2734 |
107 |
34 |
10 % |
25 % |
1,6 % |
32 % |
(Інформаційні | технології) (Інформаційні | системи в бізнесі) |
1126 |
67 |
11 |
4039 |
78 |
20 |
1 % |
16 % |
0,5 % |
26 % |
Інформаційні системи в менеджменті | ||||||||||
Alta Vista |
Info Seek |
Alta Vista |
Info Seek | |||||||
Загальна кількість документів |
Релевантні документи |
Ідеально релевантні документи |
Загальна кількість документів |
Релевантні документи |
Ідеально релевантні документи |
Точність |
Повнота |
Точність |
Повнота | |
”інформаційні системи та технології в менеджменті„ |
1520 |
114 |
17 |
129 |
29 |
4 |
1 % |
15 % |
3 % |
14 % |
+інформаційні системи + технології в бізнесі |
13500 |
362 |
19 |
3570 |
35 |
11 |
0,1% |
5% |
0,3% |
31% |
Інформаційні системи в |
1080 |
97 |
37 |
247 |
47 |
3 |
3% |
38% |
1% |
6,4% |
Інформаційні технології менеджменті ~ ресурси |
8260 |
152 |
23 |
1770 |
148 |
16 |
0,3% |
15% |
1% |
11% |
Інформаційні !технології в менеджменті |
12700 |
631 |
16 |
2590 |
25 |
12 |
0,1% |
2,5% |
0,5% |
48% |
Інформаційні системи та технології в менеджменті |
9210 |
256 |
17 |
2080 |
201 |
5 |
0,2% |
6,6% |
0,2% |
2,5% |
Інформаційні технології && інформаційні системи в менеджменті |
9290 |
761 |
17 |
20080 |
234 |
5 |
0,2% |
2,2% |
0,02% |
2% |
Інформаційні технології OR інформаційні системи в менеджменті |
9190 |
264 |
4 |
10100 |
561 |
14 |
0,04% |
1,5% |
0,1% |
2,5% |
Інформаційні технології /+3 в менеджменті |
85 |
7 |
3 |
- |
- |
- |
3,5% |
43% |
- |
- |
Інформаційні системи &&/3 в менеджменті |
372 |
23 |
1 |
- |
- |
- |
0,3% |
4,3% |
- |
- |
(Інформаційні | технології) (Інформаційні | системи в менеджменті) |
1270 |
189 |
12 |
2590 |
43 |
12 |
1% |
6,3% |
0,5% |
28% |
Інформаційні системи і технології в менеджменті в сфері охорони здоров’я | ||||||||||
Yahoo! |
Mail.ru |
Yahoo! |
Mail.ru | |||||||
Загальна кількість документів |
Релевантні документи |
Ідеально релевантні документи |
Загальна кількість документів |
Релевантні документи |
Ідеально релевантні документи |
Точність |
Повнота |
Точність |
Повнота | |
+информационные системы + |
89 |
43 |
18 |
213 |
63 |
11 |
20 % |
42 % |
5,2 % |
17 % |
!медицинская + !информационная + !система + !управления |
1820 |
189 |
31 |
2220 |
78 |
11 |
1,7 % |
16,4 % |
0,5 % |
14 % |
Информационные & системы & технологии & здравоохранения |
111 |
51 |
13 |
214 |
85 |
17 |
11,7 % |
25 % |
8 % |
20 % |
Медицина && (информационные системы) |
217 |
105 |
38 |
25 |
12 |
4 |
18 % |
36 % |
16 % |
33 % |
Управление && (медицинские информационные системы технологии) |
302 |
97 |
31 |
18 |
11 |
4 |
10 % |
32 % |
22 % |
36 % |
Системы |технологии здравоохранения |
388 |
103 |
29 |
9110 |
129 |
21 |
7,5 % |
28 % |
0,2 % |
16 % |
(менеджмент | управление) (системы | технологии) здравоохранения |
22 |
9 |
7 |
199 |
63 |
16 |
32 % |
78 % |
8 % |
25 % |
Управление && /-2 информационные системы здравоохранения |
55 |
21 |
16 |
- |
- |
- |
29 % |
76 % |
- |
- |
Слід зазначити, що аналізовані нами ІПС забезпечують використання основних логічних і контекстних операторів, проте не кожній з них характерна наявність усіх символів синтаксису мови запитів. Зокрема, в таких ПС, як Mail.ru і Yahoo! відсутні оператори пошуку точної фрази („”), відсутності слова в межах речення (~), натомість дуже ефективно діє можливість групування слів (( )), обов’язкової присутності слова в знайденому документі (+) та оператор логічного „і” в межах речення (пробіл або &). В ПС Google не використовуються оператори відсутності слова в межах речення (~), логічного „і” в межах речення і в межах документа, відстані між словами (/(n m)) та в реченнях (&&/(n m). Два останні оператори не використовуються також в системі Info Seek.
В табл.4 подані результати пошуку інформації за допомогою синтаксису мови за тематичним напрямом „Інформаційні системи”, потрібні нам для аналізу ефективності пошуку за допомогою синтаксису мови. При цьому нам необхідно з’ясувати в яких ПС нам найдоцільніше проводити пошук за допомогою синтаксису мов за нашою тематикою і яким чином задавати запити (які символи використовувати), щоб отримати найбільш релевантні запиту документи.
Результати пошуку за нашою тематикою в різних ПС навіть за схожими або однаковими запитами є зовсім різними. Отже, можна зробити висновки про те, пошук в яких системах при використанні тих чи інших символів за нашою тематикою є більш ефективним і якісним
Найвищу якість пошуку за допомогою синтаксису мов ми отримали при роботі с пошуковим каталогом Yahoo! при використанні символів групування слів та логічного „або”: точність пошуку - 32 %, повнота пошуку – 78 %. А найбільшу кількість ідеально релевантних документів (94) знайдено в ПС Yandex при використанні оператора відстані між словами (/(n m)).
Найнижчу якість має пошук за допомогою синтаксису мов в ПС Alta Vista та Info Seek, причому якість пошуку при заданні однакових запитів в обох системах майже однакова.
Порівнюючи якість пошуку з нашої тематики при використанні різних символів в ПС, відзначимо наступне:
Здійснюючи пошук за допомогою синтаксису мови запитів в аналізованих нами ПС доцільно використовувати при заданні запитів оператори контекстного пошуку як окремо один від одного, так і в поєднанні одного з одним. Так, наприклад, в деяких ПС задавалися запити з використанням декількох операторів контекстного пошуку (групування слів, логічного „і” в межах речення, виключення слова з речення та ін) і в результаті отримувалася більша кількість релевантних документів, ніж при використанні лише одного з операторів. До того ж при складанні одного із запитів (!медицинская + !информационная + !система + !управления), в якому також використано два види пошукових символів, знайдено один із найбільш релевантних сайтів – сайт Сибірського медичного інформаційного центру.
<spa