Социализируемся

Я в Google+ Я в Twitter Я в Facebook

Friday, April 30, 2010

В борьбе за чистоту пространства

В борьбе за чистоту пространства

Пара ссылок по теме чистоты пространства.
Первая.
В и-нете появилась инициатива по сохранению окружающей среды - вырости дерево (plant a tree). Поддержать ее может каждый. Можно перечислить деньги, на которые будет приобретено и посажено дерево, а можно просто поддержать - разместить ссылку на блоге.
Я решила поддержать такое начинание.

Для того, чтобы поддержать проект и "посадить дерево на блоге", достаточно зайти на страницу проекта, выбрать форму кнопки, взять соответствующий html-код и разместить его у себя на блоге или сайте. Например, вот такой:


My blog has planted a beech tree.

Я выбрала буковое дерево :).
А для левой колонки будет такой:


My blog has planted a beech tree.

На этой же странице заполнить форму, оставив свой е-мейл, http-адрес блога, где будет находиться кнопка и имя.

Вторая ссылка напрямую связана с первой - за чистоту веб-среды. Этот проект уже давно развивается и мной известен и используется. Это - проект mywot - WOT web of trust. Сервис позволяет вести рейтинги сайтов в отношении доверия к ним. Любой посетитель любого сайта может проголосовать по ряду характеристик - от "Честности контента сайта", до "Разрешено для детей" и оставить свои примечания. Замечательно еще и то, что можно к броузеру (использую Мозиллу) подключить плагин, который будет показывать индикатор доверия к посещаемому сайту. Так же просто в менюшке индикатора можно проставить и свой уровень доверия. При подключенном плагине броузер перед загрузкой страницы проверяет уровень доверия к загружаемой странице, и если параметр "красненький", вместо страницы будет выдано предупреждение об опасности. Это очень удобно при посещении сайтов непонятно какого качества. Если Вы уверены в сайте, то можно предупреждение игнорировать. Я в большинстве случаев все-таки прислушиваюсь к мнению людей, поставивших сайту двойку.
Этот сервис очень помогает при работе в интернете. Помните фразу - "Как не заболеть СПИДом? - избегать случайных связей" :). Этот принцип годится и в веб-пространстве. Система доверия как в человеческом обществе, так и в вебе, базируется на рекомендациях и отзывах других людей.
Поэтому, рекомендую:
1-е - подключите к своему броузеру плагин и проверяйте рейтинг доверия посещаемых сайтов. Скачать плагин к
Firefox
Microsoft Internet Explorer 6.0 or newer (8.0 recommended) (32-bit version only) (по данным на 30-04-2010)
Google Chrome

2-е - Не оставайтесь потребителем! Внесите свою лепту в web of trust - веб доверия! Проставляйте свои рейтинги сайтам. Таким образом Вы поможете другим.

3-е. Если Вы ведете блог (или имеете сайт), можете вставить использование проверки вставленных ссылок "на доверие". Такие зелененькие (если сайту доверяют) колечки рядом со ссылками Вы видите на этом блоге. Для этого надо отредактировать "Макет" (Шаблон) блога в html-коде. В секцию <head> надо вставить следующий код:


<script type="text/javascript">
var wot_rating_options = {
selector: ".post-body a[href], .comment-body a[href]"
};
/script>
<script type="text/javascript"
src="http://api.mywot.com/widgets/ratings.js"></script>


Чтобы посетители могли проголосовать за доверие к Вашему сайту, надо разместить на страницах следующий код:


<img border="0" class="image-left" 
src="http://ctn.mywot.com/certificatebadge/mywot.com?size=55x80&
rating=1&type=vertical" 
alt="" id="ctnbadge" usemap="#ctnmap" /><script type="text/javascript" 
src="http://ctn.mywot.com/certificatebadge/mywot.com?size=55x80&
rating=1&type=vertical&
file=js"></script>

Кстати, можете оставить свой голос и за меня, если не трудно :), нажав на этой кнопке:


Как он выглядит, вы можете увидеть в левой колонке этого блога (внизу)

Последнее время они рекомендуют разместить код с их виджетом, который будет показывать ваш рейтинг, но он на момент написания поста не работал (если заработает, будет видно рядом)

<script type="text/javascript"
src="http://api.mywot.com/widgets/ratings.js"></script>




Вот вроде бы и все. Приятного и безопасного серфинга по просторам веба - веба доверия!

Thursday, April 29, 2010

Семантический анализ текстов

Блуждая и-нетом нашла замечательный ресурс, полезный как для SEO-веб-мастеров, так и научных работников :), да и заказчиков - представителей других областей бизнеса.

Проверить текст на уникальность можно при помощи программы Advego Plagiatus
Плагиатус показывает степень уникальности текста, источники текста, процент совпадения текста. Также программа проверяет уникальность указанного URL.
Минус - Программу надо скачать и инсталлировать.

И там же замечательный он-лайновый Семантический анализ текста онлайн, seo-анализ текста

"...
Анализатор показывает следующие показатели текста:

- количество символов
- количество символов без пробелов
- количество слов
- количество уникальных слов
- количество значимых слов
- количество стоп-слов
- вода
- количество грамматических ошибок
- классическая тошнота документа
- академическая тошнота документа

Анализатор текста показывает семантическое ядро текста с количеством и частотой запросов, список слов и стоп-слов, а также грамматические ошибки.
...

из комментов:

Классическая тошнота - квадратный корень из количества повторений самого тошнотного слова. Если количество меньше 7-ми, то корень из 7-ми.
Академическая тошнота - тошнота документа с учетом тошнотности всех тошнотных фраз.

Академическая тошнота - неким образом показывает натуральность документа. Если в документе много различных повторяющихся слов, то академическая тошнота большая.

...

«Тошнота» это «SEO-шный» термин оценки степени "заспамленности" текста самым частым словом. Как правило - это наиболее часто повторяющееся ключевое слово. Поисковая система на нём – «зацикливается» и по остальным ключевым словам почти, что не работает- «…тошнит её сердешшшную…». Дело «Автора» выполнить все указания заказчика WM-ма, а дело WM-ма указать в задании то количество обязательных ключевых слов так, чтобы поисковиков не тошнило.

Так, что с точки зрения «Автора» этот параметр полностью на «совести» заказчика WM-ма и, если он более 7-ми, значит надо либо менять параметры заказа (указывать другое количество ключевых слов), либо оставлять как есть ибо, как говорят «SEO- шники»: «…большая тошнота сопровождается высокой контрастностью ключевого слова. при прочих равных, страница с большей тошнотой и с большей контрастностью должна быть более релевантной, чем с меньшей тошнотой и меньшей контрастностью.» (цитата с "форума настоящих SEO - шников").
...
Читать далее коменты, критику и приколы тестирования с блога

Особенно забавно было проанализировать свои научные работы по показателям
"Вода", "Классическая тошнота документа" :) и "Академическая тошнота документа".

В любом случае стоит посмотреть :).
advego.ru

Детский отдых

А скоро уже и лето! И пора планировать детский отпуск. Как его провести с толком и пользой для растущего человечка?

Основные требования:
ребенок должен
1) отдохнуть
2) оздоровиться (подтянуть свое физическое состояние)
3) провести интересно время
4) провести время с пользой для ума, и чтобы не расслаблялся :)

По этим критериям не может подходить ни один из известных мне лагерей (или видов персонально-семейного отдыха). Каждый хорош по-своему.
Поэтому будем делать микс из того, что "хорошо", и составлять план на лето.

В качестве просто отдыха с интересностями, социальной практикой можно рассмотреть лагерь "Каштан". Хороший лагерь, где детьми занимаются, есть бассейн, кружки, нормальное питание.

Для физического оздоровления в прошлом году очень хорош был лагерь в Алуште от секции дзю-до - и спортивную форму накачал, и в море покупался, - в общем оздоровился. Плюс экскурсии, походы, тренировки, дисциплина, коллектив и т.д.

Для накачки мозгов в прошлом году был городской лагерь английского языка от GreenForest. 2 часа - уроки в классе, и 2 часа прогулки по городу, экскурсии, проводимые опять же на английском языке.
Расписание:
Стаціонарний міні-табір.
Тема: віртуальна подорож у США.

Міста, в яких відбуватимуться стаціонарні літні табори: Київ, Львів, Дніпропетровськ.

Київ
вік туристів 7-10 років 11-15 років
час - 4 години 10:00-14:00 15:00-19:00
тривалість - 10днів 14-25 червня
29-09 липня
12-23 липня
вартість 600грн


В качестве альтернативы Гринфоресту можно рассматривать лагерь Аккорд, хорошие отзывы.

Если у Вас есть информация еще о других нормальных лагерях - пожалуйста, оставляйте в комментариях.

Tuesday, April 27, 2010

Упражнения, снимающие утомление глаз

Памятка-рекомендация
Упражнения, снимающие утомление глаз

1. Стоя. Крепко зажмурить глаза на 3-5 сек., затем открыть их на 3-5 сек.

2. Сидя. Быстрые моргания 1-2 мин.

3. Стоя. 1. Смотреть прямо перед собой 2-3 сек.;
2. Поставить палец на 25-30 см. от глаз на уровне глаз;
3. Перевести взгляд на кончик пальца и смотреть на него 3-5 сек.;
4. Опустить руку.

4. Сидя. Закрыть веки. Двумя пальцами круговыми движениями массировать 1 мин.

5. Сидя. 3-мя пальцами каждой руки легко нажимать на веко, спустя 1-2 сек. снять пальцы с век. Повторить 3-4 раза.

Здоровья всем!

Monday, April 26, 2010

Он-лайн инструментарии для промоушена (раскрутки) сайта

Блуждая просторами веба наткнулась на интересную подборку он-лайн инструментариев для SEO-оптимизаторов сайтов.
Попробовать их он-лайн можна прямо тут.

Анализатор мета-тегов



Meta Tag Analyzer


Check your meta tags!
example: http://www.host.com.
URL
(optional)
User Agent * (optional)

Please enter the access code as displayed above.
Access code




Online Meta Tag Analyzer
provide by SEOCentro.


Анализатор ключевых слов



Keyword Position Check

How are your keywords ranked by the search engines?
Keyword
Domain (example: www.host.com)

Please enter the access code as displayed above.
Access code




Online Keyword Position Check
provide by SEOCentro.


Популярность ссылок (Link Popularity Tool)



Link Popularity Check

How popular is your website?
example: www.host.com or host.com
URL: 1
URL: 2 *
URL: 3 *
Exclude your domain from result.
Send report to an e-mail address (optional).
Email
Send in HTML format.

Please enter the access code as displayed above.
Access code



* The second and third URL is optional.

Online Link Popularity Check
provide by SEOCentro.


Search Engine Saturation



Search Engine Saturation Check

How many pages from your domain are indexed by the search engines?
example: www.host.com or host.com
URL: 1
URL: 2 *
URL: 3 *
Send report to an e-mail address (optional).
Email
Send in HTML format.

Please enter the access code as displayed above.
Access code



* The second and third URL is optional.

Online Search Engine Saturation Check
provide by SEOCentro.


Помощник в выборе ключевых слов



Keyword Suggestion Tool

What are your related keywords?
Keyword

Please enter the access code as displayed above.
Access code




Online Keyword Suggestion Tool
provide by SEOCentro.


Проверка PageRank



PageRank Check

Check your website Google PageRank!
URLs (one url a line)


Please enter the access code as displayed above.
Access code




Online PageRank Check
provide by SEOCentro.


Data Centers PageRank Check Tool



Multiple Data Centers PageRank Check

Check your website Google PageRank on major Google datacenters.
URL (example: http://www.host.com)

Please enter the access code as displayed above.
Access code




Online Multiple DC PageRank Check
provide by SEOCentro.


Как показать PageRank на Вашей веб-странице

To display your PageRank (PR) on your website, just copy and paste the HTML code below into your web page. Now your Google PR rating is displayed on every page with this code! To copy your code, highlight the entire contents of the code box by clicking anywhere in this box with your mouse. You'll know the code has been selected when the entire contents of the box are highlighted in blue. Then copy the highlighted area, and paste it directly into the HTML source code between the <body> and the </body> tags of your webpages.
 <script type="text/javascript"><!--   
// URL to display pagerank from. (optional)   pagerank_Url   = "";   
// Image ID to display.   pagerank_Image = "pr01"; 
//--> </script> 
<script type="text/javascript" src="http://www.seocentro.com/pagerank/pagerank.js"></script> 


That`s all, folks! :)

Wednesday, April 21, 2010

Висновки за темою інформаційного пошуку в сучасному вебі

Методи і засоби інформаційного пошуку в Semantic Web (продовження, стор. 15)




Висновки.
Однією з причин підвищеного інтересу до проекту Semantic Web є надія на поліпшення пошуку в вебі. Дослідження з цієї проблеми ведуться в різних напрямках і дають різноманітні результати у вигляді різних пошукових систем. Такі системи, як Swoogle, дозволяють лише виконувати пошук онтологій за ключовими словами. Але такий сервіс є дуже корисним для розробників семантичних систем і онтологій, хоча він і не розрахований на простого користувача. [28]. Джерелами інформації в них служать набори RDF-даних, включаючи дані, пов'язані в рамках проекту Linked Open Data, і мікроформати.

Можна відзначити й інші пошукові системи Semantic Web, багато з яких знаходяться на стадії бета-тестування, тому оцінити їх можливості поки важко. Деякі системи йдуть по шляху „углиблення в веб”, інші – більш прискіпливо розвивають алгоритми інтелектуального аналізу та використовують різноманітні джерела інформації про документи, які знаходяться „поза-документом” в вебі. Розвиток технологій інформаційного пошуку призвів до інтенсивного використання мета-інформаційно-пошукових систем, многоагентних інформаційно-пошукових систем, систем, побудованих на реалізації онтологічних, мовних та управлінських угод і їм подібних. Більшість пошукових систем ідуть по шляху розвитку персоналізації пошуку, тобто розпізнання та задоволення потреб користувача.

Традиційні пошукові системи стають все більш точними та об`ємними, однак вони не можуть перевершити інтелект людини. Вони можуть лише порівнювати слова, а не зміст ідеї, яка обговорюються ними. Нові технологіх пошукових систем 3-го покоління ще знаходяться в стадії формування, але вже зараз вони дають позитивні результати. Новий пошук може допомогти зробити пошук більш значущим, суб'єктивним і прив`язаним до задач (task-based), що стоять перед користувачем. Таким чином, розвиток пошукових систем йде по шляху, метою якого є задоволення потреб індивідуального користувача, з його перевагами, характером, рівнем підготовки і знань, тощо.

Література
1. An Introduction to Information Retrieval, Online edition (c)2009 Cambridge UP, Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze, Draft of April 1, 2009,Website: http://www.informationretrieval.org/
2. http://www.bogoslov.ru/text/321597.html, Черний Ю.Ю., Школа наукової інформації. Інформаційні потреби. Основи інформаційного пошуку
3. В.П. Захаров, ИНФОРМАЦИОННО-ПОИСКОВЫЕ СИСТЕМЫ, Учебно-методическое пособие, Санкт-Петербург, 2005
4. http://northedu.ru/content/view/115/159/, Методы поиска информации, Медведь В. Н.
5. van Rijsbergen, C. J. Information Retrieval. London: Butterworths, 1979. Available at http://www.dcs.gla.ac.uk/Keith/Preface.html
6. МОДЕЛИ ИНФОРМАЦИОННОГО ПОИСКА, Шарапов Р.В.,Шарапова Е.В., Саратовцева О.А.
7. Некрестьянов И.C. Тематико - ориентированные методы информационного поиска: Диссертационная работа к.т.н.: 05.13.11 / Санкт-Петербургский государственный университет - СПб., 2000
8. Дубинский А.Г. Некоторые вопросы применения векторной модели представления документов в информационном поиске // Управляющие системы и машины. - 2001. - №4. - С. 77-83
9. Когаловский М. Р. Перспективные технологии информационных систем. - М.: ДМК Пресс; М.: Компания АйТи, 2003. - 288 с.
10. C. Holscher and G. Strube. Web search behaviour of Internet experts and Newbies. Proceedings of WWW9. 2000. Available at http://www9.org/w9cdrom/81/81.html.
11. Navarro-Prieto, R., Scaife, M., & Rogers, Y. Cognitive Strategies in Web Searching. Proceedings of the 5th Conference on Human Factors & the Web, 1999. Available at http://zing.ncsl.nist.gov/hfweb/proceedings/navarro-prieto/index.html.
12. J. Muramatu and W. Pratt. Transparent queries: Investigating Users’ Mental Models of Search Engines. Proceedings of SIGIR 2001
13. Choo, C. W., Detlor, B., and Turnbull, D. . Information Seeking on the Web – An integrated model of browsing and searching. Proceedings of the Annual Meeting of the American Society for Information Science (ASIS), 1999. Available at http://choo.fis.utoronto.ca/fis/respub/aisis99/
14. A taxonomy of web search, Andrei Broder, IBM Research, http://portal.acm.org/citation.cfm?doid=792550.792552, ACM SIGIR Forum archive, Volume 36 , Issue 2 (Fall 2002), ISSN:0163-5840, Pages: 3 - 10
15. wordnet.princeton.edu/perl/webwn
16. http://dictionary.cambridge.org/
17. http://www.merriam-webster.com/
18. http://www.webupon.com/Search-Engines/New-Search-Engines-The-Next-Generation-of-Google-Competition.712753
19. The Future Of Search Engine Optimizing: Theme Engines. . . the next generation of search engines has arrived, Robin Nobles, http://www.searchengineworkshops.com/articles/se-optimization-future.html
20. Андон Ф.И., Гришанова И.Ю., Резниченко В.А. "SEMANTIC WEB КАК НОВАЯ МОДЕЛЬ ИНФОРМАЦИОННОГО ПРОСТРАНСТВА ИНТЕРНЕТ", Проблеми програмування. 2008. № 2-3, 417-430.
21. Search 2.0 vs Traditional Search, Ebrahim Ezzy, July 20, 2006, http://www.readwriteweb.com/archives/search_20_vs_tr.php
22. Searching on the web; the new breed of search engines, Shane McLoughlin, May 25, 2009, http://relativemusings.blogspot.com/2009/05/searching-on-web-new-breed-of-smarter.html
23. Stephen Wolfram, Wolfram Alpha - computational knowledge engine, 2009 http://basetechnology.blogspot.com/2009/03/wolfram-alpha-computational-knowledge.html
24. Валерий Сидоров, Wolfram Alpha – Computational Knowledge Engine, или Как сложить яблоко с апельсином?, блог, 2009, http://netler.ru/pc/wolfram.htm
25. Official Google Blog: Square your search results with Google Squared, http://googleblog.blogspot.com/2009/06/square-your-search-results-with-google.html
26. Валерий Сидоров, Google Squared: как успех Wolfram Alpha взбудоражил Google и что из этого вышло?.., блог, 2009, http://netler.ru/pc/google-squared.htm
27. Summarization, the Answer to Web Search : Interview with Dmitri Soubbotin of SenseBot, Search Engine Journal, December 12th, 2007, http://www.searchenginejournal.com/summarization-the-answer-to-web-search-interview-with-dmitri-soubbotin-of-sensebot/6094/
28. Дмитрий Левшин, Web, часть третья, "Открытые системы", №2 2008 р. http://cio.ru/text/print/302/8165094.html

End

Begin
2 3 4 5 6 7 8 9 10 11 12
13 14 Last 15

Пошук в «глибинному» вебі ('deep web')

Методи і засоби інформаційного пошуку в Semantic Web (продовження, стор. 14)




DeepDyve
DeepDyve (http://www.deepdyve.com/) – пошуково-„дослідницька” система, яка використовує власнї (комерційнї) технологіх пошуку та індексування технології, що дозволяють відбирати багатий, релевантний контент з тисячі журналів, мільйонів документів, і мільярдів незадіяних веб-сторінок глибинного вебу. Дослідники, студенти, технічні спеціалісти, бізнес-користувачі, а також споживачі іншої інформації, можуть отримати доступ до багатої незадіяної інформації, що зберігається в "глибинному вебі" – інформації, яка складає переважну більшість в інтернеті, яка не індексуються традиційними пошуковими системами. Пошуково-дослідницька система DeepDyve відчиняє шлях до цього поглибленого професійного контенту і повертає результати, які не навантажені інформацією з оглядових (реферативних) сайтів і не релевантною інформацією.
Система використовує запатентований алгоритм KeyPhrase ™, який застосовує метод індексації, отриманий при дослідженнях в області геномікі. Алгоритм шукає збіг патернів і символи за спеціальною метрикою. Система знаходить відповідність документів там, де традиційні пошукові системи нічого не знаходить. Тому ця система ідеально підходить для пошуку складних даних, що містяться в глибинному вебі.
Такоє існує багато пошукових систем, що виконують пошук в глибинному вебі, які спеціалізуються на конкретній предметній області та містять перевірені і рецензовані спеціалістами статті. Вони, як правило, мають вузько спрямовані репозиторії, що надає реальну перевагу для цілеспрямованого пошуку дослідника.
До таких спеціалізованих порталів можна віднести Mednar (www.mednar.com) – портал з глибинного пошуку в галузі медицини, Biznar (www.biznar.com) – пошук в бізнес-галузі, Worldwidescience (www.worldwidescience.org) – глобальний науковий портал, Science.gov (www.science.gov) – науковий портал уряду США, Scitopia (www.scitopia.org) – пошукова система наукової інформації і патентів, Nutrition.gov (www.nutrition.gov) – портал, який містить інформацію про здоров`я. Більшість порталів глибинного вебу підтримують механізми кластеризації за темами.

Begin
2 3 4 5 6 7 8 9 10 11 12
13 14 Next>> (Last 15)

Пошук в режимі реального часу в веб

Методи і засоби інформаційного пошуку в Semantic Web (продовження, стор. 13)




One Riot
OneRiot (http://www.oneriot.com/) сканує посилання, якими користувачі діляться на сервісах посилань (міток) Twitter, Digg та інших соціальних сервісах, а потім індексує зміст цих сторінок. Таке індексування пошукова система проводить в режимі реального часу – поява нового посилання на сервісі одразу викликає процес індексування. Кінцевим результатом роботи пошукової системи є пошуковий досвід, який дозволяє користувачам знаходити свіжий, найбільш соціально значущий контент, в реальному часі в вебі. Результати пошуку індексуються в залежності від їх актуальності та популярності.

Scoopler
Scoopler (http://www.scoopler.com/) це пошукова система, яка виконує пошук в режимі реального часу. Робот цієї пошукової системи збирає і організовує контент, що представлений в вебі для загального користування, по мірі його виникнення в вебі. Таким контентом ця система вважає доповіді головних новин, фотографії та відеоматеріали значних подій, а також посилання на найгарячіші нотатки поточного дня. Джерелами контенту, який індексується, є постійні оновлення, що поступають з сервісів Twitter, Flickr, Digg, Delicious тощо.

Begin
2 3 4 5 6 7 8 9 10 11 12
13 Next>> Last (15)

Організація пошуку серед структурованих даних в вебі

Методи і засоби інформаційного пошуку в Semantic Web (продовження, стор. 12)




SWSE
На даний час вже існує багато даних, які відповідають запропонованим стандартам семантичного вебу (наприклад RDF та OWL). Вже існує багато малих вертикальних словників і онтологій, які все більше використовуються різними спільнотами для досягнення своїх цілей. Користувачі вебу публікують описи своїх профілів, з використанням FOAF (Friend of a Friend), провайдери новин транслюють добірку новин в вигляді RSS (RDF Site Summary), зображення анотуються з використанням різноманітних RDF-словників.
SWSE (http://swse.deri.org/) представляє собою сервіс, який постійно вивчає та індексує семантичний веб (Semantic Web) і забезпечує легкий у використанні інтерфейс, за допомогою якого користувачі можуть знайти дані, які вони шукають.
SWSE індексує триплети RDF або OWL, знайдені в вебі, і надає послугу з пошуку серед цих триплетів.

Swoogle
Swoogle (http://swoogle.umbc.edu/) також є пошуковою системою, створеною для семантичного веб. Роботи Swoogle сканують веб з метою пошуку спеціального класу веб-документів, які називаються семантичними веб-документами, тобто які написані в RDF. Ця пошукова система також виконує пошук серед RDF-триплетів і видає посилання на джерела, які їх містять. Пошук здійснюється за ключовими словами.
Аналогічні функции пропонує і пошукова система WatsOn (http://watson.kmi.open.ac.uk/WatsonWUI/) та Semanticwebsearch (http://www.semanticwebsearch.com), система Sindice (http://sindice.com/), Falcons (http://iws.seu.edu.cn/services/falcons/conceptsearch/index.jsp?query=).

Begin
2 3 4 5 6 7 8 9 10 11 12 Next>> 14 Last (15)

Реалізація семантичної фільтрації інформації за якістю

Методи і засоби інформаційного пошуку в Semantic Web (продовження, стор. 11)




Hakia
Цей проект (http://www.hakia.com/) розвивається вже декілька років, але до теперішнього часу знаходиться в стадії бета і добре охоплює поки що предметну область з медицини та здоров`я. Семантична технологія Hakia забезпечує новий досвід пошуку, який орієнтований на якість, а не популярність. Якість результатів пошуку цієї системи визначається наступним чином: якісні результати повинні задовольняти трьом критеріям одночасно:
- вони (1) надходять з заслуговуючих довіри веб-сайтів, рекомендованих бібліотекарями,
- (2) представляють собою найбільш свіжу наявну інформацію, і
- (3), залишаються абсолютно релевантними до запиту.

Begin
2 3 4 5 6 7 8 9 10 11 Next>>
...
13 14 Last (15)

Структурування та подання даних

Методи і засоби інформаційного пошуку в Semantic Web (продовження, стор. 10)




Wolfram Alpha (Система обчислювання знань, Computational Knowledge Engine, http://www.wolframalpha.com/, 2009). Цей амбіційний проект стартував 5 березня 2009 року. Творцем цього веб-сервісу є британський фізик Стівен Вольфрам (Stephen Wolfram), глава компанії Wolfram Research, розробник широко відомої в наукових колах програми Mathematica.
'We aim to collect and curate all objective data; implement every known model, method, and algorithm; and make it possible to compute whatever can be computed about anything. Our goal is to build on the achievements of science and other systematizations of knowledge to provide a single source that can be relied on by everyone for definitive answers to factual queries.'
- Stephen Wolfram (Докладніше про Нову наукову теорію Стівена Вольфрама дивись в його виступі на блозі).
Деякі називають Wolfram Alpha веб-поисковиком, але на відміну від традиційних пошуковиків, які обмежуються тим, що за запитом користувача видають список посилань на сайти, які повинні відповідати запиту, - сервіс Wolfram Alpha самостійно аналізує запити користувача і представляє йому зведену релевантну інформацію.
З огляду на прийняту класифікацію ця система є системою „запит-відповідь”. Автор позиціонує систему не як пошуковик (search engine), а як Computational Knowledge Engine ( «Систему Обчислювання Знання»), він каже: «Наша мета - зробити знання доступними всім, коли завгодно і де завгодно».
Ця система об'єднує обчислювальні потужності Mathematica з інструментами, які експліцитно оперують з усіма типами даних з тим щоб вони (дані) були негайно обчислюваними, щоб надати можливість "брати питання людей, виражені природною мовою, і представляти їх у точній формі, яку можна буде обробляти, а також керувати всіми нотатками, зробленими людьми з усіх можливих предметних галузей" [23]. Оскільки ця система є бізнес-застосуванням, докладного опису її функціювання, нажаль, знайти не вдалось.
IT-аналітики вже охрестили Wolfram Alpha «вбивцею Google» ( «Google Killer»), «інтелектуальним пошуковиком», «веб-пошуковиком нового покоління», «інтернет-генератором розумних відповідей».
Спочатку Wolfram Alpha працював у закритому (тестовому) режимі, а з 18 травня 2009 р. веб-сервіс вже відкритий для всіх бажаючих. За час закритого тестування було оброблено близько 23 млн. запитів, а за перший тиждень після відкриття - близько 100 млн. На сьогоднішній день Wolfram Alpha є безкоштовним веб-сервісом. Надалі планується розміщувати на сторінках проекту рекламу, а також пропонувати користувачам професійну версію з додатковими функціями за невелику плату.
Предметні області, які обробляються в системі – математика, фізика, хімія, астрономія, статистика та всілякі дані статистичного аналізу, дати та час, географія, погода, здоров`я та медицина, культура та медіа, музика та освіта, люди та історія, фінанси, лінгвістика і досягнення високих технологій, спорт тощо.
Система може [24]:
- переводити одиниці виміру з однієї системи в іншу;
- якщо задати зімічну формулу, система видасть основну інформацію про цю речовину / хімічний елемент;
- якщо ввести в рядок пошуку 1 apple + 1 orange, - система видасть кількість калорій, протеїнів, вітамінів, відсутність / наявність холестерину і т.д.;
- якщо ввести назву міста, то система видає наступну інформацію: де він знаходиться, кількість жителів, схематичне розташування на карті, поточний час, поточну температуру, вологість, швидкість вітру, стан хмарності, висоту над рівнем моря, найближчі міста (з відстанню до них і з кількістю мешканців у цих містах). Натиснувши на посилання „Show coordinates”, можна дізнатися координати міста. Натиснувши на посилання „Satellite image”, система завантажить знімки свого міста (буде завантажений сайт" Карти Google ");
- система виконує різні обчислення: якщо ввести в рядок пошуку, наприклад, $ 999 + 15%, Wolfram Alpha зробить необхідні обчислення;
- система надає інформацію про будь-який сайт. Якщо ввести в рядок пошуку URL сайту, система видасть детальну інформацію: хто є хостинг-провайдером, де він розташований, кількість переглядів і кількість візитерів за добу, site rank, найменування і розмір титульної сторінки, кількість вихідних посилань, кількість «зображень»;
- система може проводити не тільки найпростіші обчислення, але й вирішувати різні рівняння: якщо ввести, наприклад, x ^ 3 sin (x), система видасть рішення у вигляді графіка та в аналітичному вигляді;
- обробка музики - якщо ввести в рядок пошуку, наприклад, C Eb GC, то система надасть вичерпну інформацію про ці музичні ноти;
- обробка імен – якщо ввести два різних імені, наприклад, Vera, Natasha, - в результаті система видає статистичні дані, що свідчать про те, як часто використовуються ці імена;
- обробка фінансової інформації: система може надавати інформацію про економічний стан (наприклад, про наявність акціонерного капіталу, вартості однієї акції і т.д.) двох компаній, назви яких вводяться у пошуковий рядок з пробілом між назвами;
- обробка часової інформації: якщо ввести дату у форматі, наприклад, august 28, 1959, то система видасть, який це був день тижня, можна буде підрахувати, скільки часу (років, місяців, тижнів, днів) пройшло з цієї дати, хто з відомих людей народився в цей день, які свята припадають на цей день.
Для того, щоб дізнатися джерела інформації, які використовував Wolfram Alpha, унизу, під знайденої інформацією знаходиться кнопка „Source information”.
Всю інформацію, яку сгенерував («навольфраміл» - сленг) Wolfram Alpha, можна зберегти у вигляді PDF-файлу, натиснувши посилання (внизу) „Download as: PDF”.
Нажаль, система не обробляє тільки англомовні запити.

Google Squared
Google Squared (http://www.google.com/squared/) – цей новий експериментальний пошуковий механізм (experimental search tool) було заявлено 3 червня 2009 р.
На відміну від класичних - «традиційних» - пошукових систем, Google Squared не видає на запит користувача сторінку зі списком посилань на веб-ресурси, що відповідають запиту. В якості результатів пошуку на екран ПК користувача виводиться зведена таблиця з інформацією по запросу. Тобто Google Squared, як і сервіс Wolfram Alpha, самостійно аналізує (намагається аналізувати) запити користувача і представляє йому зведену релевантну інформацію.
В офіційному блозі пошукового гіганта сказано так: «... Іноді знайти інформацію легко. А іноді для збору необхідної інформації потрібно відвідати 10-20 сайтів, а потім ще потрібно структурувати знайдене ... Squared Google не шукає веб-сторінки за вашим запитом. Замість цього, він автоматично вибирає і організовує факти зі всього Інтернету» [25].
Google Squared дозволяє керувати вмістом результуючої зведеної таблиці: можна додавати до таблиці нові рядки і стовпчики, а зайві - видаляти. Крім того, можна додавати до зведеної таблиці дані з нового пошукового запиту.
Оскільки інформація збирається з різних джерел, для однієї комірки таблиці Google Squared може знайти відразу кілька значень. Відображається при цьому тільки одне значення, але користувач може при бажанні вибрати інше.
Як і Wolfram Alpha, сервіс Google Squared не підтримує українську та російську мови.
Порівняльне тестування Google Squared та Wolfram Alpha, наведене автором в червні 2009 р в [26] показує, що аналітичні характеристики і можливості системи Google Squared на даний час явно поступаються Wolfram Alpha.
Оскільки ця система також є комерційною, то знайти на даний час більш детальний опис алгоритмів та принципів роботи, нажаль, не уявляється можливим.

Sensebot
SenseBot Beta (http://www.sensebot.net/, початок проекту – 2008 р., на даний час бета-версія) заявлена як семантична пошукова система, яка на пошуковий запит генерує текстові анотації (резюме), складені з веб-сторінок, які відносяться до теми пошукового запиту. Ця система для вилучення змісту з веб-сторінок і представлення його користувачеві узгодженим чином використовує інтелектуальну обробку текстів (text mining) і мультидокументну сумарізацію (multidocument summarization). Разом з результатами система видає „семантичну хмару” концептів ("Semantic Cloud" of concepts), що дозволяє направити увагу та керувати результатами.
Оскільки SenseBot є семантичною пошуковою системою, це означає, що вона намагається зрозуміти семантику отриманих в результаті сторінок. Вона використовує, як було зазначено вище, інтелектуальну обробку текстів для розбору web-сторінок і визначення їх основних семантичних концептів. Після цього вона виконує мультидокументну сумарізацію змісту, в результаті чого генерується зв'язане резюме.
На верхньому рівні, система отримує джерела, які видаються як результат основною пошуковою системою. Після цього система виконує інтелектуальну обробку тексту, отриманого з кожного джерела, вилучаючи ключовї концепти. Подібності між джерелами оцінюються і ті, що семантично знаходяться далеко від запиту або не зв`язані з загальною масою знайдених джерел, відкидаються. Концептам присвоюється вага, а також задається преференційні значення для концептів, які представлені у запиті. Потім виконується відповідно до запатентованого алгоритму мультидокументна сумаризація - збір підсумкового документу, складеного з текстів резюме зі знайдених документів. Таким чином, на запит користувача фактичними результатами веб-пошуку є резюме, згенероване з знайдених документів.
Найкращі результати можуть бути досягнуті на множині текстових документів, які по суті знаходяться близько до заданої теми. Найкраща область застосування цієї системи, як зазначає її розробник, є вертикальні пошукові системи і портали - фінансові, медичні, правові, бібліотеки і т.д. Що стосується загального веб-пошуку, деяка кількість "шуму" неминуча, навіть для тих джерел, що знаходяться на перших сторінках результатів – які вважаються найбільш релевантними [27].


Begin
2 3 4 5 6 7 8 9 10 Next>>
...
13 14 Last (15)

Приклади технологічних рішень пошукових систем третього покоління

Методи і засоби інформаційного пошуку в Semantic Web (продовження, стор. 9)




З розвитком нових технологій та стандартів, паралельно з науковими дослідженнями, та спираючись на них, компанії бізнес-сектору прагматично розвивають нове покоління пошукових систем - «розумних» ПС, "smarter" search engines. Наведемо приклади таких технологічних рішень пошукових систем, які інтелектуалізують процес пошуку за рахунок:

  • структурування та представлення (подання) даних, отриманих з Інтернету;
  • реалізації семантичної фільтрації за якістю;
  • організації пошуку серед структурованих даних в Інтернеті;
  • пошуку в режимі реального часу в Інтернеті;
  • пошуку в «глибинному» вебі ('deep web') [22].


Begin
2 3 4 5 6 7 8 9 Next>>
...
13 14 Last (15)

Еволюція пошукових систем інтернет

Методи і засоби інформаційного пошуку в Semantic Web (продовження, стор. 8)




У зв'язку з таксономією, наведеною вище, в 2002 році в [14] було визначено три етапи (генерації) у розвитку веб-пошукових систем.

Перше покоління пошукових систем.
Перше покоління пошукових систем використовувало в основному інформацію, яка знаходилась безпосередньо на веб-сторінках (текст і форматування), ці пошукові системи дуже близькі до класичних ПС. Такі системи виконують в основному тільки інформаційні запити. Типовими прикладами таких систем в 1995-1997 роках були загальновідомі AltaVista, Excite, Webcrawler і т.д. Ранжування сайтів відбувалося тільки за рахунок контенту сторінок.
Важливі фактори, які враховувалися при ранжуванні, включали щільність ключових слів на веб-сторінці, назву, і місцезнаходження цих ключових слів в цьому документі. Також ПС першого покоління для обчислення релевантності враховували мета-тегі, використання ключових слів в імені домену, а також в url-адресі (Докладніше – див. Рогушина Ю.В., Гришанова І.Ю. "Разработка принципов представления электронных изданий, обеспечивающих корректную индексацию поисковыми системами Интернет", Проблеми програмування 2004р., №4, с39-47).
Основні спам-фільтри робили перевірку на наявність ключових слів в тексті, представлених на сторінці тим самим кольором, що і фон документу, тобто невидимох людському зору. На той час з`явилися перші портали, в наслідок чого результати пошуку перетворилися в величезні рекламні щити та перевантажені інформацією жовті сторінки.

Друге покоління пошукових систем
Друге покоління пошукових систем (початок появи 1998-1999 р.) характеризується використанням інформації, яка існує поза веб-сторінкою – веб-специфічних даних таких, як аналіз посилань (link analysis), тексту якорів (anchor-text) та відстеження даних, що передаються з http-запитом (click-through data). Таким чином вони стали брати до уваги структуру веб-мережі.
Друге покоління більш щільно пов`язано з семантикою запитів, яка береться з аналізу даних, що подані в вебі поза сторінки. Деякі з основних компонентів, які вони використовують є відстеження кліків (tracking clicks), репутація сторінки (page reputation), індекс популярності (link popularity), темпоральні спостереження (temporal tracking, кількість часу, що проводять відвідувачі на сторінці), та якість посилань (link quality). Пізніше, ПС другого покоління почали використовувати вектори термів (term vectors) [18], аналіз статистики відвідування (stats analysis), кеш-дані (cache data) і контекст. В якості аналізу контексту розглядається пошук на сторінці пар ключових слів, які складаються з двох слів. Це дозволяє краще виконати віднесення сторінки до певної категорії.
Першою системою, яка почала використовувати аналіз посилань між сторінками в якості одного з основних факторів ранжирування, стала система Google (PageRank). ПС DirectHit стала першою, хто побудував ранжування на аналізі даних, що передаються під час http-запиту. В даний час всі основні системи використовують всі ці типи даних. Використання Google PageRank та метод відстеження кліків DirectHit та тривалості візиту, підвищило ефективність пошуку.
Пошукові системи другого покоління підтримують як інформаційні, так і навігаційні запити. Аналіз посилань та текст якорів мають вирішальне значення для навігаційних запитів.

Третє покоління пошукових систем

На даний час третє покоління пошукових систем вже зароджується. Ці пошукові системи є спробою поєднати дані з різних джерел для досягнення головної мети – видачі результату, що відповідає потребі користувача. Наприклад, на запит „Ялта”, ПС повинна надавати пряме посилання на сторінку бронювання готелів в Ялті, сервер мап з мапою міста, на сервер погоди з інформацією про погоду і т.д. Таким чином, третє покоління – це покоління пошукових систем, які виходять за рамки обмежень фіксованої бази даних за допомогою семантичного аналізу, визначення контексту пошуку, вибору динамічної бази даних і т.д. Завдання полягає в тому, щоб забезпечити інформаційні, навігаційні і транзакційнї запити.
Третє покоління пошукових технологій покликані об'єднати масштабованість існуючих Інтернет-пошукових систем з новими та удосконаленими моделями пошуку релевантності; вони починають враховувати переваги користувача, співробітництво, колективний інтелект, багатий досвід користувачів, та багато інших спеціалізованих можливостей, які роблять інформацію більш значимою, а пошук – більш продуктивним.
Пошукові системи третього покоління додають до бази даних векторів термів похідні слова (word stemming) і тезаурус, що надає допомогу у здійсненні пошуку за контекстом [19]. Автоматичне визначення ключових пар також допомагає автоматичній категоризації сторінки, визначенню де користувач хоче провести покупку, а де – здійснити пошук, що повинно видати абсолютно різні результати пошуку на основі контексту або намірів користувача.
Технології третього покоління збагачені картами вебу, які є корисними для фільтрації – видалення дублікатів сайтів, а також багатьох самостійних сторінок, які привертають трафік на всього лише декілька ключових слів. Це означає, що сторінки типу дорвеєв (doorways), гейтвеєв (gateways), вхідних (entry, splash) – спеціально створені спам-сторінки для цільової розкрутки сайту на визначені позиції ключових слів, - незабаром будуть відфільтровані.
Вони також будуть вилучувати як можна більше даних про індивідуальні пошукові звички користувача. Всі основні пошукові системи планують створення персональних профілів та агентів, які будуть накопичувати знання про користувача протягом певного періоду часу та використовувати їх виходячи з минулих пошукових звичок.
Поява Семантичного Вебу (докладніше див. [20]) надало нові можливості і ще більше діференціювало поняття інформаційного пошуку. Семантичний Веб надав можливість використовувати існуючу семантичну інформацію – подану за допомогою семантичної розмітки, використовуючи семантичні зв'язки, виконуючі різні операції виведення на семантичних даних, а також порівняння семантичної інформації. Змінюється і алгоритм ранжування результуючих документів – вводиться поняття семантичного ранжування документів. Змінюється алгоритм пошуку, він стає дедалі розподіленим, змінюються методи задання пошукового запиту. Поява різних типів поданої в вебі інформації (різної модальності – мультимедійної інформації, відео, аудіо тощо) потребує використання інших підходів. Існуюче розділення пошуку за типом інформації – пошук відео, пошук картинок, тощо (Google, Яндекс) – дуже стиснено і неінформативне. Існує синергетична потреба – виконання пошуку в різних типах інформації та подальше змішування результатів.
Таким чином, пошукові системи 3-го покоління виходять за рамки класичного (традиційного) поняття пошуку в зв`язку з появою нових типів інормації та нових вимог, що ставлять користувачі перед пошуковими системами.
В західній літературі з`явився термін Search 2.0, який асоціюється з третім поколінням, але має більш чіткі обриси і більш орієнтовано на бізнес-аудиторію. [21]. В вебі вже існує десяток проектів, які вважаються проектами search 2.0 – Swicki (http://www.swicki.com/), Rollyo (http://www.rollyo.com/), Clusty (http://www.clusty.com/), Wink (http://www.wink.com/), Lexxe (http://www.lexxe.com/) тощо.

Begin
2 3 4 5 6 7 8 Next>>
...
13 14 Last (15)

Визначення пошуку в веб-середовищі

Методи і засоби інформаційного пошуку в Semantic Web (продовження, стор. 7)




В зв`язку з появою веб, поняття пошуку в середовищі інтернету набув іншого змісту. Поняття пошукової системи стало більш широким та глибшим. Наведемо декілька новітніх визначень поняття пошукової системи (Search Engine), що прийнятні зараз в західній науковій літературі.

Пошукова система – це комп’ютерна програма, яка отримує (retrieves) файли або документи, або дані з бази даних або з комп'ютерної мережі (зокрема, з інтернету) [15].

Пошукова система – це комп’ютерна програма, яка знаходить (finds) інформацію в Інтернеті шляхом пошуку слів, які були введені (як запит – прим. автору) [16].

Пошукова система – це комп'ютерне програмне забезпечення для пошуку даних (з текстів або баз даних) для отримання конкретної інформації, а також: сайт у веб-мережі, який використовує таке програмне забезпечення для пошуку ключових слів на інших сайтах [17].

В контексті веб з огляду на тезу, що „потреба спонукає запит”, в клас поняття пошукових систем почали включати системи „запитання-відповідь” (answer engine), які дуже часто є фактографічними ПС. Але деякі системи для отримання результату пошуку вже починають використовувати процедури логічного виводу.

Таким чином, пошукова система, в контексті веб, використовує спеціалізоване програмне забезпечення, яке має на вході від користувача пошуковий/і термін/и і на виході надає список веб-сторінок, які вважаються найбільш релевантними. Більшість пошукових систем мають величезні бази даних мільярдів веб-сторінок. Розрізняють два типи веб-пошукових систем.

Пошукові системи, базовані на кроулінгу (Crawler-based). Такі системи створюють свої списки веб-сторінках автоматично. Вони "сканують" (crawl) інтернет за допомогою робота-"павука" (spider, програма, яка відвідує веб-сторінки, читає їх і слідує далі за посиланнями, знайденими на веб-сторінці), і повертають користувачу результати пошуку, які ранжовані у порядку важливості. Павук повторно відвідує веб-сторінки кожні кілька місяців для найчастішого оновлення своєї індексної бази відповідно до внечених на веб-сторінки змін. Головна перевага пошукових систем, базованих на кроулінгу, полягає у тому, що будь-які зміни, які внесені до веб-сторінки, будуть впливати на його базу і відповідно – результати пошуку. Таким чином, актуальність змісту веб-сторінок збігається з ключовими словами, що використовуються для пошуку.

Каталоги, створені людиною (human based directory), залежать від людей, що його створили та поповнюють. Вони виконують пошук за ключовими словами в коротких описах веб-сторінок, представлених веб-майстерами та спеціалістами, що рецензують та перевіряють каталог. Разом з цим, веб-сторінки переглядаються людиною і розміщуються в відповідну ієрархію категорій. Таким чином, зміни, внесені до веб-сторінки, на відміну від скануючи пошукових систем, не будуть мати ніякого впливу на збережений в каталозі опис. Отже, хоча на веб-сторінці і міститься відповідна інформація, яка відповідає запиту, але вона не буде відображена в списку результатів пошуку доки веб-майстер не змінить опис веб-сторінки. Саме з цієї причини один з найперших та найбільших каталог, сформований людиною Yahoo! перетворено у більш популярну пошукову систему на базі сканеру. Таким чином утворюються комбіновані пошукові системи. Оскільки каталоги містять інформацію, перевірену людиною, ця інформація використовується для фільтрування та ранжування результатів пошуку.

Типи пошукових механізмів:
  • - пошукові системи;
  • - веб-каталоги;
  • - віртуальні бібліотеки;
  • - мета-пошукові механізми.
Пошукові системи (Search Engines) є найбільш широким класом ІПС та найбільш популярним і загальновживаним. Вони характеризуються наступними властивостями:
  • - мають базу даних веб-сторінок;
  • - пошук здійснюють за ключовими словами;
  • - мають скануючого робота.
Яскравим прикладом такої системи є пошукова система Google.

Веб-каталоги (Web Directories). Як було вказано вище, вони:
  • - мають колекцію веб-ресурсів;
  • - організовані за тематичними категоріями в ієрархію;
  • - організація в категорії та інш. провадиться вручну.
Приклад такого каталогу – загальновідомий каталог Yahoo.

Віртуальні бібліотеки (Virtual Libraries). Такі бібліотеки характеризуються наступними ознаками:
  • - мають колекцію веб-джерел;
  • - оцінюються фахівцями з предметної області;
  • - слабо автоматизовані, живляться людськими ресурсами.
Приклад типової бібліотеки – бібліотечний індекс інтернету - Librarians Index to the Internet www.lii.org.

Мета-пошукові механізми (Meta-Search Tools). З назви видно, що такі механізми використовують ресурси інших пошукових систем, а результати фільтрують та ранжують згідно своїх заданих правил. Такі системи характеризуються:
  • - не мають власної бази даних;
  • - вони здійснюють запити до інших пошукових механізмів, розташованих в вебі;
  • - мають дуже поганий дизайн і можуть тільки змінювати порядок ранжування результатів.
Класичний приклад такої системи є MetaCrawler.com. Такі системи користуються попитом, оскільки вони повертають більш короткий список посилань, що психологічно більш прийнятно для людини.

Begin
2 3 4 5 6 7 Next>>
...
13 14 Last (15)

Види пошуку в веб-середовищі

Методи і засоби інформаційного пошуку в Semantic Web (продовження, стор. 6)




Поява та розвиток інтернету сприяли розширенню поняття пошуку та появі більш специфічного поняття веб-пошуку. Оскільки в контексті веб фактори взаємодії людини з комп'ютером та когнітивні аспекти грають найважливішу роль, корисно деталізувати цю модель, як показано на Рис. 3.

Рис. 3. Класична модель інформаційного пошуку, поширена на інтернет-мережу (веб).

Як було зазначено раніше, інформаційна потреба асоціюється (викликається) з деякою задачею. Ця потреба вербалізується (найбільш часто це виконується ментально та не дуже чітко) та транслюється в запит, що надається пошуковому механізму. Цей процес висвітлення та створення запиту з інформаційної потреби, в контексті веб здобув велику увагу: в статті Хольстера та Струбе [10] вказується на тому, що досвідчені користувачі та новачки конструюють запити по-різному. Наварро-Пьєтро та інш. [11] вивели когнітивну модель для веб-пошуку, Мурамату та Прат [12] дослідили ментальну модель користувачів пошукових механізмів, тощо. Див. також [13] Однак всі ці дослідження базуються на припущенні, що веб-пошуковці мотивовані (спонукаємі) інформаційною потребою.
Таксономія веб-пошуку.
В контексті веб, вираз “потреба спонукає запит” часто не є інформативною. В 2002 році автор [14] класифікував запити в відповідності до їх намірів на три наступних класи:

  • навігаційні запити. Такі запити мають на меті негайний намір побачити певний сайт,
  • інформаційні запити. Вони виражають намір одержати деяку інформацію, яка вважається існуючою на одній або більше веб-сторінках,
  • транзакційні запити. Ці запити виражають намір виконати якусь веб-опосередковану діяльність – покупку в інтернет-магазині, завантаження файлів, тощо.


Навігаційні запити.
Метою таких запитів є дістатися певного сайту, який користувач має в своїх голові. Це визначено тим, що користувач можливо відвідував цей сайт в минулому, або він припускає, що такий сайт існує. Наприклад:



Запит Можливий результат
compaq Http://www.compaq.com
Фуршет http://www.furshet.ua/
Газета по-киевски http://mycityua.com


Цей тип пошуку іноді вважається, як пошук “загальновідомого предмету” в класичному ІП. Прикладом такого пошуку стало завдання “Пошук домашньої веб-сторінки”, яке регулярно проводиться при тестуванні пошукових систем при Конференції з текстового пошуку (Text Retrieval Conference).
Навігаційні запити зазвичай мають тільки один вірний результат.

Транзакційні запити.
Мета таких запитів полягає в тому, щоб досягти місця (сайту), де можливо провести подальшу взаємодію (транзакція) для досягнення певної мети. До основних категорій для таких запитів можна віднести здійснення покупок, пошук різних веб-опосередкованих сервісів, завантаження різного типу файлів (зображень, пісень і т.д.), доступ до деяких баз даних (наприклад, типу Yellow Pages), пошук серверів (наприклад, для ігор) і т.д.
Результати таких запитів з точки зору класичного ІП дуже важко оцінити. Все, що можливо – це бінарне значення оцінки, скажімо, відповідно чи не відповідно. Проте найбільш важливі для користувачів зовнішні чинники (наприклад, ціна товару, швидкість обслуговування, якість і т.інш.), як правило, в загальних пошукових системах недоступні.

Інформаційні запити.

Метою таких запитів є знайти інформацію, яка припускається існує в вебі в статичній формі. В подальшому взаємодій ніяких не передбачається, за винятком читання. Під статичною формою мається на увазі, що цільовий документ не створюється як відповідь на запит користувача. Ця різниця дещо розмита, оскільки змішування результатів, що характерно для третього покоління пошукових систем, можливо, призведе до використання динамічних сторінок.
В любому випадку, інформаційні запити – найбільш приближені до класичного поняття Інформаційного Пошуку (Informational Retrieval – IR), і тому вони далі будуть розглянуті детальніше.
На відміну від звичайного пошуку, більшість інформаційних запитів, що здійснюються в інтернеті, семантично є надзвичайно широкими, наприклад, “автомобілі” або “Сан-Франциско”, в той час як деякі можуть бути вузькими, наприклад “normocytic anemia” або “метрична система”. Досліди інформаційних запитів, проведені в [14] відзначають, що майже 15% всіх пошуків за бажану мету вважають гарну колекцію посилань за заданою темою, ніж один добрий документ.
Експериментальні результати дослідження типів запитів надані в таблиці на Рис.4.




Type of query User Survey Query Log Analysis
Navigational 24.5% 20%
Informational ?? (estimated 39%) 48%
Transactional > 22%
(estimated 36%)
30%

Рис. 4. Класифікація запитів користувачів.

Пошукові системи необхідні для вирішення всіх трьох типів запитів, хоча кожен тип задовільнюється досить різними результати. Розуміння цієї таксономії має важливе значення для успішного розвитку веб-пошуку. Сучасні пошукові системи добре вирішують інформаційні та навігаційні запити, але транзакційні запити задовольняються лише опосередковано. Шлях підвищення ефективності пошуку лежить в удосконаленні семантичного аналізу (тобто розуміння того, про що запит) та змішування різних зовнішніх баз даних.

Begin
2 3 4 5 6 Next>>
...
13 14 Last (15)

Класифікація видів пошуку

Методи і засоби інформаційного пошуку в Semantic Web (продовження, стор. 5)




Адресний пошук. Процес пошуку документів здійснюється за суто формальними ознаками, які вказані у запиті. Для здійснення такого типу пошуку необхідні наступні умови:
  • 1. Наявність в документу точної адреси.
  • 2. Забезпечення суворого порядку розташування документів у запам'ятовуючому пристрої або в сховищі системи.
Адресами документів можуть бути адреси веб-серверів та веб-сторінки, елементи бібліографічного запису, адреси зберігання документів у сховищі.

Документальний пошук. Процес пошуку здійснюється в сховищі інформаційно-пошукової системи первинних документів або в базі даних вторинних документів, що відповідають запиту користувача.
Існує два різновиди документального пошуку:
  • 1. Бібліотечний, який спрямований на знаходження первинних документів;
  • 2. Бібліографічний, який спрямований на знаходження відомостей про документи, які подані в вигляді бібліографічних записів.
Фактографічний пошук. Процес пошуку полягає в пошуку фактів, які відповідають інформаційному запиту. До фактографічних даних відносяться відомості, які добуті з первинних або вторинних документів, або які отримані безпосередньо з джерел їх виникнення.

Розрізняють два підвиди фактографічного пошуку:
  • 1. Документально-фактографічний, який полягає в пошуку в документах фрагментів тексту, які містять факти;
  • 2. Фактологічний (опис фактів), який припускає створення нових фактографічних описів в процесі пошуку шляхом логічної обробки знайденої фактографічної інформації.
Семантичний пошук. Цей пошук полягає в пошуку документів за їх змістом. Для здійснення такого типу пошуку необхідні наступні умови:
  • - переклад змісту документів і запитів з природної мови на інформаційно-пошукову мову для створення пошукових образів документу і запиту.
  • - створення пошукового опису, в якому вказується додаткова умова пошуку.
Принципова різниця між адресним та семантичним пошуками полягає в тому, що при адресному пошуку документ розглядається як об'єкт з точки зору форми, а при семантичному пошуку – з точки зору змісту. При семантичному пошуку знаходиться множина документів без зазначення адрес. Це є принциповою відмінністю каталогів і картотек. Бібліотека – це є зібрання бібліографічних записів без вказування адрес.

Begin
2 3 4 5 Next>>
...
13 14 Last (15)

Типи пошуку

Методи і засоби інформаційного пошуку в Semantic Web (продовження, стор. 4)




Інформаційний пошук можна розділити на наступні види:

  • Повнотекстовий пошук – при цьому здійснюється пошук в усьому змісту документу. Прикладами повнотекстового пошуку є більшість пошукових систем інтернету, як Яндекс, Гугл тощо. Зазвичай, для прискорення пошуку повнотекстовий пошук використовує попередньо створені індекси (індексну базу).
  • Пошук за метаданими – це пошук за деякими атрибутами документу, які підтримуються системою. Наприклад, назва документу, дата створення, розмір, автор тощо. Прикладом пошуку за реквізитами є діалог пошуку в файловій системі (наприклад в ОС MS Windows). Цей пошук зазвичай використовує дескриптивну модель пошуку.
  • Пошук зображення – це пошук за вмістом зображення. Пошукова система зазвичай використовує алгоритми штучного інтелекту - порівняння з зразком та пошуку за подібністю.
  • Пошук музики – аналогічно пошуку зображення, виконує пошук за зразком в колекції музичних даних.


Begin
2 3 4 Next>>
...
13 14 Last (15)

Класична модель інформаційного пошуку.

Методи і засоби інформаційного пошуку в Semantic Web (продовження, стор. 3)




Базова стандартна модель, яка використовується в більшості книг з інформаційного пошуку виглядає, як показано на Рис. 2 [5].

Рис. 2. Класична модель інформаційного пошуку.

Як було зазначено вище, користувач, спонукаємий інформаційною потребою, складає запит на деякій мові запитів. Запит посилається системі, яка вибирає з колекції документів (масив інформації) такі документи, що відповідають запиту згідно з визначеними правилами відповідності. Процес уточнення запиту може використовуватися для створення нових запитів та/або для очищення результатів.

Процес пошуку базується на використанні визначеної моделі пошуку. Модель пошуку характерізується наступними параметрами:
1. форма подання документів и запитів;
2. критерій змістовної відповідності;
3. методи ранжування результатів запитів;
4. механізм зворотнього зв'язку для оцінювання релевантності документів.

Наведемо стисло класичні моделі інформаційного пошуку:
 Булева модель;
 Ймовірностна модель;
 Векторна модель;
 Дескрипторна модель та моделі, базовані на класифікаторах.

Булева модель. В цій моделі документ подається за допомогою набору терминів, які зберігаються в індексі. Кожен термін представлений як булева змінна. Документ (ПОД) подається як поєднання термінів. Вагові коефіцієнти не вводяться. Запит (ПОЗ) формується як довільний булевський вираз, що складається з термінів, пов'язаних логічними операціями (AND, OR, NOT). Мірою відповідності є значення статусу виборки (TRUE або FALSE). Така модель проста в реалізації і використовується в багатьох документальних ІПС. Ефективність пошуку невисока і неможливо ранжування документів за релевантністю.

Ймовірностна модель. В основі ймовірностних моделей лежить принцип ймовірністного ранжування (Probabilistic Ranking Principle, PRP). Цей принцип заключається в наступному – найбільш загальна ефективність пошуку досягається в випадку, коли результуючі документи ранжуються за убуванням ймовірності їх релевантності запиту. Спочатку для кожного документу оцінюється ймовірність того, що він релевантен запиту, а потім за цими оцінками виконується ранжування документів.
Для отримання таких оцінок існують різні способи, а також додаткові допущення та гіпотези, які створені на основі апріорних відомостей про документи колекції. Відповідно до цього існує багато реалізацій ймовірностної моделі пошуку. Наприклад, така оцінка може бути обчислена в відповідності з теоремою Байеса за деякою функцією ймовірностей входження термів даного документу в релевантні та нерелевантні документи. Використовуючи навчальну вибірку (навчальний масив даних) обчислюється ймовірність входження заданого терму в релевантні та нерелевантні документи. [6]

Просторово-векторна модель (Vector Space Model) запропонована Солтоном в 1975 році, але на даний час має велике поширення. Векторні моделі, на відміну від булевих, дозволяють ранжувати результуючу множину документів запиту. Документи (та запити до них) представляють собою набір векторів в n-мірному просторі [7]. Простір містить n базисних нормалізованих векторів, де n – загальна кількість різних термів в усіх документах. Значення компонентів вектору визначає вага терму (терміну). Показник відповідності (релевантності) визначається як оцінка кореляції між векторами. Така кореляція може бути скалярним добутком (множенням) вектору запиту на вектор документу [8]. Документи ранжують за спаданням скалярних добутків.

Дескрипторна модель є найпростішою моделлю пошуку. В ній документ задається в вигляді набору асоційованих з ним зовнішніх атрибутів. У простих системах дескрипторного пошуку подання документу описується сукупністю слів або фраз лексики предметної області (ПрО), які характеризують зміст документа. Ці слова і словосполучення називаються дескрипторами. Індексування документу в таких системах реалізується призначенням для нього сукупності дескриптори. При цьому дескриптори можуть приписуватися документу як на підставі його змісту, так і на підставі його назви. Такі два процеси називаються відповідно індексуванням документу за змістом та індексуванням за назвою [9]. В деяких дескриптивних системах індексування документів здійснюється вручну експертами ПрО, в інших воно виконується автоматично.
Дескрипторні системи можна віднести до класу систем, орієнтованих на бібліографічний пошук або пошук у каталозі.

Моделі, базовані на класифікаторах – є однією з різновидів найпростіших моделей пошуку. Документ у цій моделі, як і в дескриптивних системах, подається у вигляді сукупності асоційованих з ним атрибутів. Атрибутами є ідентифікатори класів, до яких відноситься даний документ. Класи формують ієрархічну структуру класифікатора. Запит може бути представлений двома способами:
1. Простий варіант - запитом є ідентифікатор будь-якого класу з заданого класифікатора. Критерій релевантності документу запиту - клас документу збігається з класом, поданим у запиті, або є його підкласом.
2. Складний варіант - в запиті можна вказати кілька класів класифікатора. Критерій релевантності документу запиту - клас документу збігається з будь-яким із зазначених у запиті класом, або є його підкласом.
Моделі, базовані на класифікаторах, близькі до булевських моделей.

Необхідно зазначити, що класичні моделі розглядають незалежність слів (термів). Для подання документів та запитів застосовується одразу декілька моделей.
Ефективність пошуку (інформаційно-пошукових систем) аналізується і регулюється перш за все за рівнем релевантності й пертінентності в частині вдосконалення організації запитів користувачів, пошуку за параметрами, за рахунок кластеризації, пошуку за подобою, ранжуванням відгуків, використання «сюжетних підходів», всебічного використання семантичних методів (у тому числі із застосуванням автоматичного групування документів за класифікатором, автоматичним визначенням раніше незаданих або слабо структурованих документів, ранжування документів за змістовою релевантністю, автоматичного аналізу та змістовного перетворення запитів, виявлення семантично подібних документів на зразок порівнянню з еталоном - наприклад, з використанням матриці Александера).

Begin
2 3 Next>>
...
13 14 Last (15)


Базові поняття інформаційного пошуку

Методи і засоби інформаційного пошуку в Semantic Web (продовження, стор. 2)




Базові поняття інформаційного пошуку


Основним засобом передачі інформації в часі і просторі є документ. Документ визначається як засіб закріплення любим чином на спеціальному матеріалі любої (деякої) інформації про факти, події, явища об'єктивної дійсності і розумової діяльності людини. [3]. Документи мають різну форму подання. В автоматизованих інформаційно-пошукових системах це текстова інформація на природній мові. В повсякденному житті – це може бути друкована стаття, книга тощо. В інтернет це може бути малюнок, відео-ролик або сайт.

З точки зору теорії інформації документ – це змістовно закінчена одиниця інформації, яка представлена на якій-небудь природній мові, що ідентифікується унікальним чином.
Поняття інформаційного пошуку вперше запровадив в інформатиці американський математик Келвин Муерс в 1947 році. Інформаційним пошуком (ІП) називається деяка послідовність операцій, яка виконується з метою відшукання документів, які містять певну інформацію (з подальшою видачею цих документів або їх копій), або з метою видачі фактичних даних, які надають відповіді на задані питання.

Спонукальним приводом інформаційного пошуку, як було зазначено вище, є інформаційна потреба, яка виражена у формі інформаційного запиту. Об'єктами інформаційного пошуку можуть бути документи, відомості про їх наявність та/або місцезнаходження, фактографічна інформація.

Інформаційний запит представляє собой інформаційну потребу, яка сформульована на природній мові. Результат «перекладу» інформаційного запиту на інформаційно-пошукову мову (ІПМ) називають пошуковим образом запиту (ПОЗ). Синтаксис і семантика ІПМ визначається структурой і наповненням документів, та загальними задачами системи.
Інформаційний пошук розрізняють наступним чином:
  • в залежності від мети – адресний пошук (формально-механічний) та семантичний (тематичний),
  • в залежності від об'єкту пошуку – документний та фактографічний,
  • в залежності від ступіню використання технічних засобів – ручний або автоматизований,
  • в залежності від функціональної ролі – домінуючі/другорядні, центральні/периферичні, сталі/сітуативні потреби.
Усі види інформаційного пошуку перетинаються, тому що цілі та об'єкти часто взаємопов'язані. Наприклад, документний і фактографічний види пошуку можуть бути як адресними, так и семантичними.

Інформаційний пошук здійснюється за допомогою інформаційно-пошукових систем. Інформаційно-пошукова система (ІПС) – це комплекс пов'язаних між собою окремих частин, який призначений для виявлення в будь-якій множині елементів інформації, які відповідають заданому інформаційному запиту. Масив елементів інформації, в якому виконується інформаційний пошук, називається пошуковим масивом.

Інформаційно-пошукові системи розділяються на документальні та фактографічні. Документальні ІПС в відповідь на запит видають орігінали, копії або адреси місцезнаходження документів, що містять потрібну інформацію. Підклас документальних ІПС, які видають лише бібліографічні описи документів, що знайдені, іноді називаються бібліографічними ІПС.

На відміну від документальних ІПС фактографічні пошукові системи призначені для видачі беспосередньо необхідної информації (наприклад, температури кипіння якоїсь рідини, температури води в морі біля конкретного населеного пункту; структурних або молекулярних формул хімічних сполук, що мають певні властивості тощо).

Принципової відмінності між документальними і фактографічними ІПС немає. Головною ознакою, що поєднує документальні і фактографічні ІПС до одного загального класу є те, що на запити вони можуть видавати таку і тільки таку інформацію, яка була раніше в них введена. Кожна документальна ІПС (як ручна, так і автоматизована), містить наступні частини:
  • інформаційно-пошукова мова (ІПМ)
  • правила переводу текстів документу і запитів з природної мови на ІПМ,
  • формальні правила (алгоритми) пошуку,
  • технічні засоби, які реалізують алгоритми пошуку,
  • масив (множина) документів (або їх адрес), які записані на якихось носіях інформації (в сучасних пошукових системах інтернету - база індексу).
Інформаційний пошук здійснюється за певними правилами, які визначають стратегію пошуку, тобто способи досягнення оптимального результату. Стратегія інформаційного пошуку залежить від типу пошукової задачі, критеріїв видачі і характеру діалогу між споживачами інформації і ІПС.

В загальному вигляді процедура інформаційного пошуку складається з чотирьох етапів:
  • уточнення інформаційної потреби і формулювання запиту,
  •  визначення сукупності інформаційних масивів,
  • вилучення інформації з інформаційних масивів,
  • ознайомлення користувача з отриманою інформацією і оцінювання результатів пошуку.
Рис. 1. Загальний вигляд алгоритму пошуку.

Найбільш загальний вигляд алгоритму пошуку, що проводиться незалежно від форми носіїв і ступіню автоматизації, показан на Рис. 1.

Постановка пошукової проблеми. На цьому етапі користувач формулює точне визначення і фіксує то, що буде шукати і в якій області знань (предметній області – ПрО). Таким чином множина пошуку звужується визначеними межами.

Створення тезаурусу проблеми. На цьому етапі користувач створює (складає) перелік слів, які найбільш повно відображають ПрО або проблему, що була визначена. Як рекомендують спеціалісти з бібліографічного пошуку, цей перелік повинен мати приблизно 10-15 слів.
В залежності від поставленого завдання тезаурус може бути складений на декількох мовах, для пошуку серед вітчизняних та зарубіжних джерел інформації. Робота над тезаурусом ведеться весь час, і в процесі виявлення нових термінів вони тут же додаються до тезаурусу. Найбільш прийнятною є структура тезаурусу у вигляді семантичних зрізів. У цьому випадку для кожного основного терміну окремо будується таблиця для супутних та шумових слів. Шумових слів у джерелі бути не повинно. Тобто користувач отримує пакет таблиць, які можна окремо розширювати і модифікувати в ході пошуку.

Відбір джерел інформації для пошуку. Джерела інформації (масив) обираються виходячи з характеру проблеми (тобто де найбільш доступні та повно надані джерела) та можливостей користувача (доступ до інтернету, бібліотеки тощо).

Виконання пошуку засобами, які притаманні джерелу інформації. На цьому етапі користувач з тезаурусу складає пошукові запити і реалізує їх методами пошуку, які специфічні для даного ресурсу. В бібліотеці – це пошук в каталогах, якщо інформацією володіють люди або організації – пошук та звернення до них, у мережі Інтернет - використовуються пошукові машини та каталоги, телеконференції та списки розсилки, сайти та інше. Як формат так і семантика запитів варіюється в залежності від предметної області та використовуваного інформаційного ресурсу.
Як рекомендують спеціалісти з бібліографічного пошуку, запити необхідно складати таким чином, щоб область пошуку була максимально конкретизована та звужена. Необхідно віддавати перевагу декільком вузьким запитам ніж одному, але розширеному. В загальному випадку для кожного основного поняття з тезауруса готується окремий пакет запитів. Після чого проводиться пробне виконання запитів – для уточнення та доповнення тезаурусу, в тому числі для відсікання шумової інформації.

Оцінювання отриманих результатів пошуку. В результаті пошуку користувач отримує результуючу множину документів, які надалі необхідно проаналізувати і вирішити наскільки повно вони покривають поставлену пошукову проблему.
Перелік ресурсів, отриманих в результаті запиту, рекомендується обробляти в два етапи. На першому етапі відсікаються вочевидь нерелевантні джерела і знову ж таки проводиться семантичний аналіз з метою уточнення тезаурусу та модифікації подальших запитів. На другому етапі обробки користувач послідовно вивчає кожен з знайдених ресурсів для безпосереднього аналізу інформації, що знаходиться в них. У процесі аналізу отриманої інформації, її треба:
  • оцінити (за ступенем вірогідності, важливості, таємності, пов'язаності між собою, можливості використання);
  • інтерпретувати (в світлі інших даних і глибинної інтуїції), виявивши її місце в загальній мозаїці фактів;
  • визначити, чи потрібна (і яка) додаткова інформація;
  • ефективно використати (врахувати у своїх планах, передати кому слід, притримати до потрібного моменту).
Прийняття рішення про продовження (закінчення) пошуку. Якщо, оцінюючи результати пошуку, користувач прийшов до висновку, що необхідна інформація знайдена вся, тоді пошук можна припиняти - подальші пошуки будуть зайвою тратою дорогоцінного часу. У зворотній ситуації (неповні відомості) користувачеві доведеться приймати рішення про те, на якому з етапів була допущена помилка, і спробувати виправити її, після чого повторити процес пошуку з цього місця заново. В цьому випадку можливі три варіанти: невірно складений тезаурус проблеми, невірно обране інформаційне джерело або користувач скористався недоцільними методами пошуку (наприклад, виконував пошук суто наукової інформації - статті за допомогою загальновикористовуваного пошукового інтернет-сервісу).
Такі ітерації необходно повторювати, поки не буде досягнуто позитивного результату. При цьому існує стовідсотково методологічна проблема – при ефективному пошуку завжди стоять два суперечливих завдання: збільшення охоплення з метою отримання максимальної кількості значимої інформації та зменшення охоплення з метою мінімізування обсягу шумової інформації. І найскладніше, як завжди, знайти золоту середину. [4]

Найбільш ефективним методом пошуку документів, які містять наукову інформацію є вивчення (прочитання) кожного окремого документу. Зрозуміло, що такий спосіб практично неможливий, оскільки кількість документів, як правило, буває занадто великим, щоб всі їх можна було прочитати при кожному інформаційному запиті. Тому доводиться використовувати інший, менш ефективний метод, при якому ІП здійснюється не за самими текстами документів (умістом), а за краткими характеристиками змісту або певними зовнішніми ознаками документів. Для цього кожен документ забезпечується пошуковим образом документа (ПОД) - характеристикою, в якій стисло виражається основний зміст документу. Як було зазначено вище, інформаційний запит також повинен бути сформульований у вигляді такої ж короткої характеристики - пошукового образу запиту (ПОЗ). Завдяки цьому процедура ІП зводиться до зіставлення ПОД з заданим ПОЗ. Якщо ПОД з необхідною і достатньою мірою збігається з ПОЗ, вважається, що цей документ відповідає на інформаційний запит. Таке зіставлення виправдане лише тоді, коли пошуковий образ і пошукове запит формулюються в термінах однієї мови, та ще такого, в якому кожна фраза допускає одне й тільки одне тлумачення.
ПОД містить загальний оспис умісту документу. Тому такий метод не може забезпечити знайдення в бібліотеці всіх документів, які містять потрібну інформацію. Крім того, в масиві знайдених документів можуть бути такі, що фактично не відповідають даному інформаційному запиту. Такі документи створюють “пошуковий шум”.

Важливо пом'ятати, що інформація, яка міститься в наукових документах, об'єктивно підпорядковується закону розсіювання. Повнота і точність пошуку являють собою конкуруючі показники: підвищення одного з них веде до зниження іншого. Збільшуючи повноту пошуку, ми неминуче зменшуємо його точність і навпаки, збільшуючи точність пошуку, зменшуємо його повноту.

Ефективність інформаційного пошуку визначають показники, які характеризують знаходження релевантних документів. Вони підрозділяються на семантичні (точність та повнота пошуку, коефіцієнт інформаційного шуму, коефіцієнт втрат тощо) та техніко-економічні (оперативність пошуку, вартість та трудоємність пошуку).

Відповідність знайдених в процесі інформаційного пошуку знань або даних інформаційній потребі користувача (в часному випадку - інформаційному запиту) називається пертинентністю. Змістовна відповідність відображуваного результату його запиту за формальними (синтаксичними, морфологічними) ознаками називається релевантністю.

З проблемою інформаційного пошуку першими зіткнулися бібліотекарі. Для того, щоб читачі могли знаходити в фондах бібліотеки цікавлячі їх документи, в ній створювалися різні каталоги та вказівники. В одній з найбільших бібліотек давнини – в Александрійській бібліотеці – в 47 р. до н.е. нараховувалось біля 700 тис. томів (свитків папірусу). Складений Калімахом каталог до фондів цієї бібліотеки (приблизно в 250 р. до н.е.) мав об'єм 120 томів. В якості основних елементів книгоопису в цьому каталозі використовувалися им'я автора та назва (заголовок) твору. Якщо твір не мав назви, то Калімах приводив його початкові строки.

Простішим ПОД є його заголовок. Спираючись на заголовок книги або статті читач в більшості випадків може судити про те, чи представляє для нього інтерес ця книга або стаття і чи варто з нею ознайомитися докладніше.

Анотацію та реферат документу також можна вважати його пошуковими образами. Зі збільшенням обсягу реферативних журналів кількість анотацій та рефератів, що містяться в них, стало настільки великим, що реферативні журнали довелося забезпечувати додатковим довідковим апаратом - системою покажчиків, які значно полегшують для читачів рішення інформаційно-пошукових задач. Таким чином, реферативні журнали, а також реферативні журнали з системою покажчиків - це найпростіші документальні ІПС, розраховані на індивідуальне використання.

Існує три основних типи інформаційно-пошукових задач:
  • ретроспективний інформаційних пошук, тобто пошук вже існуючих документів (всіх або частини), які містять відомості про певне питання,
  • термінове сповіщення окремих спеціалістів (абонентів) про публікації, які мають для них потенційний інтерес. Даний тип інформаційного пошуку називається виборчим (адресним) розподілом інформації. Він виконується за постійними інформаційними запитами (так званими “профілями інтересів”), які формуються самими споживачами. Це окремий випадок інформаційного пошуку,
  • пошук імен спеціалістів, які володіють інформацією з певного питання.

Begin 2 Next>> 4 5 6 7 8 9 10 11 12 13 14 Last (15)

Популярное

Использование материалов сайта

Информация, представленная на сайте, может свободно использоваться и распространяться при обязательном указании активной прямой ссылки на сайт http://in-search-of-semantics.blogspot.com/, а тексты научных статей – при указании авторства и ссылки на бумажную публикацию.

При размещении текстов статей на своих сайтах, блогах и пр., пожалуйста, присылайте ссылки.
Комментарии перед публикацией предварительно модерируются.

Хотите сказать спасибо автору? Не откажусь :) - Поставьте ретвит на пост, или другую социальную закладку. Спасибо.