В поисках семантики: Еволюція пошукових систем інтернет

Методи і засоби інформаційного пошуку в Semantic Web (продовження, стор. 8)

У зв'язку з таксономією, наведеною вище, в 2002 році в [14] було визначено три етапи (генерації) у розвитку веб-пошукових систем.

Перше покоління пошукових систем.
Перше покоління пошукових систем використовувало в основному інформацію, яка знаходилась безпосередньо на веб-сторінках (текст і форматування), ці пошукові системи дуже близькі до класичних ПС. Такі системи виконують в основному тільки інформаційні запити. Типовими прикладами таких систем в 1995-1997 роках були загальновідомі AltaVista, Excite, Webcrawler і т.д. Ранжування сайтів відбувалося тільки за рахунок контенту сторінок.
Важливі фактори, які враховувалися при ранжуванні, включали щільність ключових слів на веб-сторінці, назву, і місцезнаходження цих ключових слів в цьому документі. Також ПС першого покоління для обчислення релевантності враховували мета-тегі, використання ключових слів в імені домену, а також в url-адресі (Докладніше – див. Рогушина Ю.В., Гришанова І.Ю. "Разработка принципов представления электронных изданий, обеспечивающих корректную индексацию поисковыми системами Интернет", Проблеми програмування 2004р., №4, с39-47).
Основні спам-фільтри робили перевірку на наявність ключових слів в тексті, представлених на сторінці тим самим кольором, що і фон документу, тобто невидимох людському зору. На той час з`явилися перші портали, в наслідок чого результати пошуку перетворилися в величезні рекламні щити та перевантажені інформацією жовті сторінки.

Друге покоління пошукових систем
Друге покоління пошукових систем (початок появи 1998-1999 р.) характеризується використанням інформації, яка існує поза веб-сторінкою – веб-специфічних даних таких, як аналіз посилань (link analysis), тексту якорів (anchor-text) та відстеження даних, що передаються з http-запитом (click-through data). Таким чином вони стали брати до уваги структуру веб-мережі.
Друге покоління більш щільно пов`язано з семантикою запитів, яка береться з аналізу даних, що подані в вебі поза сторінки. Деякі з основних компонентів, які вони використовують є відстеження кліків (tracking clicks), репутація сторінки (page reputation), індекс популярності (link popularity), темпоральні спостереження (temporal tracking, кількість часу, що проводять відвідувачі на сторінці), та якість посилань (link quality). Пізніше, ПС другого покоління почали використовувати вектори термів (term vectors) [18], аналіз статистики відвідування (stats analysis), кеш-дані (cache data) і контекст. В якості аналізу контексту розглядається пошук на сторінці пар ключових слів, які складаються з двох слів. Це дозволяє краще виконати віднесення сторінки до певної категорії.
Першою системою, яка почала використовувати аналіз посилань між сторінками в якості одного з основних факторів ранжирування, стала система Google (PageRank). ПС DirectHit стала першою, хто побудував ранжування на аналізі даних, що передаються під час http-запиту. В даний час всі основні системи використовують всі ці типи даних. Використання Google PageRank та метод відстеження кліків DirectHit та тривалості візиту, підвищило ефективність пошуку.
Пошукові системи другого покоління підтримують як інформаційні, так і навігаційні запити. Аналіз посилань та текст якорів мають вирішальне значення для навігаційних запитів.

Третє покоління пошукових систем
На даний час третє покоління пошукових систем вже зароджується. Ці пошукові системи є спробою поєднати дані з різних джерел для досягнення головної мети – видачі результату, що відповідає потребі користувача. Наприклад, на запит „Ялта”, ПС повинна надавати пряме посилання на сторінку бронювання готелів в Ялті, сервер мап з мапою міста, на сервер погоди з інформацією про погоду і т.д. Таким чином, третє покоління – це покоління пошукових систем, які виходять за рамки обмежень фіксованої бази даних за допомогою семантичного аналізу, визначення контексту пошуку, вибору динамічної бази даних і т.д. Завдання полягає в тому, щоб забезпечити інформаційні, навігаційні і транзакційнї запити.
Третє покоління пошукових технологій покликані об'єднати масштабованість існуючих Інтернет-пошукових систем з новими та удосконаленими моделями пошуку релевантності; вони починають враховувати переваги користувача, співробітництво, колективний інтелект, багатий досвід користувачів, та багато інших спеціалізованих можливостей, які роблять інформацію більш значимою, а пошук – більш продуктивним.
Пошукові системи третього покоління додають до бази даних векторів термів похідні слова (word stemming) і тезаурус, що надає допомогу у здійсненні пошуку за контекстом [19]. Автоматичне визначення ключових пар також допомагає автоматичній категоризації сторінки, визначенню де користувач хоче провести покупку, а де – здійснити пошук, що повинно видати абсолютно різні результати пошуку на основі контексту або намірів користувача.
Технології третього покоління збагачені картами вебу, які є корисними для фільтрації – видалення дублікатів сайтів, а також багатьох самостійних сторінок, які привертають трафік на всього лише декілька ключових слів. Це означає, що сторінки типу дорвеєв (doorways), гейтвеєв (gateways), вхідних (entry, splash) – спеціально створені спам-сторінки для цільової розкрутки сайту на визначені позиції ключових слів, - незабаром будуть відфільтровані.
Вони також будуть вилучувати як можна більше даних про індивідуальні пошукові звички користувача. Всі основні пошукові системи планують створення персональних профілів та агентів, які будуть накопичувати знання про користувача протягом певного періоду часу та використовувати їх виходячи з минулих пошукових звичок.
Поява Семантичного Вебу (докладніше див. [20]) надало нові можливості і ще більше діференціювало поняття інформаційного пошуку. Семантичний Веб надав можливість використовувати існуючу семантичну інформацію – подану за допомогою семантичної розмітки, використовуючи семантичні зв'язки, виконуючі різні операції виведення на семантичних даних, а також порівняння семантичної інформації. Змінюється і алгоритм ранжування результуючих документів – вводиться поняття семантичного ранжування документів. Змінюється алгоритм пошуку, він стає дедалі розподіленим, змінюються методи задання пошукового запиту. Поява різних типів поданої в вебі інформації (різної модальності – мультимедійної інформації, відео, аудіо тощо) потребує використання інших підходів. Існуюче розділення пошуку за типом інформації – пошук відео, пошук картинок, тощо (Google, Яндекс) – дуже стиснено і неінформативне. Існує синергетична потреба – виконання пошуку в різних типах інформації та подальше змішування результатів.
Таким чином, пошукові системи 3-го покоління виходять за рамки класичного (традиційного) поняття пошуку в зв`язку з появою нових типів інормації та нових вимог, що ставлять користувачі перед пошуковими системами.
В західній літературі з`явився термін Search 2.0, який асоціюється з третім поколінням, але має більш чіткі обриси і більш орієнтовано на бізнес-аудиторію. [21]. В вебі вже існує десяток проектів, які вважаються проектами search 2.0 – Swicki (http://www.swicki.com/), Rollyo (http://www.rollyo.com/), Clusty (http://www.clusty.com/), Wink (http://www.wink.com/), Lexxe (http://www.lexxe.com/) тощо.

Begin
2 3 4 5 6 7 8 Next>>
...
13 14 Last (15)