Социализируемся

Я в Google+ Я в Twitter Я в Facebook

Wednesday, April 21, 2010

Класична модель інформаційного пошуку.

Методи і засоби інформаційного пошуку в Semantic Web (продовження, стор. 3)




Базова стандартна модель, яка використовується в більшості книг з інформаційного пошуку виглядає, як показано на Рис. 2 [5].

Рис. 2. Класична модель інформаційного пошуку.

Як було зазначено вище, користувач, спонукаємий інформаційною потребою, складає запит на деякій мові запитів. Запит посилається системі, яка вибирає з колекції документів (масив інформації) такі документи, що відповідають запиту згідно з визначеними правилами відповідності. Процес уточнення запиту може використовуватися для створення нових запитів та/або для очищення результатів.

Процес пошуку базується на використанні визначеної моделі пошуку. Модель пошуку характерізується наступними параметрами:
1. форма подання документів и запитів;
2. критерій змістовної відповідності;
3. методи ранжування результатів запитів;
4. механізм зворотнього зв'язку для оцінювання релевантності документів.

Наведемо стисло класичні моделі інформаційного пошуку:
 Булева модель;
 Ймовірностна модель;
 Векторна модель;
 Дескрипторна модель та моделі, базовані на класифікаторах.

Булева модель. В цій моделі документ подається за допомогою набору терминів, які зберігаються в індексі. Кожен термін представлений як булева змінна. Документ (ПОД) подається як поєднання термінів. Вагові коефіцієнти не вводяться. Запит (ПОЗ) формується як довільний булевський вираз, що складається з термінів, пов'язаних логічними операціями (AND, OR, NOT). Мірою відповідності є значення статусу виборки (TRUE або FALSE). Така модель проста в реалізації і використовується в багатьох документальних ІПС. Ефективність пошуку невисока і неможливо ранжування документів за релевантністю.

Ймовірностна модель. В основі ймовірностних моделей лежить принцип ймовірністного ранжування (Probabilistic Ranking Principle, PRP). Цей принцип заключається в наступному – найбільш загальна ефективність пошуку досягається в випадку, коли результуючі документи ранжуються за убуванням ймовірності їх релевантності запиту. Спочатку для кожного документу оцінюється ймовірність того, що він релевантен запиту, а потім за цими оцінками виконується ранжування документів.
Для отримання таких оцінок існують різні способи, а також додаткові допущення та гіпотези, які створені на основі апріорних відомостей про документи колекції. Відповідно до цього існує багато реалізацій ймовірностної моделі пошуку. Наприклад, така оцінка може бути обчислена в відповідності з теоремою Байеса за деякою функцією ймовірностей входження термів даного документу в релевантні та нерелевантні документи. Використовуючи навчальну вибірку (навчальний масив даних) обчислюється ймовірність входження заданого терму в релевантні та нерелевантні документи. [6]

Просторово-векторна модель (Vector Space Model) запропонована Солтоном в 1975 році, але на даний час має велике поширення. Векторні моделі, на відміну від булевих, дозволяють ранжувати результуючу множину документів запиту. Документи (та запити до них) представляють собою набір векторів в n-мірному просторі [7]. Простір містить n базисних нормалізованих векторів, де n – загальна кількість різних термів в усіх документах. Значення компонентів вектору визначає вага терму (терміну). Показник відповідності (релевантності) визначається як оцінка кореляції між векторами. Така кореляція може бути скалярним добутком (множенням) вектору запиту на вектор документу [8]. Документи ранжують за спаданням скалярних добутків.

Дескрипторна модель є найпростішою моделлю пошуку. В ній документ задається в вигляді набору асоційованих з ним зовнішніх атрибутів. У простих системах дескрипторного пошуку подання документу описується сукупністю слів або фраз лексики предметної області (ПрО), які характеризують зміст документа. Ці слова і словосполучення називаються дескрипторами. Індексування документу в таких системах реалізується призначенням для нього сукупності дескриптори. При цьому дескриптори можуть приписуватися документу як на підставі його змісту, так і на підставі його назви. Такі два процеси називаються відповідно індексуванням документу за змістом та індексуванням за назвою [9]. В деяких дескриптивних системах індексування документів здійснюється вручну експертами ПрО, в інших воно виконується автоматично.
Дескрипторні системи можна віднести до класу систем, орієнтованих на бібліографічний пошук або пошук у каталозі.

Моделі, базовані на класифікаторах – є однією з різновидів найпростіших моделей пошуку. Документ у цій моделі, як і в дескриптивних системах, подається у вигляді сукупності асоційованих з ним атрибутів. Атрибутами є ідентифікатори класів, до яких відноситься даний документ. Класи формують ієрархічну структуру класифікатора. Запит може бути представлений двома способами:
1. Простий варіант - запитом є ідентифікатор будь-якого класу з заданого класифікатора. Критерій релевантності документу запиту - клас документу збігається з класом, поданим у запиті, або є його підкласом.
2. Складний варіант - в запиті можна вказати кілька класів класифікатора. Критерій релевантності документу запиту - клас документу збігається з будь-яким із зазначених у запиті класом, або є його підкласом.
Моделі, базовані на класифікаторах, близькі до булевських моделей.

Необхідно зазначити, що класичні моделі розглядають незалежність слів (термів). Для подання документів та запитів застосовується одразу декілька моделей.
Ефективність пошуку (інформаційно-пошукових систем) аналізується і регулюється перш за все за рівнем релевантності й пертінентності в частині вдосконалення організації запитів користувачів, пошуку за параметрами, за рахунок кластеризації, пошуку за подобою, ранжуванням відгуків, використання «сюжетних підходів», всебічного використання семантичних методів (у тому числі із застосуванням автоматичного групування документів за класифікатором, автоматичним визначенням раніше незаданих або слабо структурованих документів, ранжування документів за змістовою релевантністю, автоматичного аналізу та змістовного перетворення запитів, виявлення семантично подібних документів на зразок порівнянню з еталоном - наприклад, з використанням матриці Александера).

Begin
2 3 Next>>
...
13 14 Last (15)


No comments:

Post a Comment

Популярное

Использование материалов сайта

Информация, представленная на сайте, может свободно использоваться и распространяться при обязательном указании активной прямой ссылки на сайт http://in-search-of-semantics.blogspot.com/, а тексты научных статей – при указании авторства и ссылки на бумажную публикацию.

При размещении текстов статей на своих сайтах, блогах и пр., пожалуйста, присылайте ссылки.
Комментарии перед публикацией предварительно модерируются.

Хотите сказать спасибо автору? Не откажусь :) - Поставьте ретвит на пост, или другую социальную закладку. Спасибо.