Социализируемся

Я в Google+ Я в Twitter Я в Facebook

Wednesday, April 21, 2010

Базові поняття інформаційного пошуку

Методи і засоби інформаційного пошуку в Semantic Web (продовження, стор. 2)




Базові поняття інформаційного пошуку


Основним засобом передачі інформації в часі і просторі є документ. Документ визначається як засіб закріплення любим чином на спеціальному матеріалі любої (деякої) інформації про факти, події, явища об'єктивної дійсності і розумової діяльності людини. [3]. Документи мають різну форму подання. В автоматизованих інформаційно-пошукових системах це текстова інформація на природній мові. В повсякденному житті – це може бути друкована стаття, книга тощо. В інтернет це може бути малюнок, відео-ролик або сайт.

З точки зору теорії інформації документ – це змістовно закінчена одиниця інформації, яка представлена на якій-небудь природній мові, що ідентифікується унікальним чином.
Поняття інформаційного пошуку вперше запровадив в інформатиці американський математик Келвин Муерс в 1947 році. Інформаційним пошуком (ІП) називається деяка послідовність операцій, яка виконується з метою відшукання документів, які містять певну інформацію (з подальшою видачею цих документів або їх копій), або з метою видачі фактичних даних, які надають відповіді на задані питання.

Спонукальним приводом інформаційного пошуку, як було зазначено вище, є інформаційна потреба, яка виражена у формі інформаційного запиту. Об'єктами інформаційного пошуку можуть бути документи, відомості про їх наявність та/або місцезнаходження, фактографічна інформація.

Інформаційний запит представляє собой інформаційну потребу, яка сформульована на природній мові. Результат «перекладу» інформаційного запиту на інформаційно-пошукову мову (ІПМ) називають пошуковим образом запиту (ПОЗ). Синтаксис і семантика ІПМ визначається структурой і наповненням документів, та загальними задачами системи.
Інформаційний пошук розрізняють наступним чином:
  • в залежності від мети – адресний пошук (формально-механічний) та семантичний (тематичний),
  • в залежності від об'єкту пошуку – документний та фактографічний,
  • в залежності від ступіню використання технічних засобів – ручний або автоматизований,
  • в залежності від функціональної ролі – домінуючі/другорядні, центральні/периферичні, сталі/сітуативні потреби.
Усі види інформаційного пошуку перетинаються, тому що цілі та об'єкти часто взаємопов'язані. Наприклад, документний і фактографічний види пошуку можуть бути як адресними, так и семантичними.

Інформаційний пошук здійснюється за допомогою інформаційно-пошукових систем. Інформаційно-пошукова система (ІПС) – це комплекс пов'язаних між собою окремих частин, який призначений для виявлення в будь-якій множині елементів інформації, які відповідають заданому інформаційному запиту. Масив елементів інформації, в якому виконується інформаційний пошук, називається пошуковим масивом.

Інформаційно-пошукові системи розділяються на документальні та фактографічні. Документальні ІПС в відповідь на запит видають орігінали, копії або адреси місцезнаходження документів, що містять потрібну інформацію. Підклас документальних ІПС, які видають лише бібліографічні описи документів, що знайдені, іноді називаються бібліографічними ІПС.

На відміну від документальних ІПС фактографічні пошукові системи призначені для видачі беспосередньо необхідної информації (наприклад, температури кипіння якоїсь рідини, температури води в морі біля конкретного населеного пункту; структурних або молекулярних формул хімічних сполук, що мають певні властивості тощо).

Принципової відмінності між документальними і фактографічними ІПС немає. Головною ознакою, що поєднує документальні і фактографічні ІПС до одного загального класу є те, що на запити вони можуть видавати таку і тільки таку інформацію, яка була раніше в них введена. Кожна документальна ІПС (як ручна, так і автоматизована), містить наступні частини:
  • інформаційно-пошукова мова (ІПМ)
  • правила переводу текстів документу і запитів з природної мови на ІПМ,
  • формальні правила (алгоритми) пошуку,
  • технічні засоби, які реалізують алгоритми пошуку,
  • масив (множина) документів (або їх адрес), які записані на якихось носіях інформації (в сучасних пошукових системах інтернету - база індексу).
Інформаційний пошук здійснюється за певними правилами, які визначають стратегію пошуку, тобто способи досягнення оптимального результату. Стратегія інформаційного пошуку залежить від типу пошукової задачі, критеріїв видачі і характеру діалогу між споживачами інформації і ІПС.

В загальному вигляді процедура інформаційного пошуку складається з чотирьох етапів:
  • уточнення інформаційної потреби і формулювання запиту,
  •  визначення сукупності інформаційних масивів,
  • вилучення інформації з інформаційних масивів,
  • ознайомлення користувача з отриманою інформацією і оцінювання результатів пошуку.
Рис. 1. Загальний вигляд алгоритму пошуку.

Найбільш загальний вигляд алгоритму пошуку, що проводиться незалежно від форми носіїв і ступіню автоматизації, показан на Рис. 1.

Постановка пошукової проблеми. На цьому етапі користувач формулює точне визначення і фіксує то, що буде шукати і в якій області знань (предметній області – ПрО). Таким чином множина пошуку звужується визначеними межами.

Створення тезаурусу проблеми. На цьому етапі користувач створює (складає) перелік слів, які найбільш повно відображають ПрО або проблему, що була визначена. Як рекомендують спеціалісти з бібліографічного пошуку, цей перелік повинен мати приблизно 10-15 слів.
В залежності від поставленого завдання тезаурус може бути складений на декількох мовах, для пошуку серед вітчизняних та зарубіжних джерел інформації. Робота над тезаурусом ведеться весь час, і в процесі виявлення нових термінів вони тут же додаються до тезаурусу. Найбільш прийнятною є структура тезаурусу у вигляді семантичних зрізів. У цьому випадку для кожного основного терміну окремо будується таблиця для супутних та шумових слів. Шумових слів у джерелі бути не повинно. Тобто користувач отримує пакет таблиць, які можна окремо розширювати і модифікувати в ході пошуку.

Відбір джерел інформації для пошуку. Джерела інформації (масив) обираються виходячи з характеру проблеми (тобто де найбільш доступні та повно надані джерела) та можливостей користувача (доступ до інтернету, бібліотеки тощо).

Виконання пошуку засобами, які притаманні джерелу інформації. На цьому етапі користувач з тезаурусу складає пошукові запити і реалізує їх методами пошуку, які специфічні для даного ресурсу. В бібліотеці – це пошук в каталогах, якщо інформацією володіють люди або організації – пошук та звернення до них, у мережі Інтернет - використовуються пошукові машини та каталоги, телеконференції та списки розсилки, сайти та інше. Як формат так і семантика запитів варіюється в залежності від предметної області та використовуваного інформаційного ресурсу.
Як рекомендують спеціалісти з бібліографічного пошуку, запити необхідно складати таким чином, щоб область пошуку була максимально конкретизована та звужена. Необхідно віддавати перевагу декільком вузьким запитам ніж одному, але розширеному. В загальному випадку для кожного основного поняття з тезауруса готується окремий пакет запитів. Після чого проводиться пробне виконання запитів – для уточнення та доповнення тезаурусу, в тому числі для відсікання шумової інформації.

Оцінювання отриманих результатів пошуку. В результаті пошуку користувач отримує результуючу множину документів, які надалі необхідно проаналізувати і вирішити наскільки повно вони покривають поставлену пошукову проблему.
Перелік ресурсів, отриманих в результаті запиту, рекомендується обробляти в два етапи. На першому етапі відсікаються вочевидь нерелевантні джерела і знову ж таки проводиться семантичний аналіз з метою уточнення тезаурусу та модифікації подальших запитів. На другому етапі обробки користувач послідовно вивчає кожен з знайдених ресурсів для безпосереднього аналізу інформації, що знаходиться в них. У процесі аналізу отриманої інформації, її треба:
  • оцінити (за ступенем вірогідності, важливості, таємності, пов'язаності між собою, можливості використання);
  • інтерпретувати (в світлі інших даних і глибинної інтуїції), виявивши її місце в загальній мозаїці фактів;
  • визначити, чи потрібна (і яка) додаткова інформація;
  • ефективно використати (врахувати у своїх планах, передати кому слід, притримати до потрібного моменту).
Прийняття рішення про продовження (закінчення) пошуку. Якщо, оцінюючи результати пошуку, користувач прийшов до висновку, що необхідна інформація знайдена вся, тоді пошук можна припиняти - подальші пошуки будуть зайвою тратою дорогоцінного часу. У зворотній ситуації (неповні відомості) користувачеві доведеться приймати рішення про те, на якому з етапів була допущена помилка, і спробувати виправити її, після чого повторити процес пошуку з цього місця заново. В цьому випадку можливі три варіанти: невірно складений тезаурус проблеми, невірно обране інформаційне джерело або користувач скористався недоцільними методами пошуку (наприклад, виконував пошук суто наукової інформації - статті за допомогою загальновикористовуваного пошукового інтернет-сервісу).
Такі ітерації необходно повторювати, поки не буде досягнуто позитивного результату. При цьому існує стовідсотково методологічна проблема – при ефективному пошуку завжди стоять два суперечливих завдання: збільшення охоплення з метою отримання максимальної кількості значимої інформації та зменшення охоплення з метою мінімізування обсягу шумової інформації. І найскладніше, як завжди, знайти золоту середину. [4]

Найбільш ефективним методом пошуку документів, які містять наукову інформацію є вивчення (прочитання) кожного окремого документу. Зрозуміло, що такий спосіб практично неможливий, оскільки кількість документів, як правило, буває занадто великим, щоб всі їх можна було прочитати при кожному інформаційному запиті. Тому доводиться використовувати інший, менш ефективний метод, при якому ІП здійснюється не за самими текстами документів (умістом), а за краткими характеристиками змісту або певними зовнішніми ознаками документів. Для цього кожен документ забезпечується пошуковим образом документа (ПОД) - характеристикою, в якій стисло виражається основний зміст документу. Як було зазначено вище, інформаційний запит також повинен бути сформульований у вигляді такої ж короткої характеристики - пошукового образу запиту (ПОЗ). Завдяки цьому процедура ІП зводиться до зіставлення ПОД з заданим ПОЗ. Якщо ПОД з необхідною і достатньою мірою збігається з ПОЗ, вважається, що цей документ відповідає на інформаційний запит. Таке зіставлення виправдане лише тоді, коли пошуковий образ і пошукове запит формулюються в термінах однієї мови, та ще такого, в якому кожна фраза допускає одне й тільки одне тлумачення.
ПОД містить загальний оспис умісту документу. Тому такий метод не може забезпечити знайдення в бібліотеці всіх документів, які містять потрібну інформацію. Крім того, в масиві знайдених документів можуть бути такі, що фактично не відповідають даному інформаційному запиту. Такі документи створюють “пошуковий шум”.

Важливо пом'ятати, що інформація, яка міститься в наукових документах, об'єктивно підпорядковується закону розсіювання. Повнота і точність пошуку являють собою конкуруючі показники: підвищення одного з них веде до зниження іншого. Збільшуючи повноту пошуку, ми неминуче зменшуємо його точність і навпаки, збільшуючи точність пошуку, зменшуємо його повноту.

Ефективність інформаційного пошуку визначають показники, які характеризують знаходження релевантних документів. Вони підрозділяються на семантичні (точність та повнота пошуку, коефіцієнт інформаційного шуму, коефіцієнт втрат тощо) та техніко-економічні (оперативність пошуку, вартість та трудоємність пошуку).

Відповідність знайдених в процесі інформаційного пошуку знань або даних інформаційній потребі користувача (в часному випадку - інформаційному запиту) називається пертинентністю. Змістовна відповідність відображуваного результату його запиту за формальними (синтаксичними, морфологічними) ознаками називається релевантністю.

З проблемою інформаційного пошуку першими зіткнулися бібліотекарі. Для того, щоб читачі могли знаходити в фондах бібліотеки цікавлячі їх документи, в ній створювалися різні каталоги та вказівники. В одній з найбільших бібліотек давнини – в Александрійській бібліотеці – в 47 р. до н.е. нараховувалось біля 700 тис. томів (свитків папірусу). Складений Калімахом каталог до фондів цієї бібліотеки (приблизно в 250 р. до н.е.) мав об'єм 120 томів. В якості основних елементів книгоопису в цьому каталозі використовувалися им'я автора та назва (заголовок) твору. Якщо твір не мав назви, то Калімах приводив його початкові строки.

Простішим ПОД є його заголовок. Спираючись на заголовок книги або статті читач в більшості випадків може судити про те, чи представляє для нього інтерес ця книга або стаття і чи варто з нею ознайомитися докладніше.

Анотацію та реферат документу також можна вважати його пошуковими образами. Зі збільшенням обсягу реферативних журналів кількість анотацій та рефератів, що містяться в них, стало настільки великим, що реферативні журнали довелося забезпечувати додатковим довідковим апаратом - системою покажчиків, які значно полегшують для читачів рішення інформаційно-пошукових задач. Таким чином, реферативні журнали, а також реферативні журнали з системою покажчиків - це найпростіші документальні ІПС, розраховані на індивідуальне використання.

Існує три основних типи інформаційно-пошукових задач:
  • ретроспективний інформаційних пошук, тобто пошук вже існуючих документів (всіх або частини), які містять відомості про певне питання,
  • термінове сповіщення окремих спеціалістів (абонентів) про публікації, які мають для них потенційний інтерес. Даний тип інформаційного пошуку називається виборчим (адресним) розподілом інформації. Він виконується за постійними інформаційними запитами (так званими “профілями інтересів”), які формуються самими споживачами. Це окремий випадок інформаційного пошуку,
  • пошук імен спеціалістів, які володіють інформацією з певного питання.

Begin 2 Next>> 4 5 6 7 8 9 10 11 12 13 14 Last (15)

No comments:

Post a Comment

Популярное

Использование материалов сайта

Информация, представленная на сайте, может свободно использоваться и распространяться при обязательном указании активной прямой ссылки на сайт http://in-search-of-semantics.blogspot.com/, а тексты научных статей – при указании авторства и ссылки на бумажную публикацию.

При размещении текстов статей на своих сайтах, блогах и пр., пожалуйста, присылайте ссылки.
Комментарии перед публикацией предварительно модерируются.

Хотите сказать спасибо автору? Не откажусь :) - Поставьте ретвит на пост, или другую социальную закладку. Спасибо.