Социализируемся

Я в Google+ Я в Twitter Я в Facebook

Wednesday, April 21, 2010

Структурування та подання даних

Методи і засоби інформаційного пошуку в Semantic Web (продовження, стор. 10)




Wolfram Alpha (Система обчислювання знань, Computational Knowledge Engine, http://www.wolframalpha.com/, 2009). Цей амбіційний проект стартував 5 березня 2009 року. Творцем цього веб-сервісу є британський фізик Стівен Вольфрам (Stephen Wolfram), глава компанії Wolfram Research, розробник широко відомої в наукових колах програми Mathematica.
'We aim to collect and curate all objective data; implement every known model, method, and algorithm; and make it possible to compute whatever can be computed about anything. Our goal is to build on the achievements of science and other systematizations of knowledge to provide a single source that can be relied on by everyone for definitive answers to factual queries.'
- Stephen Wolfram (Докладніше про Нову наукову теорію Стівена Вольфрама дивись в його виступі на блозі).
Деякі називають Wolfram Alpha веб-поисковиком, але на відміну від традиційних пошуковиків, які обмежуються тим, що за запитом користувача видають список посилань на сайти, які повинні відповідати запиту, - сервіс Wolfram Alpha самостійно аналізує запити користувача і представляє йому зведену релевантну інформацію.
З огляду на прийняту класифікацію ця система є системою „запит-відповідь”. Автор позиціонує систему не як пошуковик (search engine), а як Computational Knowledge Engine ( «Систему Обчислювання Знання»), він каже: «Наша мета - зробити знання доступними всім, коли завгодно і де завгодно».
Ця система об'єднує обчислювальні потужності Mathematica з інструментами, які експліцитно оперують з усіма типами даних з тим щоб вони (дані) були негайно обчислюваними, щоб надати можливість "брати питання людей, виражені природною мовою, і представляти їх у точній формі, яку можна буде обробляти, а також керувати всіми нотатками, зробленими людьми з усіх можливих предметних галузей" [23]. Оскільки ця система є бізнес-застосуванням, докладного опису її функціювання, нажаль, знайти не вдалось.
IT-аналітики вже охрестили Wolfram Alpha «вбивцею Google» ( «Google Killer»), «інтелектуальним пошуковиком», «веб-пошуковиком нового покоління», «інтернет-генератором розумних відповідей».
Спочатку Wolfram Alpha працював у закритому (тестовому) режимі, а з 18 травня 2009 р. веб-сервіс вже відкритий для всіх бажаючих. За час закритого тестування було оброблено близько 23 млн. запитів, а за перший тиждень після відкриття - близько 100 млн. На сьогоднішній день Wolfram Alpha є безкоштовним веб-сервісом. Надалі планується розміщувати на сторінках проекту рекламу, а також пропонувати користувачам професійну версію з додатковими функціями за невелику плату.
Предметні області, які обробляються в системі – математика, фізика, хімія, астрономія, статистика та всілякі дані статистичного аналізу, дати та час, географія, погода, здоров`я та медицина, культура та медіа, музика та освіта, люди та історія, фінанси, лінгвістика і досягнення високих технологій, спорт тощо.
Система може [24]:
- переводити одиниці виміру з однієї системи в іншу;
- якщо задати зімічну формулу, система видасть основну інформацію про цю речовину / хімічний елемент;
- якщо ввести в рядок пошуку 1 apple + 1 orange, - система видасть кількість калорій, протеїнів, вітамінів, відсутність / наявність холестерину і т.д.;
- якщо ввести назву міста, то система видає наступну інформацію: де він знаходиться, кількість жителів, схематичне розташування на карті, поточний час, поточну температуру, вологість, швидкість вітру, стан хмарності, висоту над рівнем моря, найближчі міста (з відстанню до них і з кількістю мешканців у цих містах). Натиснувши на посилання „Show coordinates”, можна дізнатися координати міста. Натиснувши на посилання „Satellite image”, система завантажить знімки свого міста (буде завантажений сайт" Карти Google ");
- система виконує різні обчислення: якщо ввести в рядок пошуку, наприклад, $ 999 + 15%, Wolfram Alpha зробить необхідні обчислення;
- система надає інформацію про будь-який сайт. Якщо ввести в рядок пошуку URL сайту, система видасть детальну інформацію: хто є хостинг-провайдером, де він розташований, кількість переглядів і кількість візитерів за добу, site rank, найменування і розмір титульної сторінки, кількість вихідних посилань, кількість «зображень»;
- система може проводити не тільки найпростіші обчислення, але й вирішувати різні рівняння: якщо ввести, наприклад, x ^ 3 sin (x), система видасть рішення у вигляді графіка та в аналітичному вигляді;
- обробка музики - якщо ввести в рядок пошуку, наприклад, C Eb GC, то система надасть вичерпну інформацію про ці музичні ноти;
- обробка імен – якщо ввести два різних імені, наприклад, Vera, Natasha, - в результаті система видає статистичні дані, що свідчать про те, як часто використовуються ці імена;
- обробка фінансової інформації: система може надавати інформацію про економічний стан (наприклад, про наявність акціонерного капіталу, вартості однієї акції і т.д.) двох компаній, назви яких вводяться у пошуковий рядок з пробілом між назвами;
- обробка часової інформації: якщо ввести дату у форматі, наприклад, august 28, 1959, то система видасть, який це був день тижня, можна буде підрахувати, скільки часу (років, місяців, тижнів, днів) пройшло з цієї дати, хто з відомих людей народився в цей день, які свята припадають на цей день.
Для того, щоб дізнатися джерела інформації, які використовував Wolfram Alpha, унизу, під знайденої інформацією знаходиться кнопка „Source information”.
Всю інформацію, яку сгенерував («навольфраміл» - сленг) Wolfram Alpha, можна зберегти у вигляді PDF-файлу, натиснувши посилання (внизу) „Download as: PDF”.
Нажаль, система не обробляє тільки англомовні запити.

Google Squared
Google Squared (http://www.google.com/squared/) – цей новий експериментальний пошуковий механізм (experimental search tool) було заявлено 3 червня 2009 р.
На відміну від класичних - «традиційних» - пошукових систем, Google Squared не видає на запит користувача сторінку зі списком посилань на веб-ресурси, що відповідають запиту. В якості результатів пошуку на екран ПК користувача виводиться зведена таблиця з інформацією по запросу. Тобто Google Squared, як і сервіс Wolfram Alpha, самостійно аналізує (намагається аналізувати) запити користувача і представляє йому зведену релевантну інформацію.
В офіційному блозі пошукового гіганта сказано так: «... Іноді знайти інформацію легко. А іноді для збору необхідної інформації потрібно відвідати 10-20 сайтів, а потім ще потрібно структурувати знайдене ... Squared Google не шукає веб-сторінки за вашим запитом. Замість цього, він автоматично вибирає і організовує факти зі всього Інтернету» [25].
Google Squared дозволяє керувати вмістом результуючої зведеної таблиці: можна додавати до таблиці нові рядки і стовпчики, а зайві - видаляти. Крім того, можна додавати до зведеної таблиці дані з нового пошукового запиту.
Оскільки інформація збирається з різних джерел, для однієї комірки таблиці Google Squared може знайти відразу кілька значень. Відображається при цьому тільки одне значення, але користувач може при бажанні вибрати інше.
Як і Wolfram Alpha, сервіс Google Squared не підтримує українську та російську мови.
Порівняльне тестування Google Squared та Wolfram Alpha, наведене автором в червні 2009 р в [26] показує, що аналітичні характеристики і можливості системи Google Squared на даний час явно поступаються Wolfram Alpha.
Оскільки ця система також є комерційною, то знайти на даний час більш детальний опис алгоритмів та принципів роботи, нажаль, не уявляється можливим.

Sensebot
SenseBot Beta (http://www.sensebot.net/, початок проекту – 2008 р., на даний час бета-версія) заявлена як семантична пошукова система, яка на пошуковий запит генерує текстові анотації (резюме), складені з веб-сторінок, які відносяться до теми пошукового запиту. Ця система для вилучення змісту з веб-сторінок і представлення його користувачеві узгодженим чином використовує інтелектуальну обробку текстів (text mining) і мультидокументну сумарізацію (multidocument summarization). Разом з результатами система видає „семантичну хмару” концептів ("Semantic Cloud" of concepts), що дозволяє направити увагу та керувати результатами.
Оскільки SenseBot є семантичною пошуковою системою, це означає, що вона намагається зрозуміти семантику отриманих в результаті сторінок. Вона використовує, як було зазначено вище, інтелектуальну обробку текстів для розбору web-сторінок і визначення їх основних семантичних концептів. Після цього вона виконує мультидокументну сумарізацію змісту, в результаті чого генерується зв'язане резюме.
На верхньому рівні, система отримує джерела, які видаються як результат основною пошуковою системою. Після цього система виконує інтелектуальну обробку тексту, отриманого з кожного джерела, вилучаючи ключовї концепти. Подібності між джерелами оцінюються і ті, що семантично знаходяться далеко від запиту або не зв`язані з загальною масою знайдених джерел, відкидаються. Концептам присвоюється вага, а також задається преференційні значення для концептів, які представлені у запиті. Потім виконується відповідно до запатентованого алгоритму мультидокументна сумаризація - збір підсумкового документу, складеного з текстів резюме зі знайдених документів. Таким чином, на запит користувача фактичними результатами веб-пошуку є резюме, згенероване з знайдених документів.
Найкращі результати можуть бути досягнуті на множині текстових документів, які по суті знаходяться близько до заданої теми. Найкраща область застосування цієї системи, як зазначає її розробник, є вертикальні пошукові системи і портали - фінансові, медичні, правові, бібліотеки і т.д. Що стосується загального веб-пошуку, деяка кількість "шуму" неминуча, навіть для тих джерел, що знаходяться на перших сторінках результатів – які вважаються найбільш релевантними [27].


Begin
2 3 4 5 6 7 8 9 10 Next>>
...
13 14 Last (15)

No comments:

Post a Comment

Популярное

Использование материалов сайта

Информация, представленная на сайте, может свободно использоваться и распространяться при обязательном указании активной прямой ссылки на сайт http://in-search-of-semantics.blogspot.com/, а тексты научных статей – при указании авторства и ссылки на бумажную публикацию.

При размещении текстов статей на своих сайтах, блогах и пр., пожалуйста, присылайте ссылки.
Комментарии перед публикацией предварительно модерируются.

Хотите сказать спасибо автору? Не откажусь :) - Поставьте ретвит на пост, или другую социальную закладку. Спасибо.