В поисках семантики: June 2011

На пути к Semantic Web. Microdata.
(Также полезно для SEO, семантическое ядро сайта, семантическая разметка сайта)

Одним из важных шагов к достижению Семантического Веба (Semantic Web) с времен разработки RDF, стало создание лидерами поисковой индустрии Google, Bing и Yahoo! ресурса schema.org. Schema.org является вендорной спецификацией набора из около 300 мини-схем (или структурированных мета-данных), которые можно использовать для разметки (тегирования) информации, представленной на веб-страницах. Эти схемы организованы в небольшую стройную иерархию и покрывают (охватывают) множество популярных предметных областей (ПрО) – от представления организаций, отдельных людей и до продуктов, товаров и творческой деятельности – то, про что можно написать и охарактеризовать и опубликовать в вебе.

Эти спецификации схем данных основаны на стандартах микроданных (microdata), входящих в состав спецификации HTML5. Микроданные – это набор записей, содержащих описания, представленных парами ключ-значение (тег-значение), который можно включать (внедрять) (embedded) в html-код веб-страницы. Эти схемы микроданных подобны микроформатам, однако они шире в покрытии тем и более расширяемы. Помимо этого, микроданные проще, чем RDFa – другой спецификации W3C, которую организаторы schema.org называют “… расширяемым и очень выразительным, но значительная сложность языка является причиной медленного принятия общественностью».

(Про микроформаты и микроданные, инструментарий от Яндекса, Гугла и т.п.)

Появление микроданных вызвало большую бурю в научном сообществе о том, что эта инициатива нивелирует труд десятилетий по развитию и популяризации RDF и RDFa. На наш взгляд, эта инициатива не является отказом от RDF, а есть логичное развитие идей семантического веба с учетом развития, достижений и изменения уровня понимания проблемы и накопленных знаний.

RDF и его модель представления данных тройками есть простейший и наиболее выразительный способ представления любых данных и связей между данными. Поэтому, RDF и его развития, такие как OWL и онтологии, предоставляет ясную и гибкую каноническую модель данных для представления существующих данных или схем данных. Вне зависимости от исходной формы исходной информации, ее можно разбить, выделить и представить в формате RDF, а также связать с любой другой информацией. Поэтому часто RDF называют универсальным языком представления данных.

Однако зачастую простейшие данные не нуждаются в сложности RDF. Научное сообщество W3C не раз аргументированно заявляло о важности „наивных” структур представления данных. Большинство из таких типов представляют собой простые пары ключ-значение, а объект высказывания предполагается. К этому типу относятся и структурированные записи в Википедии, называемые инфобоксами (infoboxes). Также простые форматы данных имеют JSON и много других простейших форматов данных.

Основным является утверждение, что RDF предоставляет универсальную модель данных для любого вида данных, а также средство обмена данными. Получившие распространение форматы обмена данными, в отличие от RDF, легко понимаемы, легко выразимы и, следовательно, получили широкое применение. Заявка про использование микроданных лидерами поисковых систем веба означает реальное изменение в возможностях и выразительности структурированных данных, представленных в вебе. Количество структурированной информации резко возрастет.

Чем больше появляется структурированной информации, тем больше получает распространение, внимание и развитие применение RDF, который, с наступлением своего времени, будет использоваться повсеместно для взаимодействия с этими данными. Скоро должны появиться множество утилит, инструментов и сервисов, позволяющих автоматически добавлять такие структуры (структурированные данные) к веб-страницам с помощью одного клика.

Google все больше внимания уделяет структурированным данным. С каждым днем все больше структурированных данных появляется в результатах выдачи Google; компания запустила очень активную программу по извлечению структурированных данных из текстовых данных и таблиц. Google видит, что поисковые потребности постепенно отходят от поиска по ключевм словам к структурам, взаимосвязям, а также фильтрации и таргетировании результатов. Эти преимущества и возможности вытекают из структур, так же как и семантические взаимосвязи между сущностями.

Многие задаются вопросом, почему Google проталкивает микроданные, а не микроформаты или RDFa или более ранние их варианты. Конечно, Google имеет коммерческие интересы в расширении и увеличении полезности веба. Заявив об использовании микроданных, которые проще в понимании и использовании рядовыми пользователями, поисковые магнаты способствуют ускорению публикации таких данных в вебе, генерированию таких данных и т.п. В дальнейшем, когда придет время и количество опубликованных структурированных данных достигнет необходимого количества (т.е. Структурированный веб начнет становиться семантическим), эти монстры откажутся от них и перейдут к более универсальному, гибкому и продуманному RDF.

Модель данных заявленных микроданных достаточно общая и получена из RDF Schema (которая в свою очередь получена из Cycl) (Data Model, http://www.schema.org/docs/datamodel.html).

Она содержит:

набор типов, организованных в иерархию множественного наследования, где каждый тип может быть подклассом множества классов.
набор свойств, где:

- - каждое свойство может иметь одно или более типов в качестве доменов (domain). Свойство может использоваться для экземпляров любого из этих типов.

- - каждое свойство может иметь одно или более типов в качестве диапазонов (range). Значение/я свойства должны быть экземплярами как минимум одного из этих типов.

Выбор решения разрешить использовать множественные домены и диапазоны носит чисто прагматический характер. Поскольку вычислительные свойства систем с одним доменов и диапазоном проще в понимании, на практике, это будет способствовать созданию множества искуственных типов, которые могут быть использованы напрямую как домены или диапазоны некоторых свойств.

Микроданные, по заявлению авторов, имеют отображение на RDFa – RDFa версии 1.1 разметки «почти» изоморфно версии микроданных. Схема микроданных имеет описание в OWL-формате.

Иерархия типов, представленная на сайте, как заявляют авторы, не направлена стать глобальной онтологией мира. Она только охватывает типы сущностей, которые по мнению организаторов (Microsoft, Yahoo! и Google) могут представлять интерес и быть обработанными их поисковыми системами в ближайшем будущем.

Основным девизом этого начинания, можно сказать, является фраза с сайта schema.org:

In the spirit of "some data is better than none", we will accept this markup and do the best we can.

Имхо, судя по всему, заявление о поддержке микроданных и появлении schema.org является отправной вехой на пути к Semantic Web.

По материалам сайта schema.org и обсуждений научного сообщества Semantic Web.

Год назад Microsoft предлагала свои облака - и в аренду, как сервис, публичные и приватные, на территории своих супербронированных датацентров. Теперь IBM предлагает купить коробочный вариант программно-аппаратного комплекса приватного облака "под ключ", с биллингом, статистикой и т.п.

После семинара IBM, где так и не стало понятным, что такое облака и облачные вычисления, пришлось поискать литературу.

Итак, лучшие книги (по отзывам в инете) по Облачным вычислениям:

	Cloud Computing Explained: Implementation Handbook for Enterprises Один из читателей пишет: "First book anyone need to read"
	Cloud Computing and SOA Convergence in Your Enterprise: A Step-by-Step Guide
	Cloud Application Architectures
	Enterprise Cloud Computing: A Strategy Guide for Business and Technology Leaders
	Cloud Computing Bible
	Cloud Computing For Dummies