Социализируемся

Я в Google+ Я в Twitter Я в Facebook

Friday, June 24, 2011

Microdata4Google

На пути к Semantic Web. Microdata.
(Также полезно для SEO, семантическое ядро сайта, семантическая разметка сайта)

Одним из важных шагов к достижению Семантического Веба (Semantic Web) с времен разработки RDF, стало создание лидерами поисковой индустрии Google, Bing и Yahoo! ресурса schema.org. Schema.org является вендорной спецификацией набора из около 300 мини-схем (или структурированных мета-данных), которые можно использовать для разметки (тегирования) информации, представленной на веб-страницах. Эти схемы организованы в небольшую стройную иерархию и покрывают (охватывают) множество популярных предметных областей (ПрО) – от представления организаций, отдельных людей и до продуктов, товаров и творческой деятельности – то, про что можно написать и охарактеризовать и опубликовать в вебе.

Эти спецификации схем данных основаны на стандартах микроданных (microdata), входящих в состав спецификации HTML5. Микроданные – это набор записей, содержащих описания, представленных парами ключ-значение (тег-значение), который можно включать (внедрять) (embedded) в html-код веб-страницы. Эти схемы микроданных подобны микроформатам, однако они шире в покрытии тем и более расширяемы. Помимо этого, микроданные проще, чем RDFa – другой спецификации W3C, которую организаторы schema.org называют “… расширяемым и очень выразительным, но значительная сложность языка является причиной медленного принятия общественностью».

(Про микроформаты и микроданные, инструментарий от Яндекса, Гугла и т.п.)

Появление микроданных вызвало большую бурю в научном сообществе о том, что эта инициатива нивелирует труд десятилетий по развитию и популяризации RDF и RDFa. На наш взгляд, эта инициатива не является отказом от RDF, а есть логичное развитие идей семантического веба с учетом развития, достижений и изменения уровня понимания проблемы и накопленных знаний.

RDF и его модель представления данных тройками есть простейший и наиболее выразительный способ представления любых данных и связей между данными. Поэтому, RDF и его развития, такие как OWL и онтологии, предоставляет ясную и гибкую каноническую модель данных для представления существующих данных или схем данных. Вне зависимости от исходной формы исходной информации, ее можно разбить, выделить и представить в формате RDF, а также связать с любой другой информацией. Поэтому часто RDF называют универсальным языком представления данных.

Однако зачастую простейшие данные не нуждаются в сложности RDF. Научное сообщество W3C не раз аргументированно заявляло о важности наивных структур представления данных. Большинство из таких типов представляют собой простые пары ключ-значение, а объект высказывания предполагается. К этому типу относятся и структурированные записи в Википедии, называемые инфобоксами (infoboxes). Также простые форматы данных имеют JSON и много других простейших форматов данных.

Основным является утверждение, что RDF предоставляет универсальную модель данных для любого вида данных, а также средство обмена данными. Получившие распространение форматы обмена данными, в отличие от RDF, легко понимаемы, легко выразимы и, следовательно, получили широкое применение. Заявка про использование микроданных лидерами поисковых систем веба означает реальное изменение в возможностях  и выразительности структурированных данных, представленных в вебе. Количество структурированной информации резко возрастет.

Чем больше появляется структурированной информации, тем больше получает распространение, внимание и развитие применение RDF, который, с наступлением своего времени, будет использоваться повсеместно для взаимодействия с этими данными. Скоро должны появиться множество утилит, инструментов и сервисов, позволяющих автоматически добавлять такие структуры (структурированные данные) к веб-страницам с помощью одного клика. 

Google все больше внимания уделяет структурированным данным. С каждым днем все больше структурированных данных появляется в результатах выдачи Google; компания запустила очень активную программу по извлечению структурированных данных из текстовых данных и таблиц. Google видит, что поисковые потребности постепенно отходят от поиска по ключевм словам к структурам, взаимосвязям, а также фильтрации и таргетировании результатов. Эти преимущества и возможности вытекают из структур, так же как и семантические взаимосвязи между сущностями.

Многие задаются вопросом, почему Google проталкивает микроданные, а не микроформаты или RDFa или более ранние их варианты. Конечно, Google имеет коммерческие интересы в расширении и увеличении полезности веба. Заявив об использовании микроданных, которые проще в понимании и использовании рядовыми пользователями, поисковые магнаты способствуют ускорению публикации таких данных в вебе, генерированию таких данных и т.п. В дальнейшем, когда придет время и количество опубликованных структурированных данных достигнет необходимого количества (т.е. Структурированный веб начнет становиться семантическим), эти монстры откажутся от них и перейдут к более универсальному, гибкому и продуманному RDF
Модель данных заявленных микроданных достаточно общая и получена из RDF Schema (которая в свою очередь получена из Cycl) (Data Model, http://www.schema.org/docs/datamodel.html).

Она содержит:
    1. набор типов, организованных в иерархию множественного наследования, где каждый тип может быть подклассом множества классов.
    2. набор свойств, где:
-         - каждое свойство может иметь одно или более типов в качестве доменов (domain). Свойство может использоваться для экземпляров любого из этих типов.
-         - каждое свойство может иметь одно или более типов в качестве диапазонов (range). Значение/я свойства должны быть экземплярами как минимум одного из этих типов.

Выбор решения разрешить использовать множественные домены и диапазоны носит чисто прагматический характер. Поскольку вычислительные свойства систем с одним доменов и диапазоном проще в понимании, на практике, это будет способствовать созданию множества искуственных типов, которые могут быть использованы напрямую как домены или диапазоны некоторых свойств.

Микроданные, по заявлению авторов, имеют отображение на RDFa RDFa версии 1.1 разметки «почти» изоморфно версии микроданных. Схема микроданных имеет описание в OWL-формате.

Иерархия типов, представленная на сайте, как заявляют авторы, не направлена стать глобальной онтологией мира. Она только охватывает типы сущностей, которые по мнению организаторов (Microsoft, Yahoo! и Google) могут представлять интерес и быть обработанными их поисковыми системами в ближайшем будущем.

Основным девизом этого начинания, можно сказать, является фраза с сайта schema.org:
In the spirit of "some data is better than none", we will accept this markup and do the best we can.

Имхо, судя по всему, заявление о поддержке микроданных и появлении schema.org является отправной вехой на пути к Semantic Web.
По материалам сайта schema.org и обсуждений научного сообщества Semantic Web.     

Friday, June 3, 2011

The best books on Cloud Computing

Год назад Microsoft предлагала свои облака - и в аренду, как сервис, публичные и приватные, на территории своих супербронированных датацентров. Теперь IBM предлагает купить коробочный вариант программно-аппаратного комплекса приватного облака "под ключ", с биллингом, статистикой и т.п.

После семинара IBM, где так и не стало понятным, что такое облака и облачные вычисления, пришлось поискать литературу.

Итак, лучшие книги (по отзывам в инете) по Облачным вычислениям:


Cloud Computing Explained: Implementation Handbook for Enterprises


Один из читателей пишет: "First book anyone need to read"
Cloud Computing and SOA Convergence in Your Enterprise: A Step-by-Step Guide
Cloud Application Architectures
Enterprise Cloud Computing: A Strategy Guide for Business and Technology Leaders
Cloud Computing Bible
Cloud Computing For Dummies

Another one list:
Best Science Books 2010: Cloud Computing
and
The best books on cloud computing

    

Популярное

Использование материалов сайта

Информация, представленная на сайте, может свободно использоваться и распространяться при обязательном указании активной прямой ссылки на сайт http://in-search-of-semantics.blogspot.com/, а тексты научных статей – при указании авторства и ссылки на бумажную публикацию.

При размещении текстов статей на своих сайтах, блогах и пр., пожалуйста, присылайте ссылки.
Комментарии перед публикацией предварительно модерируются.

Хотите сказать спасибо автору? Не откажусь :) - Поставьте ретвит на пост, или другую социальную закладку. Спасибо.