На пути к Semantic Web. Microdata.
(Также полезно для SEO, семантическое ядро сайта, семантическая разметка сайта)
(Про микроформаты и микроданные, инструментарий от Яндекса, Гугла и т.п.)
Появление микроданных вызвало большую бурю в научном сообществе о том, что эта инициатива нивелирует труд десятилетий по развитию и популяризации RDF и RDFa. На наш взгляд, эта инициатива не является отказом от RDF, а есть логичное развитие идей семантического веба с учетом развития, достижений и изменения уровня понимания проблемы и накопленных знаний.
Многие задаются вопросом, почему Google проталкивает микроданные, а не микроформаты или RDFa или более ранние их варианты. Конечно, Google имеет коммерческие интересы в расширении и увеличении полезности веба. Заявив об использовании микроданных, которые проще в понимании и использовании рядовыми пользователями, поисковые магнаты способствуют ускорению публикации таких данных в вебе, генерированию таких данных и т.п. В дальнейшем, когда придет время и количество опубликованных структурированных данных достигнет необходимого количества (т.е. Структурированный веб начнет становиться семантическим), эти монстры откажутся от них и перейдут к более универсальному, гибкому и продуманному RDF.
(Также полезно для SEO, семантическое ядро сайта, семантическая разметка сайта)
Одним из важных шагов к достижению Семантического Веба (Semantic Web) с времен разработки RDF, стало создание лидерами поисковой индустрии Google, Bing и Yahoo! ресурса schema.org. Schema.org является вендорной спецификацией набора из около 300 мини-схем (или структурированных мета-данных), которые можно использовать для разметки (тегирования) информации, представленной на веб-страницах. Эти схемы организованы в небольшую стройную иерархию и покрывают (охватывают) множество популярных предметных областей (ПрО) – от представления организаций, отдельных людей и до продуктов, товаров и творческой деятельности – то, про что можно написать и охарактеризовать и опубликовать в вебе.
Эти спецификации схем данных основаны на стандартах микроданных (microdata), входящих в состав спецификации HTML5. Микроданные – это набор записей, содержащих описания, представленных парами ключ-значение (тег-значение), который можно включать (внедрять) (embedded) в html-код веб-страницы. Эти схемы микроданных подобны микроформатам, однако они шире в покрытии тем и более расширяемы. Помимо этого, микроданные проще, чем RDFa – другой спецификации W3C, которую организаторы schema.org называют “… расширяемым и очень выразительным, но значительная сложность языка является причиной медленного принятия общественностью».
(Про микроформаты и микроданные, инструментарий от Яндекса, Гугла и т.п.)
Появление микроданных вызвало большую бурю в научном сообществе о том, что эта инициатива нивелирует труд десятилетий по развитию и популяризации RDF и RDFa. На наш взгляд, эта инициатива не является отказом от RDF, а есть логичное развитие идей семантического веба с учетом развития, достижений и изменения уровня понимания проблемы и накопленных знаний.
RDF и его модель представления данных тройками есть простейший и наиболее выразительный способ представления любых данных и связей между данными. Поэтому, RDF и его развития, такие как OWL и онтологии, предоставляет ясную и гибкую каноническую модель данных для представления существующих данных или схем данных. Вне зависимости от исходной формы исходной информации, ее можно разбить, выделить и представить в формате RDF, а также связать с любой другой информацией. Поэтому часто RDF называют универсальным языком представления данных.
Однако зачастую простейшие данные не нуждаются в сложности RDF. Научное сообщество W3C не раз аргументированно заявляло о важности „наивных” структур представления данных. Большинство из таких типов представляют собой простые пары ключ-значение, а объект высказывания предполагается. К этому типу относятся и структурированные записи в Википедии, называемые инфобоксами (infoboxes). Также простые форматы данных имеют JSON и много других простейших форматов данных.
Основным является утверждение, что RDF предоставляет универсальную модель данных для любого вида данных, а также средство обмена данными. Получившие распространение форматы обмена данными, в отличие от RDF, легко понимаемы, легко выразимы и, следовательно, получили широкое применение. Заявка про использование микроданных лидерами поисковых систем веба означает реальное изменение в возможностях и выразительности структурированных данных, представленных в вебе. Количество структурированной информации резко возрастет.
Чем больше появляется структурированной информации, тем больше получает распространение, внимание и развитие применение RDF, который, с наступлением своего времени, будет использоваться повсеместно для взаимодействия с этими данными. Скоро должны появиться множество утилит, инструментов и сервисов, позволяющих автоматически добавлять такие структуры (структурированные данные) к веб-страницам с помощью одного клика.
Google все больше внимания уделяет структурированным данным. С каждым днем все больше структурированных данных появляется в результатах выдачи Google; компания запустила очень активную программу по извлечению структурированных данных из текстовых данных и таблиц. Google видит, что поисковые потребности постепенно отходят от поиска по ключевм словам к структурам, взаимосвязям, а также фильтрации и таргетировании результатов. Эти преимущества и возможности вытекают из структур, так же как и семантические взаимосвязи между сущностями.
Модель данных заявленных микроданных достаточно общая и получена из RDF Schema (которая в свою очередь получена из Cycl) (Data Model, http://www.schema.org/docs/datamodel.html).
Она содержит:
- набор типов, организованных в иерархию множественного наследования, где каждый тип может быть подклассом множества классов.
- набор свойств, где:
- - каждое свойство может иметь одно или более типов в качестве доменов (domain). Свойство может использоваться для экземпляров любого из этих типов.
- - каждое свойство может иметь одно или более типов в качестве диапазонов (range). Значение/я свойства должны быть экземплярами как минимум одного из этих типов.
Выбор решения разрешить использовать множественные домены и диапазоны носит чисто прагматический характер. Поскольку вычислительные свойства систем с одним доменов и диапазоном проще в понимании, на практике, это будет способствовать созданию множества искуственных типов, которые могут быть использованы напрямую как домены или диапазоны некоторых свойств.
Микроданные, по заявлению авторов, имеют отображение на RDFa – RDFa версии 1.1 разметки «почти» изоморфно версии микроданных. Схема микроданных имеет описание в OWL-формате.
Иерархия типов, представленная на сайте, как заявляют авторы, не направлена стать глобальной онтологией мира. Она только охватывает типы сущностей, которые по мнению организаторов (Microsoft, Yahoo! и Google) могут представлять интерес и быть обработанными их поисковыми системами в ближайшем будущем.
Основным девизом этого начинания, можно сказать, является фраза с сайта schema.org:
In the spirit of "some data is better than none", we will accept this markup and do the best we can.
Имхо, судя по всему, заявление о поддержке микроданных и появлении schema.org является отправной вехой на пути к Semantic Web.
По материалам сайта schema.org и обсуждений научного сообщества Semantic Web.
No comments:
Post a Comment