Семантическая паутина

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

Семанти́ческая паути́на (англ. Semantic Web) — это общедоступная глобальная семантическая сеть, формируемая на базе Всемирной паутины путём стандартизации представления информации в виде, пригодном для машинной обработки.

В обычной Всемирной паутине, основанной на HTML-страницах, информация заложена в тексте страниц и предназначена для чтения и понимания человеком. Семантическая паутина состоит из машинно-читаемых элементов — узлов семантической сети, с опорой на онтологии. Благодаря этому, программы-клиенты получают возможность непосредственно получать из интернета утверждения вида «предмет — вид взаимосвязи — другой предмет» и вычислять по ним логические заключения. Семантическая паутина работает параллельно с обычной Всемирной паутиной и на её основе, используя протокол HTTP и идентификаторы ресурсов URI.

Название «Семантическая паутина» был впервые введено сэром Тимом Бернерсом-Ли (изобретателем Всемирной паутины) в сентябре 1998 года[1], и называется им «следующим шагом в развитии Всемирной паутины». Позже в своём блоге он предложил[2] в качестве синонима термин Гигантский глобальный граф (Giant Global Graph, GGG, по аналогии с WWW). Концепция Семантической паутины была принята и продвигается Консорциумом Всемирной паутины[3].

Основная идея[править | править вики-текст]

Семантическая паутина — это надстройка над существующей Всемирной паутиной, придуманная чтобы делать размещаемую в Интернете информацию пригодной не только для прочтения человеком, но и пригодной для автоматического анализа, синтеза выводов и преобразования как самих данных так и сделанных на их основании заключений в различные практически полезные представления.

Машинная обработка возможна в Семантической паутине благодаря ее двум важнейшим характеристикам:

Граф визитной карточки основателя Википедии в формате RDF. Элементы этого графа — как узлы, так и дуги (кроме литерала, изображённого в оранжевом прямоугольнике[4]) — являются URI.
  • Повсеместному использованию унифицированных идентификаторов ресурсов (URI), широко известных как адреса. Традиционно в Интернете эти идентификаторы используются для установки ссылок на адресуемый объект (например, веб-страницу, файл или ящик электронной почты). В Семантической паутине URI формируют ещё и для именования объектов, включаемых в глобальную семантическую сеть, то есть каждый используемый в ней URI однозначно называет некоторый объект. Свои URI в Семантической паутине есть не только у страниц, но и у объектов реального мира (людей, городов, художественных произведений и так далее), и даже у абстрактных понятий (например, у свойств «имя», «должность», «цвет»). Поскольку URI глобально уникальны, они позволяют одинаково называть одни и те же предметы в разных местах Семантической паутины, таким образом дополняя общемировое описание этого предмета относящейся к нему информацией. Рекомендуется делать адрес предмета опирающимся на один из протоколов Всемирной паутины (HTTP или HTTPS, то есть чтобы адрес начинался с http:// или https://). В этом случае его можно одновременно использовать и как адрес для получения веб-страницы, которая по рекомендациям W3C, должна быть доступна, и содержать описание этого предмета. Описание это желательно предоставлять как в человеко-читаемом варианте, так и в машинно-читаемом виде[5].
  • Использованию семантических сетей и онтологий. Во Всемирной паутине данные, как правило, представлены в виде текстового содержимого, которое прежде всего предназначено для восприятия человеком, и методы автоматической обработки таких данных вынужденно основаны на частотном и лексическом анализе. В Семантической паутине для представления данных предлагается стандарт RDF, описывающий семантические сети (графы), в которых узлы и дуги имеют URI. Утверждения, кодируемые с помощью RDF, в дальнейшем можно интерпретировать с помощью онтологий, созданных по стандартам RDF Schema и OWL, чтобы получать из них логические заключения. В основе онтологий лежат математические формализмы, называемые дескрипционными логиками.

Архитектура[править | править вики-текст]

Стек понятий Семантической паутины

Техническую часть Семантической паутины составляет семейство стандартов на языки описания, включающее XML, XML Schema, RDF, RDF Schema, OWL, а также некоторые другие. Располагая их в порядке повышения уровня абстракции, реализуемого тем или иным языком, получаем:

  • XML предоставляет синтаксис для определения структуры документа, подлежащего машинной обработке. Синтаксис XML не несёт семантической нагрузки.
  • XML Schema определяет ограничения на структуру XML-документа. Стандартный синтаксический анализатор языка XML в состоянии проверить произвольный XML-документ на соответствие его структуры так называемой схеме документа, описанной в XML Schema.
  • RDF представляет собой простой способ описания экземплярных данных в формате субъект-отношение-объект, в котором в качестве любого элемента этой тройки используются только идентификаторы ресурсов. Существует стандартизованное отображение этих троек на XML-документы предопределённой структуры (то есть консорциумом W3 определена схема XML-документов, содержащих RDF-описания), а также на другие форматы представления (например, в нотацию N3).
  • RDF Schema описывает набор атрибутов (здесь их точнее назвать отношениями), таких, как rdfs:Class, для определения новых типов RDF-данных. Языком поддерживается также отношение наследования типов rdfs:subClassOf.
  • OWL расширяет возможности по описанию новых типов (в частности, добавлением перечислений), а также позволяет описывать новые типы данных RDF Schema в терминах уже существующих (например, определять тип, являющийся пересечением или объединением двух существующих).
  • Микроданные (HTML microdata) — это международный стандарт семантической разметки HTML-страниц, с помощью атрибутов, описывающих смысл информации, содержащейся в тех или иных HTML-элементах. Такие атрибуты делают контент страниц машиночитаемым, то есть позволяют в автоматическом режиме находить и извлекать нужные данные.

Логический вывод[править | править вики-текст]

Форматы описания метаданных в Семантической паутине предполагают проведение логического вывода на этих метаданных, и разрабатывались с оглядкой на существующие математические формализмы в этой области. Формализм, лежащий в основе формата, даёт возможность делать заключения о свойствах программ, обрабатывающих данные в этом формате.

Особенно сильно это относится к языку OWL. Базовым формализмом для него являются дескрипционные логики, а сам язык разбит на три вложенных подмножества (в порядке вложенности): OWL Lite, OWL DL и OWL Full[6]. Доказано[7], что логический вывод на метаданных с выразительностью OWL Lite выполняется за полиномиальное время (другими словами, задача вывода принадлежит к классу P). OWL DL описывает максимальное обладающее разрешимостью подмножество дескрипционных логик, но некоторые запросы по таким данным могут требовать экспоненциального времени выполнения. OWL Full реализует все существующие конструкторы дескрипционных логик за счёт отказа от обязательной разрешимости запросов.

Простая структура предикатов языка RDF, в свою очередь, позволяет использовать при его обработке опыт из теорий логических баз данных, логики предикатов и т. д.

Критика[править | править вики-текст]

Проблемы реализации[править | править вики-текст]

В 2006 году журнал «IEEE Intelligent Systems» опубликовал новую статью Тима Бернерса-Ли «Semantic Web Revisited» («Семантическая паутина: пересмотр»)[8], в которой автор называет описанный подход к организации информации в вебе «простой идеей, до сих пор в большой степени нереализованной», несмотря на все преимущества, предоставляемые Семантической паутиной в случае её внедрения.

На сегодняшний день нет общедоступных средств просмотра и прямого использования информации, предоставляемой сайтами в Семантическую паутину. Редкие образцы разрозненны, а программы-клиенты не выходят за уровень локальных исследовательских проектов отдельных энтузиастов.[источник?]

Комментаторы указывают на различные причины, которые препятствуют активному развитию Семантической паутины, начиная с человеческого фактора[9] (люди склонны избегать работы по поддержке документов с метаданными, открытыми остаются проблемы истинности метаданных, и т. д.), и заканчивая косвенным указанием Аристотеля на отсутствие очевидного способа деления мира на различимые концепты. Это ставит под сомнение возможность существования онтологии верхнего уровня, критической для Семантической паутины. Аристотель в «Топике» использует понятие differentia specifica, или наличие у понятий различимого качества, как основу для группировки понятий в классы. Философ уверен в наличии бесконечного числа понятий, из чего следует бесконечность числа классов, в которые их можно объединить. Для выделения такого количества классов необходимо бесконечно много различимых качеств, наличие которых Аристотель подвергает сомнению.

Дублирование информации[править | править вики-текст]

Необходимость описания метаданных так или иначе приводит к дублированию информации. Каждый документ должен быть создан в двух экземплярах: размеченным для чтения людьми, а также в машинно-ориентированном формате. Этот недостаток Семантической паутины был главным толчком к созданию так называемых микроформатов[10] и языка RDFа[11]. Последний является вариантом языка RDF и отличается от него тем, что не определяет собственного синтаксиса, а предназначен для внедрения в XML-атрибуты XHTML-страниц.

Последствия реализации[править | править вики-текст]

Лёгкость машинной обработки позволяет посреднику вроде поисковой системы выбирать, какую информацию предоставлять пользователю.

  • Это делает возможным предоставление только необходимой части информации. В результате пользователь может получать информацию, не посещая сайт-источник, а посредник может выводить информацию, не давая ссылки на источник (или давая её при условии, что посредник узнает о переходе). Таким образом уменьшается посещаемость сайта-источника, и увеличивается посещаемость посредника; а от посещаемости зависит действие Интернет-рекламы, обеспечивающей основное финансирование многих сайтов.[12]. Для сайтов, публикующих контент для привлечения читателей к размещаемой рядом рекламе, предоставление контента в машинно-читаемом виде не выглядит выгодным, однако для сайтов, чей контент сам по себе является информацией о рекламируемом объекте — например, для сайтов производителей товаров и услуг — предоставление информации о рекламируемых объектах в машинно-читаемом виде выгодно, так как способно облегчать её распространение и использование.[источник?]
  • Предпочтение поисковыми системами размеченных страниц делает неразмеченные частью (относительно) Глубокой паутины.
  • Это облегчает автоматическую цензуру.
  • Облегчается нахождение персональных данных и их связей с другой информацией (авторы, местонахождения, социальные связи).[источник?]

Проекты[править | править вики-текст]

Дублинское ядро[править | править вики-текст]

Одним из первых серьёзных и популярных проектов, основанных на принципах Семантической паутины, стал проект «Дублинское ядро» (англ. Dublin Core), реализуемый инициативной организацией Dublin Core Metadata Initiative (DCMI). Это открытый проект, цель которого — разработать стандарты метаданных, которые были бы независимы от платформ и подходили бы для широкого спектра задач. Конкретнее, DCMI занимается разработкой словарей метаданных общего назначения, стандартизирующих описания ресурсов в формате RDF.[13]

RSS (версий 0.90 и 1.0)[править | править вики-текст]

Версии 0.90 и 1.0 формата RSS основаны на RDF. Информация в нём представляется как и в RDF, тройками субъект-отношение-объект. Необходимо отметить, что несмотря на то, что ему присущи многие недостатки Семантической паутины (например, дублирование информации), этот простейший формат быстро стал чрезвычайно популярным за счёт узкой категоризации подмножества используемых метаданных. Отличие RSS от RDF состоит в том, что субъектом тройки всегда является сайт-источник RSS-файла, а в качестве отношений используются самые очевидные свойства документов, имеющие отношение к часто обновляющимся источникам информации: дата написания, автор, постоянная ссылка, и т. д. Другими словами, RSS — узкоспециализированное подмножество RDF.[14]

Заметим, что формат RSS версии 2.0, хотя и не является форматом, основанным на RDF, позволяет внедрение произвольного XML-содержимого, находящегося в собственных пространствах имён XML. Это позволяет использовать RDF-описания также и в нём (используя пространство имён rdf).[15]

FOAF[править | править вики-текст]

Проект «Friend of a Friend» («Друг друга») позволяет описывать отношение знакомства с помощью RDF. Любой его участник может идентифицировать себя уникальным образом с помощью URI (например, mailto-адресом электронной почты, адресом блога, и т. п.), создать свой профиль, используя предопределённые для FOAF отношения на языке RDF, и перечислить идентификаторы людей, которых этот участник знает. Это описание может обрабатываться автоматически; на его основе можно строить сети доверия, анализировать структуру социальных групп, и т. д.[16]

DBpedia[править | править вики-текст]

DBpedia — проект, направленный на извлечение структурированной информации из данных, созданных в рамках проекта Wikipedia. DBpedia позволяет пользователям запрашивать информацию, основанную на отношениях и свойствах ресурсов Википедии, в том числе ссылки на соответствующие базы данных. Начат группой добровольцев из Свободного университета Берлина и Лейпцигского университета, в сотрудничестве с OpenLink Software, и впервые был опубликован в 2007 году. Проект DBpedia использует Resource Description Framework (RDF) для представления извлеченной информации. По состоянию на апрель 2010, базы данных DBpedia состоят из более чем 1 млрд единиц информации, из которых 257 млн были взяты из английской версии Википедии и 766 млн извлечены из версий на других языках[17].

См. также[править | править вики-текст]

Примечания[править | править вики-текст]

  1. Tim Berners-Lee. Semantic Web Road map (09.1998).
  2. Giant Global Graph., русский перевод: Тим Бёрнерс-Ли. Гигантский Глобальный Граф
  3. Раздел о Семантической паутине на сайте W3C  (англ.)
  4. Resource Description Framework (RDF): Concepts and Abstract Syntax (англ.). Консорциум Всемирной паутины (10 февраля 2004 года). — W3C Recommendation. Проверено 12 сентября 2010. Архивировано из первоисточника 24 августа 2011.
  5. Cool URIs for the Semantic Web (англ.). Консорциум Всемирной паутины (3 декабря 2008 года). — W3C Interest Group Note. Проверено 12 сентября 2010. Архивировано из первоисточника 24 августа 2011.
  6. The Species of OWL in OWL Language Guide
  7. OWL Full, OWL DL and OWL Lite in OWL Language Reference
  8. Semantic Web Revisited, IEEE Intelligent Systems, июнь 2006
  9. Cory Doctorow, Metacrap: Putting the torch to seven straw-men of the meta-utopia, август 2001
  10. Rohit Khare, Tantek Çelik, Microformats: A Pragmatic Path to the Semantic Web, январь 2006
  11. RDFa Primer
  12. Ахиллесова пята Семантического Веба, Компьютерра
  13. Dublin Core Metadata Initiative (DCMI)
  14. RSS 1.0 Specification
  15. RSS 2.0 Specification
  16. Friend of a Friend
  17. DBpedia Mappings

Литература[править | править вики-текст]

  • Dieter Fensel, Wolfgang Wahlster, Henry Lieberman, James Hendler Spinning the Semantic Web: Bringing the World Wide Web to Its Full Potential. — The MIT Press, 2002. — ISBN 0262062321.
  • Towards the Semantic Web: Ontology-driven Knowledge Management. — John Wiley & Sons, 2003. — ISBN 0470848677.
  • Toby Segaran, Colin Evans, Jamie Taylor Programming the Semantic Web. — 2009. — ISBN 0596153813.
  • Luciano Floridi Web 2.0 vs. the Semantic Web: A Philosophical Assessment // Episteme. — 2009. — Т. 6. — № 1. — С. 25--37. — DOI:10.3366/E174236000800052X

Ссылки[править | править вики-текст]