DBpedia

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск
DBpedia
DBpediaLogo.svg
20121109 Making things findable by DBpedia.pdf
Wikipedia Extraction
Тип

Семантическая паутина, связанные данные

Разработчик

Лейпцигский университет, Свободный университет Берлина, OpenLink Software

Языки интерфейса

Scala, Java, Virtuoso Server Pages

Первый выпуск

23 января 2007

Аппаратная платформа

Virtuoso Universal Server

Последняя версия

DBpedia 3.5 (12 апреля 2010[1])

Лицензия

GNU General Public License

Сайт

dbpedia.org

DBpedia на Викискладе

DBpedia — проект, направленный на извлечение структурированной информации из данных, созданных в рамках проекта Википедия. DBpedia позволяет пользователям запрашивать информацию, основанную на отношениях и свойствах ресурсов Википедии, в том числе ссылки на соответствующие базы данных. DBpedia был назван Тимом Бернерсом-Ли одним из наиболее известных примеров использования связанных данных[2].

Общие сведения[править | править вики-текст]

Проект был начат группой добровольцев из Свободного университета Берлина и Лейпцигского университета, в сотрудничестве с OpenLink Software[3] , и впервые был опубликован в 2007 году.

Статьи из Википедии в основном состоят из свободного текста, но также включают такие виды структурированной информации, как шаблоны, категории, изображения, географические координаты и ссылки на внешние веб-страницы. Эта структурированная информация извлекается и формируется в виде единой базы данных, доступной по запросу. Данные DBpedia доступны на условиях свободной лицензии.

Базы данных[править | править вики-текст]

По состоянию на сентябрь 2011 года, базы данных DBpedia описывают более 3,64 млн понятий, из которых 1,83 млн классифицированы в соответствии с онтологией, в том числе 416 000 персоналий, 526 000 мест, 106 000 музыкальных альбомов, 60 000 фильмов, 17 500 видеоигр, 169 000 организаций, 183 000 биологических видов и 5 400 заболеваний. Метки и тезисы содержатся для 3,64 млн понятий на 97 языках; 2 724 000 ссылок на изображения и 6 300 000 ссылок на внешние веб-страницы; 6 200 000 внешних ссылок на другие базы данных RDF-формата, 740 000 категорий Википедии.[4]

Проект DBpedia использует Resource Description Framework (RDF) для представления извлеченной информации. По состоянию на апрель 2010 года, базы данных DBpedia состоят из более чем 1 млрд единиц информации, из которых 257 млн были взяты из английской версии Википедии и 766 млн извлечены из версий на других языках[5] .

Одна из проблем при извлечении информации из Википедии состоит в том, что одни и те же понятия могут быть выражены в шаблонах разными способами, например, понятие «место рождения» может быть сформулировано в английском языке как «birthplace» и как «placeofbirth». Из-за этой неоднозначности запрос проходит по обоим вариантам для получения более достоверного результата. Для облегечения поиска при сокращении количества синонимов был разработан специальный язык — DBPedia Mapping Language, а у пользователей Dbpedia появилась возможность повышать качество извлечения данных с помощью сервиса Mapping.[5] В связи с большим разнообразием шаблонов и свойств, используемых в Википедии, дальнейшая разработка этого языка открыта для сотрудничества.

Пример[править | править вики-текст]

DBpedia извлекает фактическую информацию со страниц Wikipedia, позволяя пользователям найти ответы на вопросы в ситуациях, когда требуемая информация находится в нескольких различных статьях Википедии. Запрос осуществляется с помощью SPARQL (SQL-подобный язык запросов для RDF). Например, вы интересуетесь японской Сёдзё манга Tokyo Mew Mew, и хотите найти другие работы иллюстратора этой сёдзё. DBpedia объединяет информацию из записей в Википедии в статьях Tokyo Mew Mew, Мia Ikumi, а также Super Doll Licca-chan и Koi Cupid. DBpedia сводит полученную информацию в единую базу данных, и при следующем запросе [1] нет необходимости уточнять, где именно расположен фрагмент требуемой информации:

 PREFIX dbprop: <http://dbpedia.org/property/>
 PREFIX db: <http://dbpedia.org/resource/>
 SELECT ?who ?WORK ?genre WHERE { 
  db:Tokyo_Mew_Mew dbprop:illustrator ?who .
  ?WORK  dbprop:author ?who .
  OPTIONAL { ?WORK dbprop:genre ?genre } .
 }

См. также[править | править вики-текст]

Примечания[править | править вики-текст]

  1. DBpedia 3.5 released
  2. Transcript: Sir Tim Berners-Lee Talks with Talis about the Semantic Web
  3. wiki.dbpedia.org : Team
  4. Bizer, Chiris DBpedia 3.7 released, including 15 localized Editions (англ.). DBpedia blog (11.09.2011). — Официальное сообщение о выходе версии 3.7 DBpedia. Проверено 24 января 2012. Архивировано из первоисточника 24 января 2012.
  5. 1 2 DBpedia Mappings