Википедия:Вики-конференция 2007/Результаты/Деление информации в Википедии по темам

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску

На самом деле это не текст доклада, а текст о некоторых разработках (в основном в стадии идей) Incnis Mrsi в области системы категорий Википедии, о которых говорилось на докладе.

Д е л е н и е _ и н ф о р м а ц и и _ в _ В и к и п е д и и _ п о _ т е м а м

Введение[править код]

Википедия — не просто свалка свободной информации. На самом деле это средство уложить эту информацию в собственную понятийную систему. Эта система, разумеется, основана на человеческом языке и существующей культуре, но имеет и свои собственные черты. Разумеется, в основе этой системы лежит разбиение информации на «страницы», а также связи (например, отношения) между этими страницами.


Из чего состоит контент Википедии?[править код]

Наиболее общее понятие организации данных в вики-технологии: страница. Так называется всякая поименованная запись в БД, скажем, Википедии. Технология MediaWiki и правила Википедии предписывают существование различных типов страниц. Рассмотрим, какие они бывают, и какую играют роль в упорядочивании информации.

Категории

Для нас категории — пожалуй самый важный тип страниц. При просмотре они выглядят как списки страниц, отсортированных в алфавитном порядке названий. На самом деле категории списками не являются. Включение страницы в категорию делаете включением в вики-текст страницы тэга [[Категория:имя_категории]]. Движок вики-сайта помнит, какие страницы включены в категорию, и выдаёт их список по запросу.

Категории, в свою очередь, можно включать в другие категории. В таком случае категория, в которую ставится тэг [[Категория:верхняя_категория]] называется подкатегорией, а «категория: верхняя_категория», на которую делается ссылка — надкатегорией. Список подкатегорий выдаётся отдельно от списка страниц прочих типов, включённых в категорию.

Важнейшая особенность вики-категоризации: возможно более одного тэга категоризации на странице. Именно на этом основаны многие скрытые возможности системы категорий.

Статьи

Эти страницы собственно и предназначены для того, чтобы их читать. Обычно выделяют полноценные статьи (имеющие достаточную полноту) и заготовки статей — страницы, имеющие потенцию превращения в полноценную статью, однако лишённые какой-то важной информации. В целях нашего рассмотрения разницу между полноценными статьями и заготовками делать не нужно.

Страницы, по смыслу являющиеся списками

Ряд страниц представляют собой списки ссылок на другие страницы. К их числу относятся:

  • Страницы разрешения неоднозначности — служат для перечисления различных значений одного слова. Например: список.
  • Собственно списки — не содержат собственно текста, а лишь перечисляют статьи, отобранные по некому критерию, как правило в определённой последовательности. Например: крупнейшие по населению страны мира;
  • Порталы — служат для облегчения доступа к статьям, похожи на списки но оформлены в духе web-страниц. Например: заглавная страница.

Подобные страницы статьями не являются. Они могут быть использованы для классификации материала, но сами этим «материалом» не являются.

Перенаправления

Контроль за перенаправлениями важен в проекте «связность», однако эти страницы обычно не включаются в категории и для читателя Википедии себя практически не проявляют. Мы изымаем их из рассмотрения.

Изображения

Страницы описания Изображений, подобно предыдущему типу, как правило малозаметны. Мы не будем их рассматривать.

Шаблоны

Шаблоны являются, пожалуй, самым эзотерическим типом страниц Википедии. Они играют достаточно важную роль в организации информации в Википедии. Трансклюзией шаблонов в статьи можно как управлять категоризацией, так и создавать дополнительные ссылки для навигации. Однако, сами шаблоны включаются лишь в особое служебное ответвление системы категорий (неэнциклопедические категории).

Обсуждения и пространство проекта («Википедия:»)

Этот класс страниц предназначен для взаимодействия участников Википедии. Если они и включаются в категории, то в особое служебное ответвление системы категорий, которое не имеет отношения к упорядочению статей по темам. Мы можем об их существовании забыть.

Личное пространство участников

Страницы, используемые отдельными участниками в личных целях, а также для коммуникации между участниками. Роль в данном рассмотрении аналогична предыдущему пункту.

***

Таким образом, нас должно интересовать прежде всего упорядочивание статей и самих категорий.

Система категорий: принципы устройства[править код]

Кат {{{{{{{ Кат
Кат {{{{{{{ Ста
Но: Ста {{{{{{{ ???

Идея системы категорий — направленный граф. Прописанные на страницах тэги категорий задают бинарное отношение страница включена в категорию. Вместо традиционной записи из теории множеств типа «страница  Кат»[1] мы будем писать (и рисовать) «страница }}}}}}} Кат» или «Кат {{{{{{{ страница». С точки зрения теории графов страницы следует рассматривать как вершины, а пары (страница,категория) — как рёбра направленного графа.

Категории как подмножества
множества статей
Category DAG and subsets.svg
Дозволенные (ненаправленные) циклы Направленные циклы длины 2 и 3

Однако, взглянуть на категории с точки зрения теории множеств оказывается всё-таки полезно. Рассмотрим цепочку страниц P0, P1… PN, в которой страницы начиная с P1 являются категориями и каждое звено этой цепочки (кроме PN) включено в категорию, следующую за ним непосредственно. То есть, для любого целого k от 1 до N страница Pk-1 включена в категорию Pk. В таком случае будем говорить, что имеет место опосредованное включение страницы P0 в категорию PN.

Мы договорились рассматривать два типа страниц: категории и статьи. Для статей (т.е. страниц, не являющихся категориями), будем обозначать опосредованное включение как «страница  Кат». Таким образом, каждой категории будет отвечать некое подмножество множества всех статей. При этом подкатегория (прямая или опосредованная) будет включена (как подмножество) в категорию верхнего уровня (см. рисунок).

Обязательно ли разным категориям будут соответствовать разные подмножества? Вовсе нет.

Нежелательность направленных циклов[править код]

Для начала предположим, что некая категория (опосредованно) включает себя, т.е. в системе категорий существует направленный цикл. Т.к. отношение опосредованного включения является транзитивным, то все категории, входящие в этот цикл, будут совпадать как множества статей. [2]

То есть, смысл различия между несколькими «разными» категориями окажется утерян. По аналогичной причине нежелательны пустые категории (пустая категория — пустое множество, т.е. они все равны между собой). Действительно, в Википедии их стараются удалять.

Очень важно отметить, что в системе категорий бывает другой сорт циклов: когда из некой категории верхнего уровня выходит две различных ветви подкатегорий, сходящиеся в своей нижней точке — см. на рисунке внизу слева. Можно сказать, что нижняя категория включена в верхнюю двумя путями. Такие циклы (ненаправленные, т.к. ветки направлены навстречу друг другу) не только не запрещены, но и полезны и по некоторым причинам даже неизбежны.

Оси категоризации[править код]

Теперь рассмотрим проблему упорядочивания с содержательной стороны, а не формальной. Проще всего сравнить различные способы упорядочения статей о событиях, т.к. различие подходов проявляется наиболее чётко.

Каждое событие обладает некоторыми параметрами. Некоторые из этих параметров легко допускают классификации (формальные, или хотя бы достаточно строгие).

Географическая

Большинство событий происходят на поверхность Земли (или вблизи неё), а что такое поверхность, мы знаем хорошо. Её можно разделить по географическому принципу (океан/суша, континенты, страны, города…) При этом важно, что некоторые меньшие единицы поверхности (города, административные единицы стран) объединены в бо́льшие (страны, регионы). Если событие было достаточно «протяжённым», то может и не удастся классифицировать его совсем уж точно, но хотя бы к чему-то (к стране, континенту) его привязать будет можно.

Хронологическая

Ось времени (математическая модель — действительная прямая). Прямую естественно разбить на отрезки, однако делается это разными способами. Поэтому классификация по времени, как будто простейшая, вызывает в Википедии проблемы. Например, в истории разных стран принята разная периодизация.

Классы событий

Во многих случаях можно указать характер события (строго говоря, вовсе не обязательно указывать что-то одно).

Применительно к персоналиям:

Область науки или деятельности

Категория:Статьи, являющаяся главной энциклопедической категорией Википедии, включает следующие подкатегории:

Прочие классификации

Часто для классификации объектов какого-то типа используется какой-то характерный признак, встречающийся у меньшинства объектов. Например, среди персоналий выделяют категории миллиардеры или жертвы преступлений.

Понятно, что подобные признаки надо в принципе рассматривать как независимые оси (самый богатый тоже может быть убит, как и нищий). Пересечение (см. ниже) подобных признаков используется в Википедии редко, хотя иногда всё-таки используется, см. напр. поэты-самоубийцы или убитые политики.

Подробнее о категориях — деревья[править код]

Дерево — одна из возможных структур, в соответствии с которыми бывают организованы категории. Не вдаваясь в математическую общность, можно сказать, что дерево — такой граф категорий, в котором из любых двух категорий либо одна включает другую, либо они не пересекаются (не имеют ни одной общей подкатегории, хотя бы даже косвенной).

Дерево соответствует одной оси категоризации; каждая ось — независимое[3] от других дерево. Как и всякие графы, деревья допускают произведения. Произведение двух направленных деревьев — тоже направленный граф, но деревом он уже не является. В частности, он содержит много циклов из 4 вершин такого типа, как изображён на рисунке выше — по одному такому циклу образуется при перемножении ребра первого дерева-сомножителя на ребро второго. Находящиеся в серединах 2 альтернативных «веток» категории будут иметь общую подкатегорию на сходящихся концах.

Tree product pract.svg
— статья, красные линии — её (прямая) категоризация. Статья включается (прямо или косвенно) во все категории, изображённые выше правее статьи

Реальный граф категорий редко строится как математически точное произведение деревьев, дотянутое до конца по всем своим отросткам («родившиеся 9 сентября 1828 года в Ясной Поляне»). В Википедии построение произведения деревьев обрывается на той глубине, где категории становятся заполненными мало. В противном случае появилось бы много пустых категорий или категорий на одну–две статьи.

Как включать статью в системы категорий типа произведения деревьев?

Предположим, мы довели категоризацию статьи A по каждой из осей Tk до некоторой категории ak: (на рисунке изображён случай двух осей k=1,2 но, в принципе, то же самое делается и при наличии большего кол-ва осей). Статья включается в таком случае сразу в несколько (как правило) категорий по следующему принципу. Сначала объявляется что статья A (непрямо) включается в категорию c1×c2 тогда и только тогда, когда для k=1,2 (в случае произведения более чем 2 осей элементов в произведении категорий будет больше). Это совершенно естественно, если воспринимать категории-элементы произведения деревьев как подмножества в произведении множеств, соответствующих осям. Но прямое включение статьи во все такие категории, конечно, было бы ошибкой: категорий пришлось бы прописывать слишком много, да и категории близкие к корню переполнились бы.

Если бы наша система категорий включала произведение осей-деревьев целиком, то достаточно было бы включить статью просто в одну категорию a1×a2. Но, как было сказано выше, такие узкие категории обычно не создаются. Значит, надо выбрать минимальный набор прямых категорий статьи A. Для этого мы можем заметить, что если c1' — подкатегория категории c1 (в оси T1) и статья A включена в c1'×c2, то A косвенно включена в c1×c2 как в надкатегорию. Значит, можно ограничиться включением A лишь в те категории c1×c2, подкатегориям которых A не принадлежит, т.е. ни для какой из осей Tk и находящейся там подкатегории ck' }}}}} ck не будут созданы подкатегории-произведения, в которых сомножитель ck заменён на ck'.

Можно сказать, что статья включается во все те категории, откуда нельзя продвинуться к ней ближе по графу. Для обычной статьи их оказывается существенно меньше, чем категорий непрямого включения, но в ряде случаев требуемых по указанному критерию категорий куда больше чем можно было бы назвать сразу, и поэтому на практике подобные категории бывают прописаны не все.


Проблемы, не вписывающиеся в изложенную теорию[править код]

Должна ли ось категории непременно являться деревом?

Нет, строго говоря это не требуется. Например, существуют разные способы разбиения земной поверхности (по физическому или политическому принципу, например). О проблемах с хронологией было сказано выше. Поэтому какая-то точка земной поверхности (или момент времени) может оказаться включена в разные единицы разбиения.

Изъяны метафоры направленного графа категорий

Например, подкатегории могут сильно «уходить вбок». Скажем, имеет место следующая цепочка включений категорий: Мультимедиа }}}}}}} Компьютерное искусство }}}}}}} Информационные технологии }}}}}}} Прикладная математика }}}}}}} Математика.

Статья постпродакшн оказалась опосредованно включена в категорию «Математика» — парадоксальный результат, не так ли?

Чем могли бы помочь техсредства?[править код]

Автор данной статьи собирается сделать анализатор близости категорий. Насколько близки определяемые ими подмножества статей? Насколько при этом близки сами категории в графе категорий? Ведь может случиться и так, что множества окажутся совпадающими, а сами категории — далеко разнесёнными. Как правило, это будет означать ошибку в построении графа, например — пропущенное ребро графа, т.е. неуказанное включение категории в надкатегорию, необходимое по логике построения данного фрагмента графа категорий. Общая идея: сравнить близость категорий в графе и как подмножеств статей. Анализатор категорий должен уметь отвечать на следующие вопросы:

  • Какие категории включены в указанную как подмножества (и при этом содержат хотя бы одну статью)?
  • Которые из них не являются подкатегориями, прямыми либо опосредованными?
  • Какие категории наиболее близки к указанной как подмножества?
  • Как при этом они соотносятся с нею в графе категорий?

А также, при указании некого дерева в качестве предположительной оси категоризации, следует уметь находить:

  • Все категории (других осей), перемноженные на данную ось (в терминологии Лисицынапересечённые).
  • Все подкатегории найденных произведений, не ссылающиеся правильным образом на вышележащую категорию заданной оси.
  • Статьи с пропущенными тэгами категорий: на прямоугольной диаграмме категоризации некоторые красные линии лежат между другими, и соответствующие им категории могут быть восстановлены (если были пропущены) чисто формально.

Техническую основу для данного исследования может дать тулсервер — специальная база Фонда Викимедиа для проведения исследований, а также операций над проектами Фонда, которые не могут быть произведены средствами собственно движка MediaWiki. Предварительные результаты исследования ожидаются в марте—апреле 2008 года.

Альтернативные подходы[править код]

Ссылки, списки[править код]

Страницы, классифицированные как по смыслу являющиеся списками, а в особенности списки и порталы, могут быть использованы для упорядочения информации способом, независимым от системы категорий. Недостатком категорий является их склонность к разрастанию. Когда категория включает десятки подкатегорий и статей (а это далеко не предел), обозреть её одним взглядом становится невозможно. Списки статей (а также содержащие такие списки навигационные шаблоны; см. ниже) являются в каком-то смысле компромиссом между категориями и ссылками. В отличие от категории множество статей в них можно представить в более упорядоченном виде (таблицы, находящегося на одной странице дерева), а заодно отобразить не все объекты данной области, в лишь важные. А в отличие от применения простых контекстных ссылок мы можем собрать ссылки компактно, в одном месте.

Упорядочение шаблонами[править код]

Шаблон может нести 3 функции, имеющие к упорядочиванию материала:

  • Шаблон может сам нести список страниц, выполняющий роль аналогично предыдущему параграфу (навигационные шаблоны);
  • Шаблон может осуществлять трансклюзию тэга категории, что может сэкономить усилия при написании статей;
  • Использование в статье определённого типа шаблонов (инфобоксы) может маркировать тип статьи: например, статья о фильме, о книге, об учёном или о биологическом виде.

Интервики[править код]

Interwiki split-merge conflicts.svg

Как известно, Википедия поделена на языковые разделы, каждый из которых вполне автономен в смысле полноты своих данных и администрирования. Однако, они объединены системой взаимных ссылок — интервики. Роль интервики в практическом упорядочении статей прямо не относится к делению материала по теме, но упомянуть о ней можно.

Представим себе, для простоты, что у нас есть всего два языковых раздела: X и Y. В наиболее простом случае, одной статье из раздела X соответствует одна и только одна статья из раздела Y: X:a → Y:a, причём ссылка имеется . Бывают однако «конфликты» ссылок, когда некоторые ссылки пропущены (или напротив, их оказывается слишком много). Иногда это вызвано неустранимой несовместимостью понятийных систем, но чаще причина проще — различные предпочтения разделов X и Y в вопросе, следует ли иметь одну крупную статью или несколько мелких.

Подробнее об этом написано в авторской разработке meta:Interwiki conflicts  (англ.).

Сноски[править код]

  1. Использование понятий теории множеств в данном смысле нежелательно ещё и потому, что движок MediaWiki не запрещает «включить» две категории взаимно друг в друга и даже категорию — саму в себя. Такие аномалии вызывает парадоксы, из-за которых в конце XIX века математики отвергли наивную теорию множеств.
  2. Мы упустили случай, когда категория «включает саму себя», т.е. имеется цикл длины 1. Такая ситуация не вызывает описанного «слипания» категорий, однако тоже признана нежелательной по ряду причин: как бессмысленная; ввиду общего запрета на циклы; а также ещё и потому, что существование цикла длины 1, строго говоря, нарушает математическое определение графа.
  3. В контексте категорий удобно считать что корни всех деревьев являются одной и той же точкой «всё», т.е. все деревья получаются растущими из одного корня.

См. также[править код]