Википедия:Вики-конференция 2007/Результаты/Достоверность

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску

Предисловие[править код]

В конце августа 2007 года вандалы, недовольные критериями значимости Википедии и её администрированием, разрабатывали методы нанесения вреда Википедии. В частности, они написали программу, автоматически осуществляющую вандальные правки. Поняв неэффективность этого метода, они предложили провести массированную атаку на Википедию, «подорвав доверие к любой её цифре и утверждению». Георгий Шуклин, один из администраторов Википедии, так отреагировал на это сообщение: «"Доверие к любой её цифре" - признак плохой ориентации в основах Википедии; в Википедии и так нет достоверных сведений».

С точки зрения обычного пользователя высказывание Шуклина представляет собой парадокс. Как известно, парадоксальные высказывания лучше запоминаются и стимулируют размышление над проблемой. Попробуем и мы поразмыслить над вопросом о достоверности сведений Википедии.

Первичные и вторичные источники[править код]

В самом деле, пользователь, привыкший работать с бумажными энциклопедиями, ожидает от энциклопедии в первую очередь достоверной информации. Достоверность бумажного издания достигается за счёт привлечения профессиональных авторов статей и тщательной редактуры и корректуры. Википедия же, как сказано на её заглавной странице, - это свободная энциклопедия, которую может редактировать каждый. Это решение было в своё время принято основателями Википедии в целях ускорения её роста. И действительно, на текущий момент английский раздел Википедии является крупнейшим универсальным источником информации и продолжает (как и другие разделы) активно пополняться.

Но за всё приходится платить. Плата за возможность столь быстрого роста заключается в возможности внесения ложной информации. Разумеется, наличие ложной информации существенно снижает ценность ресурса. Чтобы уменьшить наносимый ущерб, было принято решение о том, что в Википедии могут излагаться исключительно сведения, уже имеющиеся в других источниках. Таким образом, Википедия принципиально является не первичным источником (каковым может быть бумажная энциклопедия), а исключительно вторичным.

Следует отметить, что многие пользователи не понимают этого принципиального отличия Википедии от бумажных энциклопедий и считают, что оригинальные исследования повышают ценность Википедии. Несомненно, это так. Но проблема в том, что допущение оригинальных исследований, в отличие от бумажных энциклопедий, автоматически сильно снижает надёжность информации Википедии. Таким образом, особенность Википедии - её принципиальная вторичность, вытекающая из способа заполнения энциклопедии. Но и это ещё не всё. Возможность использования информации из любых источников привела бы к колоссальному увеличению объёма, в результате чего крупицы ценной информации тонули бы в море менее значимой. Поэтому информация статей Википедии должна основываться на авторитетных источниках.

Авторитетные источники[править код]

Вряд ли правильно было бы считать, что необходимость опоры на авторитетные источники является отличительной чертой Википедии. Любой проект, любое издание - будь то бумажная энциклопедия или новостной сайт - опирается на источники, которые для данного проекта являются авторитетными. Разница между Википедией и многими другими проектами заключается лишь в жёсткости требований к авторитетности источников.

Так, любое новостное агентство принимает информацию собственных корреспондентов в качестве авторитетного источника. В Википедии это не приветствуется и запрещено правилами, хотя на самом деле зачастую возникают вопросы о том, что можно считать авторитетным источником в той или иной области; прежде всего в связи с тем, может ли быть предмет статьи сам по себе авторитетным источником о себе. Необходимым условием авторитетности является доступность источника. Признано, что компьютерная игра может быть авторитетным источником для статьи о себе, так как любой читатель может проверить информацию, купив данную игру. В то же время аналогичный вопрос о железнодорожных станциях и платформах вызвал бурную дискуссию в википедийном сообществе.

Мы здесь не ставим перед собой задачи обозреть все авторитетные источники - это могло бы быть темой отдельной серьёзной работы. В то же время для статей на научную тематику это более-менее реально, и в результате работы проекта "Выверка статей", о котором речь пойдёт в дальнейшем, у одного из авторов сложилась такая общая классификация.

Классификация авторитетных источников[править код]

По типу источника

  1. Референсные справочные издания и базы данных.
  2. Статьи в рецензируемых научных журналах, авторитетные монографии.
  3. Препринты.
  4. Научно-популярные издания.
  5. Статьи в неспециализированной прессе.
  6. Частные интернет-издания.

По степени авторитетности источника

  1. Обязательные. Обязательность информации из данного источника. (Тип источника 1.)
  2. Достаточные. Достаточность информации из данного источника. (Типы источников 1, 2.)
  3. Подчинённые. Информация источника должна подтверждаться более авторитетными источниками. (Типы источников 3—6.)

Информация из источников, являющихся обязательными (если такие существуют), должна быть приведена в статье. Для того, чтобы приводить соответствующие данные по другому источнику, не упомянув данные обязательного источника, должны быть очень серьёзные причины. Как правило, для конкретного вида данных существует не более одного обязательного источника.

Информация из достаточных источников не нуждается в верификации другими источниками. Иначе обстоит дело с источниками, не являющимися достаточными. Они могут быть источниками вспомогательной информациями (например, о дате открытия), но только в том случае, если базовая информация из них подтверждается достаточными источниками.

Типичным примером обязательного источника является база данных свойств элементарных частиц Particle Data Group. Информация в этой базе данных обновляется ежегодно, в связи с чем откровенно устаревшие сведения в ней содержатся довольно редко. Свойства частиц определяются экспертами по данным наиболее качественных работ, то есть работы, опубликованные в рецензируемых научных журналах и тем самым автоматически являющиеся авторитетными источниками для Википедии, проходят дополнительную экспертную проверку на авторитетность. Многие обязательные источники в других областях, развивающихся менее бурно, обновляются реже, в связи с чем их данные иногда приходится заменять более свежими. Так, в одной из референсных баз данных ядерной физики Evaluated Nuclear Structure Data File (ENSDF) данные о нуклидах с массовым числом 3 не обновлялись с 22 июня 1987 года, то есть уже 20 лет. Довольно редко выходят и референсные географические атласы, выпускаемые в настоящее время Роскартографией.

Достоверность данных, публикаемых в статьях и монографиях, в отличие от данных референсных изданий, не гарантирована. Тем не менее именно этот тип источников составляет (по крайней мере, должен составлять) основной массив источников информации в статьях Википедии научной тематики. Основной проблемой научных статей является их низкая доступность. Большинство крупных издателей физических журналов (APS, Springer, Elsevier, Wiley) предоставляет доступ к статьям либо по институтской подписке, либо за отдельную плату.

Препринты иногда бывают весьма полезны, хотя их в общем случае нельзя причислять к достаточным источникам. Основной недостаток препринтов (помимо очевидной ненадёжности информации в силу отсутствия рецензирования) — малый тираж, зачастую отсутствие в Интернете, и вследствие этого недоступность. В то же время некоторые институты выкладывают свои препринты в сеть (правда, без присвоения DOI, что затрудняет их поиск), и в таких случаях препринты оказываются даже более доступны, чем платные журнальные статьи. Кроме того, препринт зачастую может содержать больше информации, чем последовавшая за ним статью в журнале. В обоих этих случаях ссылка на препринт может быть уместна.

Научно-популярные издания и статьи в неспециализированной прессе за редким исключением не стоит привлекать в качестве источника для статей научной тематики. Информация в научно-популярной литературе, как правило, является упрощённым пересказом более серьёзных источников, не содержащей принципиально новой информации. Ссылку на такое издание можно поставить в случае труднодоступности более авторитетных источников или в случае уместности в статье источников именно такого жанра.

На статьи в неспециализированной прессе уместно ссылаться для подтверждения дат. Все остальные факты должны опираться на более авторитетные источники. Отсутствие более авторитетных источников однозначно указывает на псевдонаучность темы статьи — эта тема выходит за рамки данной работы. Примерно на том же уровне авторитетности находятся и частные интернет-издания.

Проблемы с достоверностью[править код]

Итак, любая информация в статье Википедии должна опираться на авторитетные источники. Это составляет суть принципа проверяемости - одного из основных принципов Википедии. В то же время конечным пользователям зачастую важна не проверяемость, а достоверность информации. Наличие в статье Википедии недостоверной информации зачастую сопровождается нарушением проверяемости, но далеко не всегда.

  1. Наиболее характерным случаем является наличие устаревшей информации. Например, как хорошо известно, многие статьи скопированы в Википедию из энциклопедического словаря Брокгауза - Ефрона без необходимой коррекции. В качестве менее тривиального примера можно привести ситуацию со статьями о сверхтяжёлых элементах, которые были созданы в основном на основании данных сайта webelements.com без учёта свежих экспериментальных данных. В результате данные о времени жизни этих элементов, приведённые в статьях, де факто основывались на теоретических оценках и отличались от реальных экспериментальных данных примерно на порядок и более. Интересно, что некоторые пользователи пали жертвой своей доверчивости к информации Википедии. В частности, профессор МГУ И.Н. Бекман в курсе своих лекций скопировал материал статей Википедии со всеми их ошибками.
  2. Также недостоверность может возникать в случае, когда информация статьи основана на источниках, не обладающих должной авторитетностью, что часто приводит к конфликту источников. К сожалению, сейчас в Википедии не уделяется необходимое внимание оценке качества источников, и фундаментальные научные статьи вполне могут ссылаться в важных вопросах на частные интернет-издания и статьи в неспециализированной прессе, то есть, фактически, на источники на уровне слухов.
  3. В ходе работы проекта выверки были замечены и существенные опечатки в статьях. Под существенными я имею в виду, как правило, опечатки в формулах и данных.
  4. Существует также специфический тип нарушения достоверности информации - значимые умолчания. Значимым умолчанием называется отсутствие в статье информации, критически важной для описания предмета статьи, при наличии в ней второстепенной информации.
  5. В Википедии изредка встречаются также случаи сознательной фальсификации, когда источник информации на самом деле не подтверждает её.

Участники Википедии, как правило, понимают, что большинство статей Википедии может использоваться только в качестве хорошо аннотированного каталога релевантных ссылок. Но многие читатели, привыкшие к работе с бумажными энциклопедиями, желают получать достоверную информацию непосредственно из текста статей, и Википедия должна всеми силами стремиться к удовлетворению этой потребности читателей. Одна из наиболее значимых претензий к содержанию Википедии была высказана 6 марта в статье Сергея Леонова в журнале Компьютерра, активно обсуждавшейся на форуме Википедии. Первая часть статьи посвящена разбору статьи Электронно-лучевая трубка, которая содержит множество устаревших и просто ошибочных данных. Во второй части автор ставит под сомнение, что в России найдётся достаточное количество энтузиастов чтобы исправить ситуацию в Википедии, рассуждает о допустимости доверия к Википедии, её негативном влиянии на общество посредством популяризации недостоверных «знаний».

Проект выверки статей[править код]

Для увеличения проверяемости и достоверности информации Википедии среди нескольких других вариантов был предложен проект выверки статей. Данный вариант решения проблемы получил преимущество перед остальными по двум причинам. Во-первых, этот механизм уже находился (и до сих пор находится) на тестировании в немецком разделе Википедии. Во-вторых, проект продвигал DrBug - один из наиболее энергичных участников Википедии.

Суть проекта выверки статей состоит в том, у каждой версии статьи существует логический атрибут выверенности. Этот атрибут ставится в том случае, если все нетривиальные утверждения статьи подтверждаются информацией из источников. Источники информации должны быть указаны непосредственно в статье и либо являются общими на всю статью (в разделе «источники»), либо проставлены к конкретному утверждению. Существуют также некоторые другие требования к установке атрибута выверенности, которые де факто являются менее существенными и в данной работе анализироваться не будут.

На предварительной стадии тестирования в связи с отсутствием (пока) в движке Медиавики указанного атрибута выверенности результат проверки версии статьи на выверенность оформлялся простановкой шаблона. В связи с неудобствами, связанными с этим процессом, полноценный запуск проекта выверки статей будет возможен только после соответствующей модернизации движка. Тем не менее, на данной стадии было необходимо протестировать принципиальную возможность выверки и оценить возможные проблемы и способы их устранения. Ниже представлены результаты этого тестирования.

  1. Процедура выверки одной статьи, содержащей более одного-двух абзацев, занимает, как правило, не менее нескольких часов. При этом время выверки в среднем не прямо пропорционально объёму статьи. Дело в том, что большие и хорошие статьи, как правило, уже содержат все необходимые источники, и задача состоит только в том, чтобы убедиться в соответствии информации. В стабах утверждений гораздо меньше, но и источники в стабах указываются крайне нерегулярно. Основная задача при выверке стаба (если есть желание получить выверенную версию) заключается в поиске и простановке источников.
  2. Желающих заниматься неблагодарным трудом выверяющего довольно немного. Кроме автора проекта DrBug'а в нём активно работали только Kv75 и Ilya Orlov. Интересное совпадение (или закономерность) заключается в том, что оба эти участника – физики-экспериментаторы. На основании столь бедной статистики нельзя сделать серьёзных выводов, но напрашивается предположение, что именно стиль работы физиков-экспериментаторов при написании научных статей больше всего соответствует процедуре выверки статьи.
  3. Совершенно очевидно, что наибольшая эффективность достигается при последовательной выверке статей на одну и ту же тему. Это связано с тем, что статьи на одну тему имеют либо общие источники, либо общие коллективы учёных, занимающихся этой проблемой, а также одни и те же научные журналы, в которых публикуются статьи. В результате время поиска источников для последующих статей из цепочки статей одной тематики существенно сокращается. Более того, в процессе выверки выверяющий сам становится специалистом в теме выверяемых статей и может приступить (а точнее, неизбежно приступает) к улучшению и дополнению самих статей.
  4. Важным побочным результатом последовательной выверки статей может стать создание тематических библиографических списков. Централизованное построение таких списков дало бы возможность как унифицировать ссылки в статьях, так и облегчить участникам Википедии поиск авторитетных источников по соответствующей теме. Кроме того, их наличие может способствовать написанию обзорных статей, с чем Википедия пока испытывает серьёзные трудности.
  5. Выверяющий должен знать обязательные источники для тематики выверяемой им статьи. В связи с этим необходимо составлять соответствующие перечни. Делать это можно как в рамках проекта выверки, так и независимо.
  6. Механизм выверки может быть эффективно использован только в том случае, если в процессе выверки будет принимать участие значительная часть активных участников Википедии. Наибольшие трудозатраты здесь приходятся на выверку уже существующих версий. Учитывая, что средняя скорость выверки одного выверяющего составляет примерно 1 статью в сутки, для выверки 50 тыс. статей (моя оценка количества статей, нуждающихся в выверке) потребуется 50 тыс. человеко-дней.

Правила и практика проекта[править код]

На странице проекта выверки предлагается следующее определение.

Выверка статей — это система проверки статей доверенными участниками, способными проконтролировать отсутствие вопиюще недостоверных, заведомо ложных или нарушающих законодательство фраз в статьях, а также отсутствие вопиющих проблем в их внешнем виде. Чтобы эта система не вредила развитию проекта, используется подход, широко распространённый в сфере разработки ПО с открытым кодом: существование текущей (рабочей) версии и стабильных (выверенных и досмотренных).

Для понимания ситуации необходимо более подробно рассмотреть отдельные моменты этого определения в контексте реального функционирования проекта в тестовом режиме.

Первый вопрос связан с тем, кто такие выверяющие. На данный момент выверяющим может стать любой участник, проявивший заинтересованность в проекте. Когда система выверенных версий будет реализована на уровне движка, видимо, какие-то формальные требования к желающим выверять статьи появятся, но они не будут обременительными; надо иметь в виду, что выверяющих должно быть много. На деле основным требованием является способность качественно (что, разумеется, включает в себя непредвзятость) выверять статьи. В связи с этим флаг выверяющего должно быть легко получить, но не менее легко и утратить – в случае ненадлежащего качества выверки.

Второй вопрос связан с текущей процедурой выверки. Она состоит из трёх частей. На первом этапе выверяющей выбирает понравившуюся ему статью, проверяет факты статьи на основании указанных источников, анализирует утверждения без источников и пытается найти источники к ним. При этом выверяющий также оценивает авторитетность источников; в случае недостаточной авторитетности он пытается найти более авторитетные источники для данного утверждения. На втором этапе выверяющий публикует информацию о выверяемой им статье на странице проекта "К выверке". При этом он указывает все спорные вопросы, возникшие перед ним при выверке данной статьи: трудность поиска авторитетных источников, конфликт информации из различных источников, значимые умолчания. После этого все участники проекта помогают выверяющему решить указанные спорные вопросы, а также просматривают статью на предмет соответствия её критериям выверенности. На третьем этапе, когда все согласны, что в статье не осталось откровенно недостоверной информации и значимых умолчаний, основной выверяющий ставит в статью шаблон "Выверил".

Процедура постановки шаблона состоит из двух правок, после чего в правом верхнем углу появляется надпись о том, что данная версия статьи является выверенной. Если после этого в статью будут внесены изменения, читатель будет видеть самую свежую версию статьи, но надпись в правом верхнем углу будет сообщать о том, что для данной статьи имеется более старая выверенная версия, и читателю будет предоставлена ссылка на неё.

Перспективы проекта[править код]

Вопросом увеличения достоверности информации обеспокоены не только в русском разделе Википедии. Инициатором проекта выверки был немецкий раздел, что сочетается как с классическим штампом о немецкой пунктуальности, так и с тем, что немецкий раздел, уступая английскому разделу в количестве информации, на данный момент является бесспорным лидером среди других разделов по её качеству. Организация системы выверенных версий уже обсуждается и в английском разделе.

В случае внедрения данной системы на уровне движка есть два принципиально разных варианта обработки новых правок для статей с выверенными версиями. Первый вариант предусматривает отображение по умолчанию самой свежей версии со ссылкой на выверенный вариант статьи, как это сейчас делается в нашем проекте. Второй вариант предполагает, что по умолчанию пользователь будет видеть выверенную версию, а не самую свежую. Собственно, именно в связи с этой возможностью многие издания опубликовали сообщения под заголовками вроде «Германским пользователям запретят редактировать Википедию».

Опыт нашего проекта показывает, что реальная масштабная работа по выверке может начаться только после соответствующих изменений в движке Медиавики. Существующий механизм шаблонов характеризуется низкой защищённостью (любой участник может установить, снять или заменить шаблон выверенности), дополнительной нагрузкой на базу данных (каждая выверенная версия — это минимум две правки, то есть две дополнительных версии статьи), а также некоторой трудоёмкостью. После устранения всех этих недостатков можно всерьёз организовывать массовую выверку.

Очевидно, что тематика выверяемых статей будет в основном зависеть от интересов выверяющих — как тематика статей Википедии вообще зависит от интересов их авторов. В то же время представляется разумным особое внимание обратить на выверку статей на научную тематику, так как именно в этой сфере достоверность данных наиболее критична, а практика выверки уже имеется.

При выверке необходимо также учитывать существующие реалии и не стремиться изменить их одним махом. Например, существует масса статей о вымышленных мирах (фантастика, фильмы, компьютерные игры), критерии авторитетности источников для которых де факто гораздо менее жёсткие, чем для научных статей; во многом это связано с общими принципами написания статей, принятыми в соответствующих субкультурах. Пытаться приводить такие статьи к энциклопедическому формату, конечно, следует, но надо делать это аккуратно и в обязательном сотрудничестве с их основными авторами, чтобы не рубить сук, на котором сидит Википедия.

В отношений многих научных областей существует дополнительная проблема. Это проблема платного доступа к журналам. Не секрет, что большинство издательств публикуют онлайн статьи из своих журналов, делая их доступными либо по институтской подписке, либо за отдельную плату к каждой статье. Например, стандартная цена одной статьи в издательстве Springer — 32 доллара. Когда статья выверена, читатель может сразу определить, какая именно статья ему необходима, если он заинтересовался тем или иным утверждением, и за какую статью ему надо платить в издательстве (или искать в институтских библиотеках). С самой процедурой выверки дело обстоит значительно сложнее, ибо для качественной выверки одной статьи зачастую необходимо просмотреть десятки платных статей в научных журналах. В связи с этим представляется необходимым рассмотреть вопрос о возможности организации доступа к научным журналам для редакторов Википедии.

Также, как уже было отмечено, следует обдумать и запустить проект создания библиографических списков. Этот проект должен развиваться параллельно с системой выверки, так как выверяющие неизбежно будут одними из основных создателей таких списков.

В заключение хотелось бы сказать, что проще предотвратить болезнь, чем лечить её. Идеальная ситуация с достоверностью статей Википедии может возникнуть только тогда, когда авторы изначально пишут статьи на основании авторитетных источников и сразу их указывают. И к этому надо всеми силами стремиться.