Проект:Знаете ли вы/Статистика 2016

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску

Этот текст является дополненной и переоформленной версией доклада, сделанного на Вики-конференции 2017.

Проект «Знаете ли вы» представляет интерес для статистического исследования по двум направлениям:

  1. Непосредственное изучение того, что интересует читателей Википедии
  2. Выявление статистических закономерностей поведения читателей

Вышеперечисленное возможно сделать достаточно объективно благодаря формату проекта:

  1. Вынос ссылки на статью на заглавную страницу приводит к резкому росту числа просмотров, при этом, за небольшим исключением, выносятся ссылки на малопопулярные страницы, что означает, что колебание числа просмотров связано именно с выносом на заглавную страницу, а не с какими-либо иными факторами, в отличие, например, от ИС и ХС, где выносимые страницы и без этого могут быть достаточно популярными
  2. Строго определённое время вынесения ссылки на ЗС, производимое ботом, позволяющее корректно сравнивать разные страницы, выносившиеся в разные дни, в отличие от ссылок в других блоках ЗС, которые правятся вручную и не в строго определённое время, что, например, приводит к различным срокам пребывания ссылки на ЗС
  3. Каждый выпуск ЗЛВ содержит не менее 12 ссылок, что даёт насыщенную статистику, удобную для исследования

Общая статистика[править код]

Рассмотрим то, как в целом влияет появление анонса проекта ЗЛВ на число просмотров. Для этого приведём число просмотров к единой шкале по отношению к порядковому дню анонса, просуммировав данные по всем анонсам за год, при этом исключив страницы, которые и без анонса ЗЛВ имели высокий уровень просмотров (например, статью Сафие Султан). Последнее делается для определения «чистых» статистических эффектов анонса ЗЛВ, исключая влияние посторонних факторов. В тоже время, в итоговый рейтинг такие статьи также были включены.

На графике 1. виден эффект от анонса статьи: число просмотров в дни анонса более чем в 100 раз превышает уровень предшествующих дней. Здесь дни анонса имеют номера «1» — «3», кроме того, достаточно высокое число просмотров происходит и в день с номером «0», что связано с особенностями счётчика просмотров и появление анонса на Заглавной странице: на Заглавную страницу анонсы выносятся в 0:00 по московскому времени, а счётчик просмотров работает по всемирному координатному времени, разница между которыми составляет 3 часа.

Из графика видно, что больше всего просмотров приходится на первый день анонса, несколько меньше — на второй, и ещё меньше — на третий. Скорее всего, это связано с существованием различных категорий читателей: некоторые из них читают Заглавную страницу Википедии ежедневно, а другие — реже (раз в два дня, раз в три дня или ещё реже). Соответственно, читатели первой категории прочитают статью в первый день анонса и не будут её читать во второй и третий день, а читатели из второй категории могут прийти в любой день. На основе этой статистики можно оценить долю первой категории примерно как разницу между первым и вторым столбцами, что составляет около 15 % от общего объёма. В таком случае, вторая категория составляет оставшиеся 85 %.

В четвёртый день, когда анонс уже завершён, число просмотров резко падает, однако, не возвращается сразу к начальному уровню. На графике 2 представлены те же данные, что и на графике 1, но с уменьшенной шкалой. И здесь видно, что в четвёртый, пятый и последующие дни число просмотров постепенно снижается, но при этом оказывается большим, чем было в дни до анонса. Это обстоятельство однозначно не интерпретируется и может иметь разные причины. Оно может быть связано с ссылкой на архив, которая расположена под блоком анонсов, может быть связано с распространением анонсированных ссылок на форумах в соцсетях, либо, как было предположено в ходе обсуждения на Викиконференции, с кэшированием информации на зеркалах Википедии. Впрочем, нельзя исключить и какие-либо иные возможные причины.

Статистика по дням недели[править код]

Далее рассмотрим вопрос, как выглядит распределение просмотров в зависимости от дня недели начала анонса. На графике 3 представлено усреднённое распределение для понедельника, вторника, среды, четверга и пятницы, на графике 4 — субботы и воскресенья, соответственно.

Видно, что распределение анонсов в будни в целом повторяет общее распределение. В то же время, анонсы, начавшиеся в выходные, имеют некоторое отличие: в обоих случаях первый день анонса превосходит второй в существенно меньшей степени, при этом, у субботнего анонса третий день (приходящийся на понедельник) превосходит второй (приходящийся на вторник). Таким образом, в выходные дни число просмотров оказывается меньшим, чем в будни. На следующем графике приведено среднее число просмотров в зависимости от дня недели первого дня анонса. В этой статистике максимум приходится на воскресный анонс, а минимум - на субботний с относительной разницей между в 17%. Однако, в случае с детальными разрезами, которые в стабильной ситуации должны повторять общее распределение, это не наблюдается. Например, в случае отдельно взятой статистики по первой строке анонса, максимум приходится на четверг, а минимум - на пятницу, что говорит о существенной волатильности. Таким образом, невозможно определённо утверждать, что одни дни недели для анонсирования более удачны, а другие - менее.

Статистика по свойствам анонсов[править код]

Следующее важное обстоятельство, которое следует исследовать - зависимость числа просмотров от некоторых свойств анонсов, которые допускают возможность измерения. Здесь будут рассмотрены 3 свойства:

  1. Положение анонса в блоке (номер строки)
  2. Расположение ссылки на статью внутри анонса (расстояние в видимых символах от его начала)
  3. Длина ссылки (число видимых символов)