Проект:Качество/Анализ 2006

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску
Цель обсуждения
Хорошо известно, что отображаемое счётчиком статей (2 014 411) количество явно завышено. Большинство текстов, которые он считает, не имеют никакого отношения к энциклопедическим статьям. Предлагается составить строгие критерии определения качества статьи с тем, чтобы можно было провести полный анализ современного состояния Википедии.

Первоначальный запрос

[править код]

Я думаю, что ни для кого не секрет, что число, которое показывает счётчик статей (2 014 411) явно завышено. Большинство текстов, которые он считает, не имеют никакого отношения к энциклопедическим статьям. Хорошо бы сделать такой бот, который раз в сутки бы считал общее количество статей по более строгим правилам и помещал бы это число, к примеру, в Шаблон:Реальное количество статей. Тогда бы можно было бы хоть ориентироваться, сравнивая это число с числом на счётчике, какой процент у нас мусора и увеличивается или же уменьшается этот процент.

Предлагаю считать по следующим критериям:

  • Статья должна находится в основном пространстве имён.
  • Статья должна быть больше 500 байт.
  • Статья должна содержать не менее 3 внутренних ссылок.
  • Статья не должна входить в категории:
    • disambig
    • stub (см. ниже)
    • списки
  • Среди авторов статьи не должны быть только роботы

Какие бы ещё критерии добавить? И насколько реально сделать такого робота? --Ctac (Стас Козловский) 19:12, 29 августа 2006 (UTC)[ответить]

Еще добавил:

  • Не считать статьи про даты и годы. (За исключением статьи 30 февраля).
  • Не считать статьи про цифры (например, 10 (число)).
  • Статья не должна быть редиректом на другую.
  • Статья не должна иметь в названии «/». Например, Василий Пупкин/Temp.
  • Не считать статьи, в которых стоят шаблоны vfd, delete, cleanup, wikify, POV, орисс, copyvio.
  • Не считать статьи, где не проставлена категория.

--Ctac (Стас Козловский) 20:20, 29 августа 2006 (UTC)[ответить]

И ещё:

  • Не считать статьи в категории stub, если их объём меньше 1500 байт.

--Ctac (Стас Козловский) 07:48, 30 августа 2006 (UTC)[ответить]

Обсуждение идеи

[править код]
  • POV считать. Масса вполне толковых статей содержат этот шаблон, потому что некоторые товарищи на этом настаивают. Например, Гомофобия — я так и не могу добиться понимания — чего там ненейтрального. --Владимир Волохонский 07:01, 31 августа 2006 (UTC)[ответить]
  • Я бы поставил ограничение не менее 1,5 Kb. Что до робота, то, вероятно, такую работу в любом случае можно будет делать тольк5о по дампу, — так, как делаются страницы статистики. — Эта реплика добавлена участником Kaganer (ов)
  • Насчёт «процента мусора» — не согласен. Дело в том, что дизамбиги и уж тем более списки никак не являются мусором, и увеличение их количества улучшает качество энциклопедии. Стабы у нас стоят далеко не во всех местах, где должны быть, и наоборот — далеко не все статьи, где стоят стабы, являются «мусором» (где-то и снять можно). --AndyVolykhov 19:18, 29 августа 2006 (UTC)[ответить]
    Если стоит стаб, то автор недоволен текстом. Значит считаем её для простоты недоделанной. Для строго подсчёта этого достаточно. Что касается списков, то они хоть, возможно, кому-то и полезны, но энциклопедическими статьями в полном смысле этого слова не являются. --Ctac (Стас Козловский) 19:35, 29 августа 2006 (UTC)[ответить]
    Да, но и мусором их считать нельзя! Значит, «процент мусора» — это должно быть отношение числа слишком маленьких незаконченных и залитых статей к общему числу статей, не считая списков и дизамбигов. И то если быть уверенным, что стабы расставлены по-человечески. --AndyVolykhov 19:55, 29 августа 2006 (UTC)[ответить]
    Ну, хорошо. Не «мусором», а «статьями сомнительного качества». Я просто предлагаю создать предельно жёсткий критерий и посмотреть много ли после этого статей там останется. Если он будет отсекать стабы, то авторы статей будут думать когда их ставить, а когда нет ;)--Ctac (Стас Козловский) 20:20, 29 августа 2006 (UTC)[ответить]
  • Вполне разумное правило, но для этого надо все стабы и «весёлые» шаблоны свести к одному корню. Ещё не учитывать шалоны «chekup»? «wikify» … И списки все свести к категориям … Ну а стабы — например, при наличии стаба надо чтобы в статье было не менее 1600 знаков, а без стаба — 500… неон 19:23, 29 августа 2006 (UTC)[ответить]
    Согласен. Так будет логичнее. --Ctac (Стас Козловский) 07:48, 30 августа 2006 (UTC)[ответить]
  • Чо там считать-то?! У нас в день создается не более 10 сколь-нибудь приличных статей. Умножьте на срок существования проекта в днях и задумайтесь над получившимся результатом. :-) Dart evader (а возможно, Nevermind; а может быть, и ГСБ) 19:28, 29 августа 2006 (UTC)[ответить]
    Неа. Раньше было гораздо меньше 10. Вопрос в том, увеличивается ли или уменьшается соотношение мусора к относительно нормальным статьям со временем. --Ctac (Стас Козловский) 19:41, 29 августа 2006 (UTC)[ответить]
    Оно остается неизменно удручающим. Не так давно Максим Разин приводил статистику на страничке АПЭ. Dart evader (а возможно, Nevermind; а может быть, и ГСБ) 19:53, 29 августа 2006 (UTC)[ответить]
  • Скриптом это подсчитать довольно просто (с точки зрения написания), но полторагигабайтовая БД будет обрабатываться… хм… в общем, на Toolserver за это спасибо не скажут. Сейчас попытаюсь пооптимизировать. Ed 06:16, 30 августа 2006 (UTC)[ответить]
    Ура! На повелителя ботов вся наша надежда :) --Ctac (Стас Козловский) 07:48, 30 августа 2006 (UTC)[ответить]
    Насчёт stub — это неправильно, потому что у нас есть много стабов, которые по качеству далеко не стабы, а очень неплохие (но не очень большие) статьи // vh16 (обс.) 06:47, 30 августа 2006 (UTC)[ответить]
    В случае, если в статье полностью раскрыта её тема (пусть и без значительных подробностей) пометку стаба нужно убирать, идеальной статья всё равно никогда не станет. MaxiMaxiMax 06:51, 30 августа 2006 (UTC)[ответить]
    Надо убирание пометки stub сделать работой недели :)) // vh16 (обс.) 06:55, 30 августа 2006 (UTC)[ответить]
    Не надо! Ну вот Револьвер системы Нагана по объему и охвату нормальная статья, но пока не охвачен спортивный раздел стоит stub. Снимать его не нужно, статья не доведена до конца и нужно указать на это читателю, но и считать сомнительной статьей я бы не стал.--83.102.202.2 06:57, 30 августа 2006 (UTC)[ответить]
    На мой взгляд, критерий, предложенный Неоном, — считать статьями только те стабы, которые больше 1,5 Кбайт — решит эту проблему.--Ctac (Стас Козловский) 07:53, 30 августа 2006 (UTC)[ответить]
  • По стабам предлагаю вот что: не учитываются все статьи с пометкой {{бот}}, все статьи о фильмах, имеющие {{film-stub}} и начатые CodeMonkBot (остальные крупные заливки вроде метеоритов и NGC явно помечены), не учитываются статьи, на которых стоит {{ЭСБЕ}} и {{bio-stub}} (второй также может быть {{scientist-stub}}, {{politic-stub}} и прочее), но при этом присутствует « — ?» (это вообще позор! :(). Ed 07:51, 30 августа 2006 (UTC)[ответить]
    некоторые bio-stub-ы вполне нормальны, часть брокгаузов дополнена, переработана или изначально адекватна--83.102.202.2 07:56, 30 августа 2006 (UTC)[ответить]
    Ты не понял. ЭСБЕ-статьи о персоналиях, содержащие « — ?» — это статьи без года смерти. То есть родился известный путешественник в 1870 году и жив и по сей день. Ясно, что эти-то статьи никто не дорабатывал. Ed 08:12, 30 августа 2006 (UTC)[ответить]
    Вообще правильнее было бы сначала создать отдельного бота, который бы прошёлся по всем статьям и повставлял бы шаблон бот, в статьи, которые никто кроме ботов не редактировал. Имена ботов, в принципе все известны. Что касается массовой заливки Даексом статей ЭСБЕ, то пометить шаблоном можно все статьи, которые им созданы и у которых лишь одна его правка, а остальные правки сделаны только ботами. Так можно было бы отметить все залитые, но не переработанные статьи из ЭСБЕ, статьи о мобилах, статьи о лекарствах, о фильмах и т. п., чтобы потом их можно было выкинуть из подсчёта --Ctac (Стас Козловский) 08:06, 30 августа 2006 (UTC)[ответить]
  • Насколько понимаю, редиректы в подсчет и так не входят. А остальное оценить легко: сто раз посмотреть на случайную статью и вручную посчитать, сколько раз внятная статья выпала. С точностью плюс-минус лапоть, конечно, но все равно нечто осмысленное получится. — kcmamu 08:12, 30 августа 2006 (UTC)[ответить]
    В этом-то как раз вся проблема. Многие уже оценивали количество мусора по нескольким случайным статьям, но у всех получались разные цифры. По разным оценкам, сделанным подобным образом, количество мусора в русской Википедии составляет от 10 до 90 %. Не слабый такой разброс. :) Хотелось бы знать реальное положение дел, а кроме робота, считающего статьи по внятным и всем понятным критериям этого сделать не сможет никто.--Ctac (Стас Козловский) 08:59, 30 августа 2006 (UTC)[ответить]

Еще раз про списки. Вот такие например списки: ГКЯ, Страны мира — на мой взгляд, суть прекраснейшие статьи. Так что я бы не стал все списке под одну гребенку… --Koryakov Yuri 23:07, 30 августа 2006 (UTC)[ответить]

  • Статьи без внешних ссылок чаще всего являются ориссами (не удовлетворяют критерию проверяемости). Думаю, что их также следует исключить. MaxiMaxiMax 18:06, 10 сентября 2006 (UTC)[ответить]
    В статье могут быть ссылки только на печатные источники. --Zserghei 18:49, 10 сентября 2006 (UTC)[ответить]
    Ну давайте тогда так: либо внешние ссылки, либо ISBN, иначе непонятно есть ли книга или это фантазии автора статьи. MaxiMaxiMax 19:03, 10 сентября 2006 (UTC)[ответить]
    Только, пожалуйста, не надо перегибов. В огромном количестве старых изданий никакого ISBN и в помине нет, однако это не делает их непригодными для цитирования. А фраза об ориссах в статьях без внешних ссылок выглядит, как минимум, слишком смелой. Solon 19:23, 10 сентября 2006 (UTC)[ответить]
    Ну, ориссами, разумеется могут быть и статьи с внешними ссылками и литературой, тут не поспоришь. Однако статьи без внешних ссылок явно являются недоделанными - либо автор брал материалы из головы (а голова у всех разная), либо (очень частая ситуация) - источник не называется чтобы скрыть плагиат. В принципе, если неохота исключать их из списка "относительно качественных статей", можно просто дать справосчно как ещё один параметр "В том числе статей без внешних ссылок и литературы (без ISBN)" MaxiMaxiMax 01:33, 11 сентября 2006 (UTC)[ответить]
    Согласен с Solonом — перегибать с ISBN не стоит: по писателям то и дело сверяю даты жизни и публикаций по биобиблиографическим справочникам, которые до конца 1980-х выходили без ISBN и, как мы понимаем, уж при жизни нынешнего поколения переиздаваться с ISBN не будут (если выйдут при нашей жизни оставшиеся тома «Русские писатели. 1800—1917» — это будет чудом) --Alma Pater 22:10, 11 сентября 2006 (UTC)[ответить]

С окончательным критерием качества я, например, не совсем согласен. Может, считать реально качественными статьями только избранные и хорошие, прошедшие тщательный анализ? А шкалу качества надо совершенствовать: под одну шкалу статьи на разные темы не подпадают. Тогда их и считать не надо. Количество байтов в статье и количество ссылок в ней, по-моему, никакого отношения к нормальной статье не имеет. SZ(谢尔盖) 20:22, 18 июля 2009 (UTC)[ответить]

Обсуждение вида отчёта

[править код]

Итак, отчёт от меня требуется в следующей форме (точнее, его ничего не стоит сделать при подробном анализе):

  1. Количество статей, подпадающих под каждый из критериев отфильтровки (иначе говоря, количество мусора по корзинам)
  2. Количество статей, не подпадающих ни под один из критериев отфильтровки (то есть реальное количество статей)

Ed 09:10, 30 августа 2006 (UTC)[ответить]

наверное, было бы небесполезным дать поковыряться в содержимом мусорных корзин, список отсеяных по критериям — неплохой стимул для их улучшения.--83.102.202.2 09:14, 30 августа 2006 (UTC)[ответить]
Можно и так. Сделаем… ;) Ed 09:20, 30 августа 2006 (UTC)[ответить]
Ну, ещё можно хранить где-нибудь таблицу с этими цифрами за разные месяцы, чтобы строить графики соотношения мусора к остальным статьям и наблюдать как русская Википедия улучшается/ухудшается со временем.--Ctac (Стас Козловский) 21:00, 30 августа 2006 (UTC)[ответить]
Для облегчения дальнейшей работы лучше боту сразу проставлять на статьях, которые подпадают под некоторые из критериев (например, про количество знаков), какой-нибудь шаблон. Тогда для следующего обсчёта надо будет анализировать только новые статьи, а остальные просто отнимать от общего количества. --Владимир Волохонский 07:09, 31 августа 2006 (UTC)[ответить]
А вдруг разростётся? --Koryakov Yuri 17:05, 31 августа 2006 (UTC)[ответить]
Не думаю что это хорошая идея — лепить в статьи левые пометки. MaxiMaxiMax 17:53, 31 августа 2006 (UTC)[ответить]
Согласен, помечать статьи не нужно. Хватит и просто списков.--83.102.202.2 06:43, 1 сентября 2006 (UTC)[ответить]

Сравнительный анализ других википедий и исходный код скрипта

[править код]

Хотелось бы для сравнения получить те же данные и для других википедий. Кстати, можно ли получить исходный код скрипта, которым производился анализ? Хочется самому попробовать, немного меняя настройки. Wind 21:56, 11 сентября 2006 (UTC)[ответить]

Народ! Ау! :( Wind 14:32, 12 сентября 2006 (UTC)[ответить]

Итоговый список критериев

[править код]

Внимание: этот раздел — не место для обсуждений, для них есть секция #Обсуждение идеи.

Критерии полноценной статьи:

  1. Не является редиректом на другую.
  2. Находится в основном пространстве имён.
  3. Не является статьёй про дату или и год.
  4. Не является статьёй про число.
  5. Не является временной (/Temp).
  6. Не является списком.
  7. Длина статьи больше 500 байтов.
  8. Длина статьи с пометкой {{stub}}, {{film-stub}} и т. п. больше 1500 байтов.
  9. Содержит как минимум 3 внутренних ссылки.
  10. В статье проставлены категории.
  11. В статье нет следующих шаблонов: «{{disambig}}», «{{vfd}}», «{{delete}}», «{{cleanup}}», «{{wikify}}», «{{орисс}}», «{{copyvio}}», «{{cleanup-rewrite}}», «{{бот}}», «{{linkless}}».

Результаты оценки

[править код]

См. Википедия:Анализ состояния Википедии/Результаты.

Золотая, Серебрянная и Бронзовая Википедия

[править код]
  • Чтобы повысить качество Википедии предлагается сосредоточить внимание на статьях Золотой, Серебрянной, Бронзовой Википедии, идея которых сформулирована в Википедия: Три основы

См. также

[править код]