Проект:Качество/Анализ 2006
Первоначальный запрос
[править код]Я думаю, что ни для кого не секрет, что число, которое показывает счётчик статей (2 014 411) явно завышено. Большинство текстов, которые он считает, не имеют никакого отношения к энциклопедическим статьям. Хорошо бы сделать такой бот, который раз в сутки бы считал общее количество статей по более строгим правилам и помещал бы это число, к примеру, в Шаблон:Реальное количество статей. Тогда бы можно было бы хоть ориентироваться, сравнивая это число с числом на счётчике, какой процент у нас мусора и увеличивается или же уменьшается этот процент.
Предлагаю считать по следующим критериям:
- Статья должна находится в основном пространстве имён.
- Статья должна быть больше 500 байт.
- Статья должна содержать не менее 3 внутренних ссылок.
- Статья не должна входить в категории:
- disambig
stub(см. ниже)- списки
- Среди авторов статьи не должны быть только роботы
Какие бы ещё критерии добавить? И насколько реально сделать такого робота? --Ctac (Стас Козловский) 19:12, 29 августа 2006 (UTC)
Еще добавил:
- Не считать статьи про даты и годы. (За исключением статьи 30 февраля).
- Не считать статьи про цифры (например, 10 (число)).
- Статья не должна быть редиректом на другую.
- Статья не должна иметь в названии «/». Например, Василий Пупкин/Temp.
- Не считать статьи, в которых стоят шаблоны vfd, delete, cleanup, wikify, POV, орисс, copyvio.
- Не считать статьи, где не проставлена категория.
--Ctac (Стас Козловский) 20:20, 29 августа 2006 (UTC)
И ещё:
- Не считать статьи в категории stub, если их объём меньше 1500 байт.
--Ctac (Стас Козловский) 07:48, 30 августа 2006 (UTC)
Обсуждение идеи
[править код]- POV считать. Масса вполне толковых статей содержат этот шаблон, потому что некоторые товарищи на этом настаивают. Например, Гомофобия — я так и не могу добиться понимания — чего там ненейтрального. --Владимир Волохонский 07:01, 31 августа 2006 (UTC)
- Я бы поставил ограничение не менее 1,5 Kb. Что до робота, то, вероятно, такую работу в любом случае можно будет делать тольк5о по дампу, — так, как делаются страницы статистики. — Эта реплика добавлена участником Kaganer (о • в)
- Насчёт «процента мусора» — не согласен. Дело в том, что дизамбиги и уж тем более списки никак не являются мусором, и увеличение их количества улучшает качество энциклопедии. Стабы у нас стоят далеко не во всех местах, где должны быть, и наоборот — далеко не все статьи, где стоят стабы, являются «мусором» (где-то и снять можно). --AndyVolykhov ↔ 19:18, 29 августа 2006 (UTC)
- Если стоит стаб, то автор недоволен текстом. Значит считаем её для простоты недоделанной. Для строго подсчёта этого достаточно. Что касается списков, то они хоть, возможно, кому-то и полезны, но энциклопедическими статьями в полном смысле этого слова не являются. --Ctac (Стас Козловский) 19:35, 29 августа 2006 (UTC)
- Да, но и мусором их считать нельзя! Значит, «процент мусора» — это должно быть отношение числа слишком маленьких незаконченных и залитых статей к общему числу статей, не считая списков и дизамбигов. И то если быть уверенным, что стабы расставлены по-человечески. --AndyVolykhov ↔ 19:55, 29 августа 2006 (UTC)
- Ну, хорошо. Не «мусором», а «статьями сомнительного качества». Я просто предлагаю создать предельно жёсткий критерий и посмотреть много ли после этого статей там останется. Если он будет отсекать стабы, то авторы статей будут думать когда их ставить, а когда нет ;)--Ctac (Стас Козловский) 20:20, 29 августа 2006 (UTC)
- Да, но и мусором их считать нельзя! Значит, «процент мусора» — это должно быть отношение числа слишком маленьких незаконченных и залитых статей к общему числу статей, не считая списков и дизамбигов. И то если быть уверенным, что стабы расставлены по-человечески. --AndyVolykhov ↔ 19:55, 29 августа 2006 (UTC)
- Если стоит стаб, то автор недоволен текстом. Значит считаем её для простоты недоделанной. Для строго подсчёта этого достаточно. Что касается списков, то они хоть, возможно, кому-то и полезны, но энциклопедическими статьями в полном смысле этого слова не являются. --Ctac (Стас Козловский) 19:35, 29 августа 2006 (UTC)
- Вполне разумное правило, но для этого надо все стабы и «весёлые» шаблоны свести к одному корню. Ещё не учитывать шалоны «chekup»? «wikify» … И списки все свести к категориям … Ну а стабы — например, при наличии стаба надо чтобы в статье было не менее 1600 знаков, а без стаба — 500… неон 19:23, 29 августа 2006 (UTC)
- Согласен. Так будет логичнее. --Ctac (Стас Козловский) 07:48, 30 августа 2006 (UTC)
- Чо там считать-то?! У нас в день создается не более 10 сколь-нибудь приличных статей. Умножьте на срок существования проекта в днях и задумайтесь над получившимся результатом. :-) Dart evader (а возможно, Nevermind; а может быть, и ГСБ) 19:28, 29 августа 2006 (UTC)
- Неа. Раньше было гораздо меньше 10. Вопрос в том, увеличивается ли или уменьшается соотношение мусора к относительно нормальным статьям со временем. --Ctac (Стас Козловский) 19:41, 29 августа 2006 (UTC)
- Оно остается неизменно удручающим. Не так давно Максим Разин приводил статистику на страничке АПЭ. Dart evader (а возможно, Nevermind; а может быть, и ГСБ) 19:53, 29 августа 2006 (UTC)
- Неа. Раньше было гораздо меньше 10. Вопрос в том, увеличивается ли или уменьшается соотношение мусора к относительно нормальным статьям со временем. --Ctac (Стас Козловский) 19:41, 29 августа 2006 (UTC)
- Скриптом это подсчитать довольно просто (с точки зрения написания), но полторагигабайтовая БД будет обрабатываться… хм… в общем, на Toolserver за это спасибо не скажут. Сейчас попытаюсь пооптимизировать. Ed 06:16, 30 августа 2006 (UTC)
- Ура! На повелителя ботов вся наша надежда :) --Ctac (Стас Козловский) 07:48, 30 августа 2006 (UTC)
- Насчёт stub — это неправильно, потому что у нас есть много стабов, которые по качеству далеко не стабы, а очень неплохие (но не очень большие) статьи // vh16 (обс.) 06:47, 30 августа 2006 (UTC)
- В случае, если в статье полностью раскрыта её тема (пусть и без значительных подробностей) пометку стаба нужно убирать, идеальной статья всё равно никогда не станет. MaxiMaxiMax 06:51, 30 августа 2006 (UTC)
- Надо убирание пометки stub сделать работой недели :)) // vh16 (обс.) 06:55, 30 августа 2006 (UTC)
- Не надо! Ну вот Револьвер системы Нагана по объему и охвату нормальная статья, но пока не охвачен спортивный раздел стоит stub. Снимать его не нужно, статья не доведена до конца и нужно указать на это читателю, но и считать сомнительной статьей я бы не стал.--83.102.202.2 06:57, 30 августа 2006 (UTC)
- На мой взгляд, критерий, предложенный Неоном, — считать статьями только те стабы, которые больше 1,5 Кбайт — решит эту проблему.--Ctac (Стас Козловский) 07:53, 30 августа 2006 (UTC)
- Не надо! Ну вот Револьвер системы Нагана по объему и охвату нормальная статья, но пока не охвачен спортивный раздел стоит stub. Снимать его не нужно, статья не доведена до конца и нужно указать на это читателю, но и считать сомнительной статьей я бы не стал.--83.102.202.2 06:57, 30 августа 2006 (UTC)
- Надо убирание пометки stub сделать работой недели :)) // vh16 (обс.) 06:55, 30 августа 2006 (UTC)
- По стабам предлагаю вот что: не учитываются все статьи с пометкой {{бот}}, все статьи о фильмах, имеющие {{film-stub}} и начатые CodeMonkBot (остальные крупные заливки вроде метеоритов и NGC явно помечены), не учитываются статьи, на которых стоит {{ЭСБЕ}} и {{bio-stub}} (второй также может быть {{scientist-stub}}, {{politic-stub}} и прочее), но при этом присутствует « — ?» (это вообще позор! :(). Ed 07:51, 30 августа 2006 (UTC)
- некоторые bio-stub-ы вполне нормальны, часть брокгаузов дополнена, переработана или изначально адекватна--83.102.202.2 07:56, 30 августа 2006 (UTC)
- Ты не понял. ЭСБЕ-статьи о персоналиях, содержащие « — ?» — это статьи без года смерти. То есть родился известный путешественник в 1870 году и жив и по сей день. Ясно, что эти-то статьи никто не дорабатывал. Ed 08:12, 30 августа 2006 (UTC)
- Вообще правильнее было бы сначала создать отдельного бота, который бы прошёлся по всем статьям и повставлял бы шаблон бот, в статьи, которые никто кроме ботов не редактировал. Имена ботов, в принципе все известны. Что касается массовой заливки Даексом статей ЭСБЕ, то пометить шаблоном можно все статьи, которые им созданы и у которых лишь одна его правка, а остальные правки сделаны только ботами. Так можно было бы отметить все залитые, но не переработанные статьи из ЭСБЕ, статьи о мобилах, статьи о лекарствах, о фильмах и т. п., чтобы потом их можно было выкинуть из подсчёта --Ctac (Стас Козловский) 08:06, 30 августа 2006 (UTC)
- некоторые bio-stub-ы вполне нормальны, часть брокгаузов дополнена, переработана или изначально адекватна--83.102.202.2 07:56, 30 августа 2006 (UTC)
- Насколько понимаю, редиректы в подсчет и так не входят. А остальное оценить легко: сто раз посмотреть на случайную статью и вручную посчитать, сколько раз внятная статья выпала. С точностью плюс-минус лапоть, конечно, но все равно нечто осмысленное получится. — kcmamu 08:12, 30 августа 2006 (UTC)
- В этом-то как раз вся проблема. Многие уже оценивали количество мусора по нескольким случайным статьям, но у всех получались разные цифры. По разным оценкам, сделанным подобным образом, количество мусора в русской Википедии составляет от 10 до 90 %. Не слабый такой разброс. :) Хотелось бы знать реальное положение дел, а кроме робота, считающего статьи по внятным и всем понятным критериям этого сделать не сможет никто.--Ctac (Стас Козловский) 08:59, 30 августа 2006 (UTC)
Еще раз про списки. Вот такие например списки: ГКЯ, Страны мира — на мой взгляд, суть прекраснейшие статьи. Так что я бы не стал все списке под одну гребенку… --Koryakov Yuri 23:07, 30 августа 2006 (UTC)
- С слешом аккуратнее, плиз. Есть статьи вида FHS/etc/passwd, которые вполне себе статьи. #George Shuklin
- Разумеется, это будет учитываться, тем более что я и придумал такую схему именования ;) Ed 13:32, 31 августа 2006 (UTC)
- Ещё нужно исключить статьи, в которых больше 5 % текста не на русском языке. --SergV 19:22, 1 сентября 2006 (UTC)
- Статьи без внешних ссылок чаще всего являются ориссами (не удовлетворяют критерию проверяемости). Думаю, что их также следует исключить. MaxiMaxiMax 18:06, 10 сентября 2006 (UTC)
- В статье могут быть ссылки только на печатные источники. --Zserghei 18:49, 10 сентября 2006 (UTC)
- Ну давайте тогда так: либо внешние ссылки, либо ISBN, иначе непонятно есть ли книга или это фантазии автора статьи. MaxiMaxiMax 19:03, 10 сентября 2006 (UTC)
- Только, пожалуйста, не надо перегибов. В огромном количестве старых изданий никакого ISBN и в помине нет, однако это не делает их непригодными для цитирования. А фраза об ориссах в статьях без внешних ссылок выглядит, как минимум, слишком смелой. Solon 19:23, 10 сентября 2006 (UTC)
- Ну, ориссами, разумеется могут быть и статьи с внешними ссылками и литературой, тут не поспоришь. Однако статьи без внешних ссылок явно являются недоделанными - либо автор брал материалы из головы (а голова у всех разная), либо (очень частая ситуация) - источник не называется чтобы скрыть плагиат. В принципе, если неохота исключать их из списка "относительно качественных статей", можно просто дать справосчно как ещё один параметр "В том числе статей без внешних ссылок и литературы (без ISBN)" MaxiMaxiMax 01:33, 11 сентября 2006 (UTC)
- Согласен с Solonом — перегибать с ISBN не стоит: по писателям то и дело сверяю даты жизни и публикаций по биобиблиографическим справочникам, которые до конца 1980-х выходили без ISBN и, как мы понимаем, уж при жизни нынешнего поколения переиздаваться с ISBN не будут (если выйдут при нашей жизни оставшиеся тома «Русские писатели. 1800—1917» — это будет чудом) --Alma Pater 22:10, 11 сентября 2006 (UTC)
- Ну, ориссами, разумеется могут быть и статьи с внешними ссылками и литературой, тут не поспоришь. Однако статьи без внешних ссылок явно являются недоделанными - либо автор брал материалы из головы (а голова у всех разная), либо (очень частая ситуация) - источник не называется чтобы скрыть плагиат. В принципе, если неохота исключать их из списка "относительно качественных статей", можно просто дать справосчно как ещё один параметр "В том числе статей без внешних ссылок и литературы (без ISBN)" MaxiMaxiMax 01:33, 11 сентября 2006 (UTC)
- Только, пожалуйста, не надо перегибов. В огромном количестве старых изданий никакого ISBN и в помине нет, однако это не делает их непригодными для цитирования. А фраза об ориссах в статьях без внешних ссылок выглядит, как минимум, слишком смелой. Solon 19:23, 10 сентября 2006 (UTC)
- Ну давайте тогда так: либо внешние ссылки, либо ISBN, иначе непонятно есть ли книга или это фантазии автора статьи. MaxiMaxiMax 19:03, 10 сентября 2006 (UTC)
- В статье могут быть ссылки только на печатные источники. --Zserghei 18:49, 10 сентября 2006 (UTC)
С окончательным критерием качества я, например, не совсем согласен. Может, считать реально качественными статьями только избранные и хорошие, прошедшие тщательный анализ? А шкалу качества надо совершенствовать: под одну шкалу статьи на разные темы не подпадают. Тогда их и считать не надо. Количество байтов в статье и количество ссылок в ней, по-моему, никакого отношения к нормальной статье не имеет. SZ(谢尔盖) 20:22, 18 июля 2009 (UTC)
Обсуждение вида отчёта
[править код]Итак, отчёт от меня требуется в следующей форме (точнее, его ничего не стоит сделать при подробном анализе):
- Количество статей, подпадающих под каждый из критериев отфильтровки (иначе говоря, количество мусора по корзинам)
- Количество статей, не подпадающих ни под один из критериев отфильтровки (то есть реальное количество статей)
Ed 09:10, 30 августа 2006 (UTC)
- наверное, было бы небесполезным дать поковыряться в содержимом мусорных корзин, список отсеяных по критериям — неплохой стимул для их улучшения.--83.102.202.2 09:14, 30 августа 2006 (UTC)
- Можно и так. Сделаем… ;) Ed 09:20, 30 августа 2006 (UTC)
- Ну, ещё можно хранить где-нибудь таблицу с этими цифрами за разные месяцы, чтобы строить графики соотношения мусора к остальным статьям и наблюдать как русская Википедия улучшается/ухудшается со временем.--Ctac (Стас Козловский) 21:00, 30 августа 2006 (UTC)
- Для облегчения дальнейшей работы лучше боту сразу проставлять на статьях, которые подпадают под некоторые из критериев (например, про количество знаков), какой-нибудь шаблон. Тогда для следующего обсчёта надо будет анализировать только новые статьи, а остальные просто отнимать от общего количества. --Владимир Волохонский 07:09, 31 августа 2006 (UTC)
- А вдруг разростётся? --Koryakov Yuri 17:05, 31 августа 2006 (UTC)
- Не думаю что это хорошая идея — лепить в статьи левые пометки. MaxiMaxiMax 17:53, 31 августа 2006 (UTC)
- Согласен, помечать статьи не нужно. Хватит и просто списков.--83.102.202.2 06:43, 1 сентября 2006 (UTC)
Сравнительный анализ других википедий и исходный код скрипта
[править код]Хотелось бы для сравнения получить те же данные и для других википедий. Кстати, можно ли получить исходный код скрипта, которым производился анализ? Хочется самому попробовать, немного меняя настройки. Wind 21:56, 11 сентября 2006 (UTC)
- Народ! Ау! :( Wind 14:32, 12 сентября 2006 (UTC)
Итоговый список критериев
[править код]Внимание: этот раздел — не место для обсуждений, для них есть секция #Обсуждение идеи.
Критерии полноценной статьи:
- Не является редиректом на другую.
- Находится в основном пространстве имён.
- Не является статьёй про дату или и год.
- Не является статьёй про число.
- Не является временной (/Temp).
- Не является списком.
- Длина статьи больше 500 байтов.
- Длина статьи с пометкой {{stub}}, {{film-stub}} и т. п. больше 1500 байтов.
- Содержит как минимум 3 внутренних ссылки.
- В статье проставлены категории.
- В статье нет следующих шаблонов: «{{disambig}}», «{{vfd}}», «{{delete}}», «{{cleanup}}», «{{wikify}}», «{{орисс}}», «{{copyvio}}», «{{cleanup-rewrite}}», «{{бот}}», «{{linkless}}».
Результаты оценки
[править код]См. Википедия:Анализ состояния Википедии/Результаты.
Золотая, Серебрянная и Бронзовая Википедия
[править код]- Чтобы повысить качество Википедии предлагается сосредоточить внимание на статьях Золотой, Серебрянной, Бронзовой Википедии, идея которых сформулирована в Википедия: Три основы