Обсуждение проекта:Check Wikipedia

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску
Пожалуйста, добавляйте новые темы снизу

Проблемы с работоспособностью DOI проверять не планируется? Это уж точно шире, чем для PMID. Я в курсе, что некоторые реальные DOI не работают, но в большинстве случаев они не работают всё-таки из-за опечаток. სტარლესს 10:24, 23 апреля 2016 (UTC)[ответить]

Check Wikipedia: большое обсуждение[править код]

Давайте обсудим, какие из представленных ошибок сообщество считает достойным исправления ботами отдельными правками, а какие — нет. Прошу высказаться всем заинтересованным, даже если высказыванием будет безаргументный голос за или против.

Опыт старших разделов: в англовики и фрвики исправляются все из представленных здесь ошибок, по возможности — ботом. В девики ошибки низкого приоритета не исправляются. ~Facenapalmобсвкл 16:01, 2 марта 2017 (UTC)[ответить]

Ошибки, которые мой бот исправляет[править код]

Я их считаю достаточно серьёзными, чтобы совершать ради них правку. Можете оспорить или поддержать.

17: дублирующаяся категория[править код]

То есть, одна категория включена в статью дважды, возможно — с разными ключами сортировки (мой бот выбирает самый длинный). Это может запутать как редакторов, так и ботов, особенно когда ключи сортировки разные.

32: ссылка с двумя пайпами[править код]

То есть, [[Ссылка||текст]], [[Ссылка|текст|]], и так далее. Очевидная синтаксическая ошибка, значительную часть которой можно править автоматом.

42: тег strike[править код]

Устаревший, согласно стандарту HTML5, должен быть заменён на <s>. Да, это не критическая ошибка, но масштаб проблемы — одна-две статьи в месяц отсилы, поэтому их исправляю, чтобы проблема не разрослась.

51 и 53: интервики перед заголовком или перед категориями[править код]

Согласно соглашениям по оформлению статей, должны быть после категорий, но на деле интервики практически не используются. В 75 % случаев их используют вместо интервики-ссылок ([[en:Article|текст]] вместо [[:en:Article|текст]]) — это я и правлю ботом.

вроде как все интервики должны быть на Викиданных. Остается случай форков, но я не помню, допускаются ли явные интервики или все боты с ними расправляются путем переноса на Викиданные и удаления. Текст [[:en:Article|текст]] полезнее заменять на шаблон семейства {{Не переведено}}, хотя 100 % гарантии, что статья в enwiki будет значимой в рувики, нет. — Igel B TyMaHe (обс.) 09:16, 3 марта 2017 (UTC)[ответить]
Прямых ссылок на иноязычный раздел у нас 60 тысяч, лишние 5 в месяц погоды не сделают. Исправляя, исхожу из того, что лучше исправить ломающую ошибку сейчас, оставив недочёт, чем не браться исправлять вообще. ~Facenapalmобсвкл 10:36, 3 марта 2017 (UTC)[ответить]

62: ссылка без http[править код]

[www.example.com Пример]. Не парсится движком, очевидная синтаксическая ошибка. Правлю везде, где это не противоречит спам-листу.

Это иногда не ошибка, а обход бан-листа. — Igel B TyMaHe (обс.) 09:11, 3 марта 2017 (UTC)[ответить]
Тот факт, что ошибку делают, чтобы обойти бан-лист, не делает это не ошибкой. :) ~Facenapalmобсвкл 10:36, 3 марта 2017 (UTC)[ответить]
А бан-лист на действия бота как реагирует? — Igel B TyMaHe (обс.) 22:22, 3 марта 2017 (UTC)[ответить]
Не даёт отправить, фреймворк падает с исключением, бот его ловит и идёт править следующую статью. Только сейчас понял, что бот теоретически должен упасть и при других задачах, если будет редактировать такую статью и попытается заодно и ссылку поправить. Видимо, этого до сих пор не происходило, потому что таких статей осталось всего две. Кстати, если поможешь их поправить, я буду очень благодарен, потому что я сомневаюсь, как именно стоит это сделать. ~Facenapalmобсвкл 23:12, 3 марта 2017 (UTC)[ответить]

69: синтаксис ISBN[править код]

Например, «ISBN: 0-12-345678-9» (с двоеточием) вместо «ISBN 0-12-345678-9». Второе, как видите, движком заменяется на ссылку на спецстраницу.

70: длина ISBN[править код]

Для русского раздела находит ещё такую ошибку: вместо английского «X» стоит русская «Х»: «ISBN 1-234-56789-X». С точки зрения checkwiki, да и движка - ISBN обрывается после девятого символа, а дальше идёт текст. Это я и правлю ботом. Очевидная синтаксическая ошибка.

Критерий для чеквики - выявлять последовательности символов без пробелов, содержащие одновременно латиницу и кириллицу. Скорее всего, это ошибка или вандализм. — Igel B TyMaHe (обс.) 09:19, 3 марта 2017 (UTC)[ответить]
Вот здесь я как раз вандализма почти не встречал. Критерий для чеквики сложнее, потому что из латиницы может стоять только X, только в десятизначном ISBN и только на месте последнего символа (контрольной суммы). ~Facenapalmобсвкл 10:36, 3 марта 2017 (UTC)[ответить]

80: ссылка с разрывом строки[править код]

Означает одно из двух: либо там есть [http://www.example.com перевод строки] (что, как видите, корректно не парсится), либо ссылка не закрывается квадратной скобкой. Первое бот исправляет, второе — пытается. Очевидная синтаксическая ошибка.

86: внешняя ссылка с двумя квадратными скобками[править код]

[[http://www.example.com Пример]]. В большинстве своём встречается одновременно с одной из следующих двух ошибок.

90: внешняя ссылка на русскую Википедию[править код]

[https://ru.wikipedia.org/wiki/%D0%97%D0%B0%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D0%B0%D1%8F_%D1%81%D1%82%D1%80%D0%B0%D0%BD%D0%B8%D1%86%D0%B0 Пример] вместо [[Заглавная страница|Пример]]. Кроме того, что второй вариант лаконичнее и понятнее, первый обладает следующими недостатками: выделяется цветом, всегда ведёт на конкретную версию сайта (полную или мобильную), может вести на незащищённую версию (http: вместо https:), не учитывается при поиске сирот.

93: внешняя ссылка с дублированием http[править код]

[http://http://example.com Пример]. Очевидная синтаксическая ошибка.

98, 99: Непарные sub и sup[править код]

Бот пытается исправить самозакрывающиеся теги

логика исправления какая? выявить конец индекса - задача не для бота. — Igel B TyMaHe (обс.) 09:21, 3 марта 2017 (UTC)[ответить]
Иногда ошибочно пишут <sup/> вместо </sup>. Бот пытается заменить первое на второе, а потом проверяет баланс. Если после замены каждому открывающему соответствует закрывающий и нет вложенных тегов, бот радуется и отправляет изменения. ~Facenapalmобсвкл 10:36, 3 марта 2017 (UTC)[ответить]

104: сноска с некорректным названием[править код]

Либо с непарными кавычками (<ref name="abc>), либо содержащие запрещённые символы (кавычка, пробел, знак равенства и так далее) и при этом незакавыченная. Обычно ничего не ломается, но иногда ломается. Как движок будет парсить названия таких сносок — не определено.

Ошибки, которые мой бот умеет исправлять, но специально для этого правку не делает[править код]

Эти ошибки я не посчитал достаточно серьёзными, чтобы делать ради них правку, но некоторые — считают. Очень прошу, по возможности, высказаться в каждой подтеме, считаете ли вы необходимым исправлять данную ошибку. Фраза «было исправлено кем-то» означает, что все ошибки с текущего дампа исправлены, и поддерживать количество найденных на уровне нуля должно быть легко.

1: Шаблон с ключевым словом[править код]

{{Шаблон:примечания}} вместо {{примечания}}. Так писать не принято, но ничего критического нет. Между тем, ошибку вообще отключать я не буду, потому что она помогает выявлять статьи, созданные с помощью перевода, и которые часто нужно дооформить. Исправляется викификатором. Было исправлено у:MBHbot.

2: Некорректные HTML-теги[править код]

В основном — неправильно записанные <br>, от </br> до <br. \/>. В большинстве случаев парсятся корректно, хотя после очередного переезда на новый парсер может и перестать, потому что в прогрессивных разделах это не только исправляется ботом, но и считается ошибкой высокого приоритета. Исправляется викификатором.

9: Несколько категорий на одной строке[править код]

Читать невозможно, противоречит правилам оформления. На этом всё.

16: Невидимые символы юникода[править код]

Пробел нулевой ширины, LTR-знак, и прочее, и прочее. В англовики ошибка включает в себя на пару десятков символов больше, чем в остальных разделах, и это исправляется ботом. У нас, пожалуй, невозможно: масштаб проблемы — тысяч 60 статей, насколько я помню.

21: Категория с ключевым словом на английском[править код]

[[Category:Всё]]. Масштаб проблемы — сотня статей. Исправляется викификатором.

22: Категория с пробелами[править код]

[[Категория: Всё]], [[ Категория:Всё]], и так далее. Может мешать при сканировании дампов и ботоработе. Масштаб проблемы — пара тысяч статей. Исправляется викификатором.

26 и 38: HTML-теги b и i[править код]

Может (и хорошо бы) быть заменено на ''' и '' соответственно. Исправлено анонимом.

34: Элементы программирования шаблонов[править код]

Бот умеет только {{PAGENAME}} подставлять, за что есть консенсус.

44: Заголовок содержит выделение жирным[править код]

Ну вы видите. Видите, как это выглядит в заголовке, видите, как это выглядит в содержании. Исправлено анонимом.

48: Ссылка на саму себя[править код]

То есть, когда в статье есть ссылка, ведущая на эту же статью, которая, понятное дело, ссылкой быть перестаёт и становится жирным текстом. Ботом удаляется, на жирный текст не заменяется.

50: HTML-мнемоника для тире[править код]

и прочее. Мешает работать викификатору, непонятно. Исправлено анонимом.

52: Категория перед заголовком[править код]

А должна быть в самом конце, перед интервиками, согласно соглашениям по оформлению.

аналогично интервикам, это может быть прямая ссылка на категорию: [[:Категория:Всё]]. — Igel B TyMaHe (обс.) 09:24, 3 марта 2017 (UTC)[ответить]
Правятся не ссылки на категории, а включения в них. То бишь, [[Категория:Всё]]. Так делают все боты, эта же замена включена в AWB general fixes. ~Facenapalmобсвкл 10:52, 3 марта 2017 (UTC)[ответить]

54: Список с br[править код]

То есть, в конце элемента списка содержится тег <br>, который делает буквально ничего.

57: Заголовок, завершающийся двоеточием:[править код]

Что бессмысленно.

Это ошибка оформления.
Есть такая порочная практика:[править код]
  • использовать заголовки в качестве вводного текста к перечислению;
  • просто выделять часть предложения;
  • может, ещё какие авторские соображения.
В целом, нужно смотреть, не меняется ли при этом связность текста. — Igel B TyMaHe (обс.) 09:27, 3 марта 2017 (UTC)[ответить]
В принципе, заголовок остаётся заголовком к перечислению даже с наличием двоеточия. Ну я такой вариант помню: в статье, относящейся к какой-то дате, был раздел, посвящённый праздникам, фактически — список. Вот там были заголовки типа «в такой-то религии», «в такой-то религии» и «в православной церкви:». Ещё видел случай, когда все заголовки завершали двоеточием, даже «примечания». Но обещаю внимательней следить за вкладом бота в этой ошибке. ~Facenapalmобсвкл 10:52, 3 марта 2017 (UTC)[ответить]
в том-то и дело, что у перечислений не должно быть заголовков. Это единое предложения, оттого и двоеточие, и точки с запятой, и точка в конце. — Igel B TyMaHe (обс.) 22:28, 3 марта 2017 (UTC)[ответить]
Ну не знаю, ни разу на практике не встречал ситуации, когда убирание двоеточия вредило бы смыслу. Постараюсь обращать на это внимание. ~Facenapalmобсвкл 23:07, 3 марта 2017 (UTC)[ответить]

59: Параметр шаблона с br на конце[править код]

Аналогично 54, ничего не делает, а где что-то делает — должен быть перенесён в шаблон. Чаще всего встречается в карточках в таком контексте: |Инструменты = [[гитара]]<br>[[бас-гитара]]<br>[[барабаны]]<br> |другой параметр =. То есть, тупо ошибка копи-паста.

  • А вот это спорная проблема, перекликающаяся с проблемой висячих запятых и точек с запятой в программировании, — если <br> уже стоит, ты просто копипейстишь последнюю инструкцию сколько нужно раз или сразу дописываешь новый пункт. — Джек, который построил дом (обс.) 17:04, 2 марта 2017 (UTC)[ответить]
    • В отличие от точек с запятой в программировании, <br> переходит и в сгенерированный HTML, где изредка (хотя настолько изредка, что можно и не учитывать) влияет на отображение. А копированию это не мешает: просто нужно будет скопировать не [[ссылка]]<br>, а <br>[[ссылка]], что не трудно, потому что в шаблонах, в отличие от исходного кода, обычно параметр пишется в одну строчку. ~Facenapalmобсвкл 17:16, 2 марта 2017 (UTC)[ответить]

63: Содержимое ref, sup или sub полностью заключено в small[править код]

Читать невозможно.

Но автор же что-то имел ввиду? Возможно, ошибка в чем-то ещё. — Igel B TyMaHe (обс.) 09:28, 3 марта 2017 (UTC)[ответить]
Я посмотрел код и заметил, что решил править автоматом только small в sup и sub. Тут возражений нет? ~Facenapalmобсвкл 10:52, 3 марта 2017 (UTC)[ответить]
Здесь в моей статье в графе «JP Oricon» шаблон источника полностью внутри <small>, разницы никакой не вижу вообще. Ни циферка меньше не стала, ни заголовок источника. (Хотя я вроде когда-то так делал в надежде, что циферка станет меньше и будет меньше мешаться.) --Moscow Connection (обс.) 16:25, 4 марта 2017 (UTC)[ответить]
Во-первых, речь идёт о <ref><small>, а не о <small><ref>. Во-вторых, в твоём случае её корректнее будет убрать из small'а. :) ~Facenapalmобсвкл 18:06, 4 марта 2017 (UTC)[ответить]

64: Ссылка совпадает с её текстом[править код]

Как я уже говорил, [[Ссылка|''ссылка'']] вместо ''[[ссылка]]''. Исправляется викификатором, но не везде. Держу включенной для слежения за этим «не везде» и тенденцией. Тенденция — очень медленный спад.

65: Описание изображения кончается br[править код]

Аналогично 54 и 59, ничего не делает, только мусорит в коде.

68: Ссылка на другой раздел[править код]

Бот исправляет только [[:ru:Что-то|текст]], убирая это :ru:.

85: Тег без содержимого[править код]

<gallery></gallery>. Просто мусор в коде.

88: DEFAULTSORT с пробелами[править код]

{{DEFAULTSORT: Леннон}}. Пробел после двоеточия не влияет ни на что, но принято писать без него, как и в случае с категориями.

101: sup в порядковых номерах[править код]

1st, 2nd, и так далее. Окромя стилизованных названий на логотипах — ненужно и неправильно.

MS Word думает иначе. Впрочем, он и Дни Недели предлагает с большой буквы писать. — Igel B TyMaHe (обс.) 09:29, 3 марта 2017 (UTC)[ответить]
В англовики, например, оформлять так не принято. А в русском языке вряд ли есть отдельные правила на оформление английского текста. :) ~Facenapalmобсвкл 10:52, 3 марта 2017 (UTC)[ответить]
А во французской и итальянской Википедиях так оформлять принято (2e, 2º). --Moscow Connection (обс.) 14:51, 4 марта 2017 (UTC)[ответить]
Английские порядковые номера (а речь про них) у французов принято писать без надстрочного текста, нарушение чего находится и исправляется через французский филиал этого же проекта. Про итальянцев не скажу. ~Facenapalmобсвкл 15:56, 4 марта 2017 (UTC)[ответить]

103: Код пайпа в ссылке[править код]

[[ссылка{{!}}текст]]. Не нужно, даже внутри шаблонов. Только новичков сбивает.

Ошибки, которые теоретически можно править ботом[править код]

Мой бот их исправлять не умеет, но можно научить, хотя бы частично. Если обсуждение покажет, что проблемы актуальные — я приступлю.

7: Заголовки с третьего уровня[править код]

Первый заголовок в статье — третьего уровня, а должен быть второго.

следует обучить бота. — Igel B TyMaHe (обс.) 09:30, 3 марта 2017 (UTC)[ответить]

11: HTML-мнемоника вместо символа[править код]

&alpha;, etc. nbsp сюда не входит.

выглядит безопасно. — Igel B TyMaHe (обс.) 09:32, 3 марта 2017 (UTC)[ответить]

19: Заголовки с первого уровня[править код]

Первый заголовок в статье — первого уровня, а должен быть второго.

следует обучить бота. — Igel B TyMaHe (обс.) 09:33, 3 марта 2017 (UTC)[ответить]

39: Тег p[править код]

В идеале использоваться не должен, в очевидных случаях может удаляться.

а как оно работает? по идее, удаление без замены на двойной перевод строки убивает абзац. А если вообще без перевода строки текст или уже два перевода есть? — Igel B TyMaHe (обс.) 09:34, 3 марта 2017 (UTC)[ответить]
Пока никак не работает, вообще не думал на эту тему. Абзацы я убивать, конечно же, не буду. Ну, я видел, например, такой случай: | <p align="right"> текст (в таблице), причём p был даже не закрыт - такое ботом править можно. Плюс можно пытаться определять случаи, когда все абзацы форматированы с помощью p, и переформатировать их двойными переводами строк, да. ~Facenapalmобсвкл 10:58, 3 марта 2017 (UTC)[ответить]

40: Тег font[править код]

В идеале использоваться не должен, может быть заменён на шаблоны, хотя обычно требует ручного контроля.

если шаблон не единственный, то как бот будет их выбирать? В целом, я не совсем понимаю, о чём речь. Нужен пример. Тэгом раньше пользовался, сейчас чаще style. — Igel B TyMaHe (обс.) 09:36, 3 марта 2017 (UTC)[ответить]
Аналогично предыдущему, пока не думал на эту тему. Лол, посмотрел код {{color}} — там с недавних пор тоже font. Возможно, шило на мыло менять и не стоит. ~Facenapalmобсвкл 10:58, 3 марта 2017 (UTC)[ответить]

55: Дублирование small[править код]

<small><small><small>Здорово, правда?</small></small></small> Здорово, правда?

12, 31: HTML-теги списков и таблиц (UPD)[править код]

Не всегда очевидно, на что заменять <li>, <td> и прочее, особенно если они с параметрами но по очевидным случаям можно и ботом пройтись. ~Facenapalmобсвкл 11:02, 3 марта 2017 (UTC)[ответить]

  • Я использую <li>, когда после разрыва нужно продолжить нумерованный список с определённого номера, а не с единицы. Пример из последнего: список треков, мешала увертюра. --Moscow Connection (обс.) 15:01, 4 марта 2017 (UTC)[ответить]
    • Я знаю об этом кейсе, но обычно можно обойтись и без него. Скажем, часто разбивают список на две колонки таким образом: с помощью шаблона {{col-2}} создают таблицу из двух ячеек и создают два списка, начиная второй с нужного номера. Вместо этого можно организовать разбиение списка на две колонки шаблоном {{кол}}, который работает через css, что, помимо более понятного кода, будет и правильнее семантически. Также повысится веб-доступность (на которую в рувики всем плевать): скажем, экранный диктор в первом случае зачитает это, как два разных списка, а во втором — как один. Вот какие-то такие замены я делать и буду. Бездумно менять, игнорируя тот факт, что нарушается нумерация я, конечно же, не буду. ~Facenapalmобсвкл 15:51, 4 марта 2017 (UTC)[ответить]

Общее обсуждение[править код]

По явному большинству ошибок считаю, что исправлять их нужно, кроме следующих:

  • Несколько категорий на одной строке - читать легко, не нужно править отдельной правкой
  • Невидимые символы юникода - обязательно нужно править, как можно больше символов, взять всё из анвики, можно отдельной правкой. Даже если там будет 600к статей. Эта дрянь очень мешает: техники хоть знают, что странное поведение кода может быть обусловлено ими, а обычные юзеры нет, и я уже не раз видел на техфоруме жалобы на "квадратики" (так они отображаются в старых браузерах) и странности в коде, обусловленные невидимыми символами
  • Категория с ключевым словом на английском - исправлять не нужно
  • Категории и дефолтсорты с пробелами - можно не править. Дампам и ботоработе не мешает, надо просто на всех границах ставить \s*, я давно привык
  • хтмл-мнемоники на юникод-символы править нужно. С нобром только здесь неоднозначность, есть аргументирующие против этого тем, что он перестаёт быть виден
  • small в основном пространстве, вроде бы, неуместен и одинарный, в шаблонах же потенциально возможен и двойной
  • Если в статье есть заголовки первого уровня, понижать нужно уровень всех заголовков
  • Ещё очень желательно править статьи с символами из en:Unicode Private Use Area, их отчего-то очень не любит АВБ и пропускает такие статьи при правке. Обычно это буквы редких алфавитов, которые нужно просто удалять.

MBH 17:03, 2 марта 2017 (UTC)[ответить]

  • Вообще не вижу проблем от косметических правок. Кому не нравится - отключит бота из СН. Лишний клик сделать не трудно. А любая нестандартность в коде - лишние проблемы при сложных заменах.--Abiyoyo (обс.) 18:28, 2 марта 2017 (UTC)[ответить]
  • Отдельные замечания высказал, остальное - как указал предыдущий оратор, у меня ботоправки отключены. — Igel B TyMaHe (обс.) 09:37, 3 марта 2017 (UTC)[ответить]
  • В принципе для меня наиболее понятный подход — правки, не влияющие на отображение страниц и не являющиеся явными ошибками вики-синтаксиса, не должны делаться отдельными проходами (то есть такого, как у бота-конвеера, быть было не должно), влияющие — должны. Устаревшие тэги за исключением совсем одинаковых случаев лучше всё-таки вручную. St. Johann 12:44, 4 марта 2017 (UTC)[ответить]
  • Я за то, чтобы как минимум однократно пройтись ботом и исправить всё (или почти всё, то есть с учётом замечаний) перечисленное в разделе «Ошибки, которые мой бот умеет исправлять, но специально для этого правку не делает». В английской Википедии косметические правки не запрещены, тут тоже в день работы бота будет веселее. :-) И польза есть, код будет чуть аккуратнее, приятнее будет редактировать. --Moscow Connection (обс.) 18:54, 4 марта 2017 (UTC)[ответить]

Итог[править код]

Раз уж обсуждение окончательно затихло, подведу.

Ботовычистка была вяло поддержана, поэтому расширяю список автоматически исправляемых ошибок до всех, перечисленных в «Ошибки, которые мой бот умеет исправлять», кроме:

  • 22 (категория с пробелами), 64 (ссылка, которую можно сократить) — здравый смысл, ни на что не влияющее изменение, не достойное отдельной правки. Может, пущу бота добить проблему, как она будет практически решена.

Статус «под вопросом» остаётся у следующих ошибок:

  • 1 (шаблон с явно заданным ПИ) и 21 (категория с ПИ на английском) — первое обычно остаётся после инструмента по переводу содержания, второе — после правок-переводов новичков, так что статье, очень вероятно, требуется дополнительное оформление (раз уж даже викификатор не прожимался ни разу). Если будет немного — буду регулярно исправлять руками.
  • 16 (невидимые символы юникода) — надо сначала оценить масштаб проблемы и подумать, с какой стороны зайти, а у чеквики пока какие-то проблемы с её обнаружением.

~Facenapalmобсвкл 20:02, 10 марта 2017 (UTC)[ответить]

для архива Поиск шаблонов внутри <math> — это баг? 212.92.176.210 16:10, 21 октября 2018 (UTC)[ответить]

лишнее[править код]

Здесь находятся завершившиеся обсуждения. Просьба не вносить изменений.

Заголовок не завершается знаком равенства - 99,5% noinclude неоднознаночсти — убрать бы.. ~~‍~~ Jaguar K · 18:36, 26 августа 2021 (UTC)[ответить]

Ошибки про простановке внутренних ссылок[править код]

Добрый день, а обрывки от неправильно проставленных внутренних ссылок отслеживаются "[[", "|" ? Обычно в статьях такие символы встречаются нечасто Proeksad (обс.) 21:45, 18 августа 2022 (UTC)[ответить]