Обсуждение Википедии:Запросы к ботоводам/Заявки/Темы-сироты

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску

Первое приближение: Категория:Википедия:Изолированные статьи. Mashiah 21:07, 14 июля 2007 (UTC)[ответить]

История[править код]

Пранализировав объём собственных возможностей, решил перенести это обсуждение со страницы Википедия:Форум/Технические вопросы cюда. Mashiah 20:14, 7 июля 2006 (UTC)[ответить]

В списке Википедия:Статьи для улучшения присутствует список страниц-сирот. По-моему, это хороший инструмент для исследования связности Википедии. Однако, он не является достаточным.

Предположим, существует страница A и она ссылается на страницу B, а та в свою очередь ссылается на страницу A, а других внутренних ссылок на этих страницах нет. Пара (A,B) не связана ссылками с остальными разделами википедии.

Можно отслеживать как пары, так и более обширные группы статей. Например, интересно найти группу статей максимального размера, не имеющую связей с остальными статьями Википедии.

Я думаю, нужен инструмент, позволяющий отлавливать такие цепочки. Имея такой инструмент, можно отслеживать необходимость добавления недостающих связующих тематических статей.

Mashiah 23:15, 2 июля 2006 (UTC)[ответить]

Скачайте отсюда http://download.wikipedia.org/ дамп русского раздела (ruwiki) в виде XML, и — простор в упражненииях в программировании для всевозможного анализа данных. Как прочитать XML см. здесь Как пользоваться ботами на языке Python (англ.). Кстати, для таких работ, не редактирующих Википедию, получать статус бота не нужно. Maksim-e 16:05, 3 июля 2006 (UTC)[ответить]
Концепция, как говорится, ясна. Попытаюсь максимально упростить задачу, сведя её к уже решённым. Какой-то бот (логично предположить, что он называется lonelypages) уже собирает информацию о страницах сиротах. В доке на боты сказано, что можно улучшить бот и прислать апдейт ботовладельцу. Кто бы мог им владеть и где взять исходник? Ещё вопрос, если позволите: стоит ли перенести эту дискуссию в Википедия:Запросы к ботоводам? Mashiah 21:00, 3 июля 2006 (UTC)[ответить]
Подозреваю, что всё-таки для поиска таких групп взаимно-связанных страниц нужна существенно более сложная обработка данных, и без анализа дампа не обойтись. Бот, собирающий информацию о страницах сиротах, существенно проще. И он может вообще не существовать, так как Служебная:Lonelypages создаётся не ботом а викидвижком. Maksim-e 05:18, 4 июля 2006 (UTC)[ответить]
В то же время, викидвижок что-то считает ссылками, а что-то нет (категории, ссылки на несуществующие страницы). Робот, о котором идёт речь, должен делать в точности то же самое, лишь по-другому обрабатывая собранную информацию. Mashiah 06:25, 4 июля 2006 (UTC)[ответить]
В пакете pywikipedia (см. по ссылкам выше) уже есть подпрограммы, которые умеют различать ссылки по сортам и др.. Ими можно воспользоваться. Maksim-e 10:12, 4 июля 2006 (UTC)[ответить]
Наверное, я задал уже слишком много вопросов, и всё же... Допустим, скрипт готов. Насколько я понимаю, я должен запускать его где-то у себя. На мой взгляд, было бы правильнее делать это поближе к серверам. Mashiah 11:04, 4 июля 2006 (UTC)[ответить]
Смотри m:Toolserver. — Ed 11:11, 4 июля 2006 (UTC)[ответить]