Википедия:Рецензирование/Поисковый индекс

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску

Рецензирование статьи Поисковый индекс[править код]

Здесь находятся завершившиеся обсуждения. Просьба не вносить изменений.

Хочу улучшить статью до статуса хорошей. Рассмотрю любые пожелания и замечания. petrinka 08:32, 15 ноября 2013 (UTC)[ответить]

Не совсем понятно определение 1.1. Скорость поиска: "Как быстро можно найти слово в инвертированном индексе. Скорость нахождения записи в структуре данных по сравнению с тем, как быстро можно обновить или удалить индекс, является центром информатики". Смущает второе предложение, возможно, его следует перефразировать. Bokanko 19:29, 17 ноября 2013 (UTC)[ответить]

Как тебе такая формулировка? Важным для информатики является сравнение скорости нахождения записи в структуре данных и скорости обновления/удаления индекса. petrinka 08:16, 18 ноября 2013 (UTC)[ответить]
Так гораздо читабельнее, мне нравится. Bokanko 08:46, 18 ноября 2013 (UTC)[ответить]
✔ Исправлено petrinka 09:33, 18 ноября 2013 (UTC)[ответить]

Оксана, так как это перевод, то хорошо было бы, чтобы сохранялась викификация, например: в разделе Распознавание языка в скобках не хватает внутренней ссылки на части речи. Возможно ещё недостаёт ссылок, всю статью не читал!!! Gudach 14:28, 20 ноября 2013 (UTC)[ответить]

Илья, внутренняя ссылка на части речи есть в разделе Проблемы при обработке естественного языка. petrinka 15:04, 20 ноября 2013 (UTC)[ответить]

Добрый день! Заметил следующее:

  • ✔ Исправлено «информации время компенсирует дополнительную память» — может, наоборот, дополнительная память и время компенсируются уменьшением времени на обработку запроса?
  • ✔ Исправлено «Типы индексов бывают» — индексы бывают следующих типов?
  • ✔ Исправлено «Существует много удобных ситуаций для создания состояния гонки и когерентных отказов» — как-то криво. Как будто только и ждем ситуаций.
  • ✔ Исправлено архитектура поисковой системы может включать распределенные вычисления — поисковая система может основываться на архитектуре распределенных вычислений? Про унисон как-то коробит слух. Скоординированно?
  • частично ✔ Исправлено несколько опечаток и несогласований окончаний, стиль хромает в отдельных предложениях
  • ✔ Исправлено используют форму сжатия — ту или иную форму сжатия
  • раздел про сжатие неубедителен. «Сжатие является мерой стоимости»?
✔ Исправлено АИ подтверждающих это не нашла.
  • частично ✔ Исправлено почему именно с 2006 года? В разделе Синтаксический анализ документа много слов «обычно», «многие», а источников нет (по всей статье слишком много таких слов)
  • ✔ Сделано каким образом yacc и lex помогают обработке естественного языка? Это кажется странным. Нужен источник
  • ✔ Сделано списки в разделе Анализ формата документов требует источников. Если убрать слово «многие», то, наверное, этот список почти тривиален (все видят, что гугл, например, индексирует все эти форматы)

Общие замечания: текст несколько более популярно изложен чем обычно в Википедии. У меня это создало впечатление поверхностности. К концу статья несколько потеряла фокус (часть информации относится к поисковой системе вообще, а не к индексу). Также есть ощущение, что тема раскрыта не полностью. Например, для геоинформации, поиска по изображениям, видео, аудио есть свои технологии поиска, свои подходы к индексированию. Перспективы индексирования тоже остались неясны. Едет ли оно в сторону все более точного принятия во внимание семантики текста, например? Какие для этого решения созданы? Голосовой поиск (Siri) — какие особенности индекса у поиска «с подсказками», и т. п. Поисковый индекс — это не только для поиска в Интернете (жтот момент слегка упущен). Стиль текста еще шероховат. Некоторые предложения выглядят то ли неудачным переводом, то ли результатом правок нескольких человек. Полагаю, что в статье могли бы быть схемы, скажем, некой архитектуры системы индексирования, схема с краулерами, узлами обработки и хранения индексов, и т. п. Стиль и оформление можно подправить в самый последний момент — могу в этом помочь когда основное содержимое устоится.

Надеюсь, критика поможет улучшить статью. В целом работа проделана большая и положительная! Желаю успехов. РоманСузи 17:58, 20 ноября 2013 (UTC)[ответить]

Спасибо, очень ценные замечания. Статья является переводом английской версии, в которой второй раздел, к сожалению, почти не содержит ссылок на литературу. Над стилем буду работать. petrinka 14:42, 24 ноября 2013 (UTC)[ответить]


Привет, Оксана! Спасибо за то, что помогаешь делать мир лучше и несешь знания в массы! С интересом прочитал статью, буду рекомендовать ее своим студентам для прочтения. Однако при прочтении у меня возникло несколько замечаний, поэтому внесу немного критики.(внимание, включаю зануда_режим)

  • 1) В этом разделе Поисковый_индекс#.D0.A2.D0.BE.D0.BA.D0.B5.D0.BD.D0.B8.D0.B7.D0.B0.D1.86.D0.B8.D1.8F у тебя есть строчка "В отличие от грамотных людей, компьютеры не понимают структуру документа ". Здесь меня смущает сравнении с грамотными людьми по двум причинам: во-первых - что можно подразумевать под понятием "грамотным"? Если судить по определению, которые идет по ссылке, то тогда в категорию "неграмотных людей" попадает очень большое количество людей, например, в России(как и автор этого отзыва), но эта характеристика совсем не мешает им понимать структуру документа и даже, о боже, автоматически распознавать слова и предложения(правда не особо вникая в суть). Во-вторых, человек "грамотный" для своего родного языка может являться неграмотным для носителей другого языка, но это, в свою очередь совсем не мешает ему понимать и распознавать структуру документа на этом неродном языке. И в-третьих, я, как представитель "неграмотного" большинства просто возмущен тем, что на таком солидном сайте ставится в сомнении моя компетенция распознавать структуру документов на естественном языке. Это просто какой-то грамматический шовинизм и боюсь что он может задеть и ранить чувства других неграмотных людей. Поэтому рекомендую заменить эту метафору про "грамотного человека и компьютера" на какую-либо другую, так как она является не совсем точной.
✔ Исправлено заменила грамотных на большинства. Здесь, конечно, подразумеваются люди, которые умеют читать и при этом понимают, что читают. Не думала, что задену чьи-то чувства. Хотя, по-моему скромному мнению, твое замечание — бред. Приношу свои извинения. petrinka 15:54, 1 декабря 2013 (UTC)[ответить]
✔ Сделано добавила ссылки. petrinka 15:54, 1 декабря 2013 (UTC)[ответить]
✔ Исправлено petrinka 15:54, 1 декабря 2013 (UTC)[ответить]
  • 4)Этом же разделе, далее, у тебя написано, что если поисковая система не видит контент, выведенный с помощью javascript, то индексация проходит неправильно. Очень хотелось бы, чтобы к такому громкому высказыванию была ссылка на авторитетный источник.
✔ Сделано уточнение. petrinka 15:54, 1 декабря 2013 (UTC)[ответить]

А то в следующем предложении уже упоминается "Учитывая, что некоторые поисковые системы не беспокоятся о проблемах...". То есть получается они его не видят этот "контент". То есть получается, что они индексируют неправильно(если судить по предыдущему предложению)? Если они индексируют неправильно, зачем вообще тогда делать упоминания об этих поисковых системах. В общем, мне кажется, что данный абзац требует небольшой переработки и изменению формулировок ,и поэтому прошу обратить на него твое внимание.

Повторюсь, что статья переводная. Если стиль изложения кривой, можешь подправить его как считаешь нужным. petrinka 15:54, 1 декабря 2013 (UTC)[ответить]

P.S.: Ссылок на АИ действительно не хватает. Этот вопрос обсуждался ранее. petrinka 15:54, 1 декабря 2013 (UTC)[ответить]