Обсуждение:Стемминг

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску

В разделе с описанием существующих систем хорошо бы написать про стемку (Stemka) и прочие программы в разделе "См. также" на той же странице. -- Andrew Krizhanovsky 23:16, 20 декабря 2013 (UTC)[ответить]

Добавил раздел "Ссылки", в него включил информацию о "стемки" и других систем. Smarchenk 10:34, 19 января 2014 (UTC)[ответить]

Терминология[править код]

"алгоритм стемматизации" встречается в Google Академии один раз, "алгоритм стемминга" - 15 раз. Поэтому нет смысла употреблять в статье первый вариант, как необщепринятый. -- Andrew Krizhanovsky 15:39, 18 января 2014 (UTC)[ответить]

Все варианты с "алгоритм стемматизации" изменены на "алгоритм стемминга". Smarchenk 10:38, 19 января 2014 (UTC)[ответить]

Взаимосвязь с другими задачами[править код]

Хорошо бы указать, что стемминг является частью нормализации текста и дать ссылку на статью англовики. -- Andrew Krizhanovsky 16:25, 19 января 2014 (UTC)[ответить]

Добавил информацию в преамбулу статьи. Smarchenk 20:02, 19 января 2014 (UTC)[ответить]

Введение в ИП[править код]

У вас есть примечание номер 13 со ссылкой на книгу "Modern Information Retrieval". Посмотрите, пожалуйста, как оформлен перевод этой книги на русский язык в статье Информационный поиск, добавьте его (или вовсе замените английский на русский источник). Книга на русском есть на rutracker.org. Укажите, пожалуйста, номера страниц в переводе, подтверждающих ваши слова про "неуместность стемматизации".
(Кстати, мы же, вроде, договорились, что у нас стемминг, а не "стемматизация"?). -- Andrew Krizhanovsky 09:27, 21 января 2014 (UTC)[ответить]

В статье Информационный поиск с списке литературы указан перевод для книги "Introduction to Information Retrieval", а не для "Modern Information Retrieval" (последней полностью в открытом доступе не имеется, в том числе и на rutracker.org). Но я также просмотрел книгу "Introduction to Information Retrieval" на русском и нашел в ней информацию про ограниченность алгоритмом стемминга. Добавил в ее список литературы и сослался на нее (с указанием страниц) вместе с книгой "Modern Information Retrieval" в предложение про ограниченность стемминга.
В предыдущем замечании думал, что оно касается только вариантов "алгоритм стемматизации". Все варианты "стемматизации" изменил. Спасибо.
Smarchenk 11:44, 21 января 2014 (UTC)[ответить]

Рецензирование статьи Стемминг[править код]

Здесь находятся завершившиеся обсуждения. Просьба не вносить изменений.

Выставляю статью на рецензирование. Статья основана на переводе из английской википедии. Smarchenk 17:01, 21 января 2014 (UTC)[ответить]

Не переведён подраздел про усечение суффиксов: "en:Stemming#Additional algorithm criteria". -- Andrew Krizhanovsky 14:05, 22 января 2014 (UTC)[ответить]

✔ Сделано Подраздел переведен. Smarchenk 12:29, 23 января 2014 (UTC)[ответить]

Цитирую:
"...а также применение различных правил нормализации для каждой части речи."(ссылка идёт на работу (Плиссон и др., 2004))

1) Ссылка неуместная. Не вижу там про нормализацию для всех частей речи. Но статья хорошая. Там рассказывается в том числе про подход "en:Ripple-down rules" для лемматизации. Хотелось бы увидеть в статье подраздел с описанием этого подхода. В чём его особенность, + номера страниц.

✔ Сделано. Ссылка неуместная, согласен. Подраздел добавлен, также с этой же публикации добавил абзац текста в "Алгоритмы лемматизации". Smarchenk 09:04, 24 января 2014 (UTC)[ответить]

2) Сейчас sfn для этой публикации оформлен как "A Rule based Approach to Word Lemmatization, 2004". Мне кажется более верным (в соответствии с документацией к шаблону sfn, чтобы были указаны автор(ы) и год публикации, см. подробности в {{sfn}}. Т.е. для данной публикации будет указано:

|ref = Plisson et al

К остальным публикациям то же замечание. -- Andrew Krizhanovsky 14:26, 22 января 2014 (UTC)[ответить]

✔ Сделано Исправил все шаблоны sfn в соответствии с документацией, в том числе и с "Plisson". Smarchenk 09:09, 23 января 2014 (UTC)[ответить]

Вы дважды ссылаетесь на интересную работа Ильи Смирнова. Укажите номера страниц, пожалуйста.

✔ Сделано Страницы указал. Smarchenk 09:45, 23 января 2014 (UTC)[ответить]

Ещё по Смирнову:

  1. у вас сейчас все алгоритмы свалены в кучу (просто перечисляются). Я бы предложил воспользоваться опытом Смирнова, чтобы разбить их на более крупные разделы и подразделы.
    ✔ Сделано частично. Объединил два алгоритма анализ n-грамм и на основе корпуса текстов в раздел "Статистические алгоритмы" (пользуясь классификацией Смирнова). Трудно понять в какой класс по Смирнову отнести алгоритмы сопоставления, а также в классификации Смирнова отсутствуют стохастические алгоритмы. Поэтому вне не в силах одному понять и классифицировать все алгоритмы, необходимы большие знания в данной тематике. Smarchenk 20:12, 26 января 2014 (UTC)[ответить]
  2. у Смирнова есть интересный подход "Стемминг на основе корпуса текстов". А у вас его нет. Опишите? Кратенько? Может, у Смирнова ещё есть интересные подходы и алгоритмы? -- Andrew Krizhanovsky 14:49, 22 января 2014 (UTC)[ответить]
    ✔ Сделано Описал подход "Стемминг на основе корпуса текстов". Smarchenk 13:35, 25 января 2014 (UTC)[ответить]

Всех (и меня в том числе) в первую голову интересует русский язык. Поэтому статья будет неполной без описания

  • последних достижений в стемминге русского языка,
  • доступного софта для стемминга русского языка.

Я бы предложил переименовать раздел "Языковые проблемы" в нечто более общее, например, "Языки". И сделать два подраздела:

  1. "Языковые проблемы" - не нравится мне такой заголовок, т.к. не соответствует содержанию сейчас, т.е. описанию языковых особенностей и трудностей...
    ✔ Сделано Переименовал пока на "Языковые особенности". Smarchenk 07:13, 24 января 2014 (UTC)[ответить]
  2. "Стемминг русского языка"
    ✔ Сделано Добавил раздел "Стемминг русского языка" с описанием последних достижений и софта. Smarchenk 17:15, 26 января 2014 (UTC)[ответить]

-- Andrew Krizhanovsky 14:47, 23 января 2014 (UTC)[ответить]

  1. Было бы логично в том разделе статьи, где вы описываете программу Stemka, дать ссылку и на NLPub (есть в статье в разделе ссылки) и дать ссылку на страницу самой программы, и указать на каких условиях (лицензия) и в каком виде (исходный код, исполняемый файл) распространяется программа.
    ✔ Сделано Ссылки и информацию добавил. Smarchenk 16:47, 27 января 2014 (UTC)[ответить]
  2. То же замечание по Mystem. -- Andrew Krizhanovsky 09:20, 27 января 2014 (UTC)[ответить]
    ✔ Сделано Аналогично. Smarchenk 16:47, 27 января 2014 (UTC)[ответить]