Википедия:Рецензирование/Стемминг
Рецензирование статьи Стемминг
[править код]Выставляю статью на рецензирование. Статья основана на переводе из английской википедии. Smarchenk 17:01, 21 января 2014 (UTC)
Не переведён подраздел про усечение суффиксов: "en:Stemming#Additional algorithm criteria". -- Andrew Krizhanovsky 14:05, 22 января 2014 (UTC)
- Сделано Подраздел переведен. Smarchenk 12:29, 23 января 2014 (UTC)
Цитирую:
"...а также применение различных правил нормализации для каждой части речи."(ссылка идёт на работу (Плиссон и др., 2004))
1) Ссылка неуместная. Не вижу там про нормализацию для всех частей речи. Но статья хорошая. Там рассказывается в том числе про подход "en:Ripple-down rules" для лемматизации. Хотелось бы увидеть в статье подраздел с описанием этого подхода. В чём его особенность, + номера страниц.
- Сделано. Ссылка неуместная, согласен. Подраздел добавлен, также с этой же публикации добавил абзац текста в "Алгоритмы лемматизации". Smarchenk 09:04, 24 января 2014 (UTC)
2) Сейчас sfn для этой публикации оформлен как "A Rule based Approach to Word Lemmatization, 2004". Мне кажется более верным (в соответствии с документацией к шаблону sfn, чтобы были указаны автор(ы) и год публикации, см. подробности в {{sfn}}. Т.е. для данной публикации будет указано:
|ref = Plisson et al
К остальным публикациям то же замечание. -- Andrew Krizhanovsky 14:26, 22 января 2014 (UTC)
- Сделано Исправил все шаблоны sfn в соответствии с документацией, в том числе и с "Plisson". Smarchenk 09:09, 23 января 2014 (UTC)
Вы дважды ссылаетесь на интересную работа Ильи Смирнова. Укажите номера страниц, пожалуйста.
- Сделано Страницы указал. Smarchenk 09:45, 23 января 2014 (UTC)
Ещё по Смирнову:
- у вас сейчас все алгоритмы свалены в кучу (просто перечисляются). Я бы предложил воспользоваться опытом Смирнова, чтобы разбить их на более крупные разделы и подразделы.
Сделано частично. Объединил два алгоритма анализ n-грамм и на основе корпуса текстов в раздел "Статистические алгоритмы" (пользуясь классификацией Смирнова). Трудно понять в какой класс по Смирнову отнести алгоритмы сопоставления, а также в классификации Смирнова отсутствуют стохастические алгоритмы. Поэтому вне не в силах одному понять и классифицировать все алгоритмы, необходимы большие знания в данной тематике. Smarchenk 20:12, 26 января 2014 (UTC) - у Смирнова есть интересный подход "Стемминг на основе корпуса текстов". А у вас его нет. Опишите? Кратенько? Может, у Смирнова ещё есть интересные подходы и алгоритмы? -- Andrew Krizhanovsky 14:49, 22 января 2014 (UTC)
Сделано Описал подход "Стемминг на основе корпуса текстов". Smarchenk 13:35, 25 января 2014 (UTC)
Всех (и меня в том числе) в первую голову интересует русский язык. Поэтому статья будет неполной без описания
- последних достижений в стемминге русского языка,
- доступного софта для стемминга русского языка.
Я бы предложил переименовать раздел "Языковые проблемы" в нечто более общее, например, "Языки". И сделать два подраздела:
- "Языковые проблемы" - не нравится мне такой заголовок, т.к. не соответствует содержанию сейчас, т.е. описанию языковых особенностей и трудностей...
Сделано Переименовал пока на "Языковые особенности". Smarchenk 07:13, 24 января 2014 (UTC) - "Стемминг русского языка"
Сделано Добавил раздел "Стемминг русского языка" с описанием последних достижений и софта. Smarchenk 17:15, 26 января 2014 (UTC)
-- Andrew Krizhanovsky 14:47, 23 января 2014 (UTC)
- Было бы логично в том разделе статьи, где вы описываете программу Stemka, дать ссылку и на NLPub (есть в статье в разделе ссылки) и дать ссылку на страницу самой программы, и указать на каких условиях (лицензия) и в каком виде (исходный код, исполняемый файл) распространяется программа.
Сделано Ссылки и информацию добавил. Smarchenk 16:47, 27 января 2014 (UTC) - То же замечание по Mystem. -- Andrew Krizhanovsky 09:20, 27 января 2014 (UTC)
Сделано Аналогично. Smarchenk 16:47, 27 января 2014 (UTC)