Обсуждение:Стемминг
Проект «Информационные технологии» (уровень I, важность для проекта средняя)
Эта статья тематически связана с вики-проектом «Информационные технологии», цель которого — создание и улучшение статей по темам, связанным с информационными технологиями. Вы можете её отредактировать, а также присоединиться к проекту, принять участие в его обсуждении и поработать над требуемыми статьями. |
Проект «Лингвистика» (уровень I, важность для проекта средняя)
Эта статья тематически связана с вики-проектом «Лингвистика», цель которого — создание и улучшение статей по темам, связанным с лингвистикой. Вы можете её отредактировать, а также присоединиться к проекту, принять участие в его обсуждении. |
Эта статья содержит текст, переведённый из статьи Stemming из раздела Википедии на английском языке. Список авторов находится на странице истории правок оригинальной статьи. Информация о включении текстов из других источников и их авторах может быть размещена на странице обсуждения оригинальной статьи. Переведено из английской Википедии по состоянию на 23 января 2014. |
Софт[править код]
В разделе с описанием существующих систем хорошо бы написать про стемку (Stemka) и прочие программы в разделе "См. также" на той же странице. -- Andrew Krizhanovsky 23:16, 20 декабря 2013 (UTC)
- Добавил раздел "Ссылки", в него включил информацию о "стемки" и других систем. Smarchenk 10:34, 19 января 2014 (UTC)
Терминология[править код]
"алгоритм стемматизации" встречается в Google Академии один раз, "алгоритм стемминга" - 15 раз. Поэтому нет смысла употреблять в статье первый вариант, как необщепринятый. -- Andrew Krizhanovsky 15:39, 18 января 2014 (UTC)
- Все варианты с "алгоритм стемматизации" изменены на "алгоритм стемминга". Smarchenk 10:38, 19 января 2014 (UTC)
Взаимосвязь с другими задачами[править код]
Хорошо бы указать, что стемминг является частью нормализации текста и дать ссылку на статью англовики. -- Andrew Krizhanovsky 16:25, 19 января 2014 (UTC)
- Добавил информацию в преамбулу статьи. Smarchenk 20:02, 19 января 2014 (UTC)
Введение в ИП[править код]
У вас есть примечание номер 13 со ссылкой на книгу "Modern Information Retrieval". Посмотрите, пожалуйста, как оформлен перевод этой книги на русский язык в статье Информационный поиск, добавьте его (или вовсе замените английский на русский источник). Книга на русском есть на rutracker.org. Укажите, пожалуйста, номера страниц в переводе, подтверждающих ваши слова про "неуместность стемматизации".
(Кстати, мы же, вроде, договорились, что у нас стемминг, а не "стемматизация"?). -- Andrew Krizhanovsky 09:27, 21 января 2014 (UTC)
- В статье Информационный поиск с списке литературы указан перевод для книги "Introduction to Information Retrieval", а не для "Modern Information Retrieval" (последней полностью в открытом доступе не имеется, в том числе и на rutracker.org). Но я также просмотрел книгу "Introduction to Information Retrieval" на русском и нашел в ней информацию про ограниченность алгоритмом стемминга. Добавил в ее список литературы и сослался на нее (с указанием страниц) вместе с книгой "Modern Information Retrieval" в предложение про ограниченность стемминга.
- В предыдущем замечании думал, что оно касается только вариантов "алгоритм стемматизации". Все варианты "стемматизации" изменил. Спасибо.
Smarchenk 11:44, 21 января 2014 (UTC)
Рецензирование статьи Стемминг[править код]
Выставляю статью на рецензирование. Статья основана на переводе из английской википедии. Smarchenk 17:01, 21 января 2014 (UTC)
Не переведён подраздел про усечение суффиксов: "en:Stemming#Additional algorithm criteria". -- Andrew Krizhanovsky 14:05, 22 января 2014 (UTC)
- Сделано Подраздел переведен. Smarchenk 12:29, 23 января 2014 (UTC)
Цитирую:
"...а также применение различных правил нормализации для каждой части речи."(ссылка идёт на работу (Плиссон и др., 2004))
1) Ссылка неуместная. Не вижу там про нормализацию для всех частей речи. Но статья хорошая. Там рассказывается в том числе про подход "en:Ripple-down rules" для лемматизации. Хотелось бы увидеть в статье подраздел с описанием этого подхода. В чём его особенность, + номера страниц.
- Сделано. Ссылка неуместная, согласен. Подраздел добавлен, также с этой же публикации добавил абзац текста в "Алгоритмы лемматизации". Smarchenk 09:04, 24 января 2014 (UTC)
2) Сейчас sfn для этой публикации оформлен как "A Rule based Approach to Word Lemmatization, 2004". Мне кажется более верным (в соответствии с документацией к шаблону sfn, чтобы были указаны автор(ы) и год публикации, см. подробности в {{sfn}}. Т.е. для данной публикации будет указано:
|ref = Plisson et al
К остальным публикациям то же замечание. -- Andrew Krizhanovsky 14:26, 22 января 2014 (UTC)
- Сделано Исправил все шаблоны sfn в соответствии с документацией, в том числе и с "Plisson". Smarchenk 09:09, 23 января 2014 (UTC)
Вы дважды ссылаетесь на интересную работа Ильи Смирнова. Укажите номера страниц, пожалуйста.
- Сделано Страницы указал. Smarchenk 09:45, 23 января 2014 (UTC)
Ещё по Смирнову:
- у вас сейчас все алгоритмы свалены в кучу (просто перечисляются). Я бы предложил воспользоваться опытом Смирнова, чтобы разбить их на более крупные разделы и подразделы.
Сделано частично. Объединил два алгоритма анализ n-грамм и на основе корпуса текстов в раздел "Статистические алгоритмы" (пользуясь классификацией Смирнова). Трудно понять в какой класс по Смирнову отнести алгоритмы сопоставления, а также в классификации Смирнова отсутствуют стохастические алгоритмы. Поэтому вне не в силах одному понять и классифицировать все алгоритмы, необходимы большие знания в данной тематике. Smarchenk 20:12, 26 января 2014 (UTC) - у Смирнова есть интересный подход "Стемминг на основе корпуса текстов". А у вас его нет. Опишите? Кратенько? Может, у Смирнова ещё есть интересные подходы и алгоритмы? -- Andrew Krizhanovsky 14:49, 22 января 2014 (UTC)
Сделано Описал подход "Стемминг на основе корпуса текстов". Smarchenk 13:35, 25 января 2014 (UTC)
Всех (и меня в том числе) в первую голову интересует русский язык. Поэтому статья будет неполной без описания
- последних достижений в стемминге русского языка,
- доступного софта для стемминга русского языка.
Я бы предложил переименовать раздел "Языковые проблемы" в нечто более общее, например, "Языки". И сделать два подраздела:
- "Языковые проблемы" - не нравится мне такой заголовок, т.к. не соответствует содержанию сейчас, т.е. описанию языковых особенностей и трудностей...
Сделано Переименовал пока на "Языковые особенности". Smarchenk 07:13, 24 января 2014 (UTC) - "Стемминг русского языка"
Сделано Добавил раздел "Стемминг русского языка" с описанием последних достижений и софта. Smarchenk 17:15, 26 января 2014 (UTC)
-- Andrew Krizhanovsky 14:47, 23 января 2014 (UTC)
- Было бы логично в том разделе статьи, где вы описываете программу Stemka, дать ссылку и на NLPub (есть в статье в разделе ссылки) и дать ссылку на страницу самой программы, и указать на каких условиях (лицензия) и в каком виде (исходный код, исполняемый файл) распространяется программа.
Сделано Ссылки и информацию добавил. Smarchenk 16:47, 27 января 2014 (UTC) - То же замечание по Mystem. -- Andrew Krizhanovsky 09:20, 27 января 2014 (UTC)
Сделано Аналогично. Smarchenk 16:47, 27 января 2014 (UTC)