Обсуждение:Тематическое моделирование

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску

Преамбула[править код]

Сергей, если я правильно понимаю, сейчас статья представляет собой перевод en:Topic model.

Прежде чем писать саму статью, предлагаю поработать над преамбулой (см. ВП:Преамбула). У вас сохранились недостатки преамбулы из англовики:

  1. нет краткого отражения (обобщения) всех разделов статьи;
  2. нет определения предмета статьи взятого из ВП:АИ, поэтому у читателя возникает закономерный вопрос относительно значимости темы.

Если у вас пока нет кнопки "Переименовать", то я могу перенести статью в основное пространство. Предлагаю это сделать, когда преамбула будет получше.

По поводу алгоритмов (и в целом - что вообще писать в статью) предлагаю вам и себе найти парочку хороших обзорных статей по "Тopic model" и посмотреть, что пишут люди. -- Andrew Krizhanovsky 14:35, 27 октября 2013 (UTC)[ответить]

Андрей я внес изменения в статью. Но у меня по прежнему сомнения на счет правильности преамбулы, с одной стороны я должен использовать авторитетные источники, с другой сделать отражение всех разделов статьи. Возможно вы мне посоветуете какую либо хорошую по статью, в качестве примера. Serg K 17:31, 8 ноября 2013 (UTC)[ответить]
Сергей, если вы спрашиваете о хорошей статье в Википедии, то такие статьи есть. Много. Уже более шестисот. См. Википедия:Избранные статьи. -- Andrew Krizhanovsky 08:59, 6 ноября 2013 (UTC)[ответить]

Иллюстрация[править код]

Сергей, с иллюстрациями в Википедии всё не так просто, поэтому здесь их так мало.

В описании иллюстрации вы указали, что взяли её из книги Воронцова. Если К.В. Воронцов не дал вам письменного согласия на публикацию иллюстрации с открытой лицензией, то такая публикация вами расценивается в Википедии как плагиат. Админы рано или поздно и так удалят этот рисунок, поэтому лучше если вы сами, как автор файла, поставите в описании иллюстрации шаблон на быстрое удаление рисунка с Викисклада (commons:Template:Speedydelete) и правильно укажите причину удаления как параметр этого шаблона (см. commons:Commons:Criteria for speedy deletion).

Иллюстрации тем не менее нужны в хорошей статье. Один из вариантов - прочитать книгу Воронцова и использовать его текст как основу (как генератор идей) для рисования своей диграммы, графика. В этом случае в разделе источник укажите: "собственная работа на основе идей, взятых из книги ...". Я считаю, что это уже не является плагиатом.

Если у вас есть работающая программа по "тематическому моделированию", написанная вами, то это может быть бесценный источник для иллюстраций.

P.S. Вижу, вы уже освоили шаблон {{cite journal}}, но до шаблона {{sfn}} ещё не добрались. -- Andrew Krizhanovsky 14:46, 31 октября 2013 (UTC)[ответить]


Вопрос: Подскажите пожалуйста, иллюстрацию я взял из доклада опубликованного на machinelearning.ru, на нем указано: Содержимое доступно в соответствии с Creative Commons Attribution/Share-Alike. с ссылкой на http://creativecommons.org/licenses/by-sa/3.0/. Сама иллюстрация является копией англоязычной версии созданной Девидом Блеем. Дает ли мне это право использовать ее в статье или лучше все таки ее удалить и создать свою собственную? Serg K 19:17, 31 октября 2013 (UTC)[ответить]

Под какой лицензией опубликовал работу Девид Блей? Можете дать ссылку на его работу? -- Andrew Krizhanovsky 22:23, 31 октября 2013 (UTC)[ответить]
Ссылка на работу Девида Блея есть в англоязычной версии Wikipedia Topic Model, Blei, D.M.; Lafferty, J.D. (2009). "Topic Models" (PDF). http://www.cs.princeton.edu/~blei/papers/Blei2011.pdf (страница 3) И на странице публикаций Девида Блея http://www.cs.princeton.edu/~blei/publications.html . И тут я не знаю под какой лицензией вышла его публикация. Serg K 06:28, 1 ноября 2013 (UTC)[ответить]
В публикации Блея нет ни слова о том, что работа в открытом доступе. По умолчанию считается, что обычная закрытая лицензия. Копировать иллюстрации нельзя. Если эта иллюстрация есть на сайте machinelearning.ru, то авторы сайта нарушают закон об авторских правах.

Андрей подскажите пожалуйста можно ли использовать изображения опубликованные на англоязычных страницах Wiki? https://en.wikipedia.org/wiki/File:Plsi_1.svg ? Serg K 06:37, 1 ноября 2013 (UTC)[ответить]

Сергей, Английскую Википедию пишут обычные люди, которые ошибаются. Если кто-то загрузил туда иллюстрацию, то это ещё ничего не говорит. В каждом конкретном случае нужно проверять источники.
Конкретно этот рисунок File:Plsi_1.svg выглядит достаточно тривиально, чтобы могли быть претензии, связанные с плагиатом. Описание выглядит "чисто". Можете его использовать. Из замечаний к иллюстрации только одно - у иллюстрации не указаны категории на Викискладе. -- Andrew Krizhanovsky 08:50, 1 ноября 2013 (UTC)[ответить]
Спасибо за ответы. В ближайшие дни постараюсь доделать статью с учетом ваших замечаний. Serg K 10:56, 1 ноября 2013 (UTC)[ответить]
Представление документа в тематической модели
Андрей, я подготовил и разместил иллюстрацию, только теперь сомневаюсь в ее необходимости, и в моем выборе текстового документа. И использовал две иллюстрации англоязычной версии Википедии.Serg K 17:31, 8 ноября 2013 (UTC)[ответить]
Сергей, иллюстрация мне очень нравится. Появляется ощущение, что простой смертный может понять, что такое ТМ.
Замечание по категориям у иллюстрации: названия категорий на Викискладе даются только на англ. языке, т.е. не "Тематическое моделирование", а "Topic modelling". И категория не должна быть красной, т.е. несуществующей. Нужно найти на Викискладе - категорию-родителя (или нескольких родителей) и прилепить эту новую категорию "Topic modelling" к ним.
На иллюстрации не у всех стрелок есть хвостики. Это случайность?
То, что не ко всем словам идут стрелки - ок, иначе всё слишком будет загромаждено.
Вы настаиваете на слове "документ"? Если это обработка текста, то может быть "текст"?
Ни из рисунка, ни из подписи не ясно, что такое w, d, p(t|d), p(w|t).

>> И использовал две иллюстрации англоязычной версии Википедии. Без перевода подрисуночных подписей, я не понял, что изображено. См. ниже замечание по разделу "3.2 Вероятностный латентно-семантический анализ".

Андрей я обновил изображение, теперь все стрелки видны. Документ - точнее называть именно документом, т.к. в алгоритмах мы используем это понятие. На рисунке добавил формульное обозначение документа.
Сергей, к рисунку больше замечаний нет. -- Andrew Krizhanovsky 17:24, 10 ноября 2013 (UTC)[ответить]

Алгоритмы[править код]

Я дополнил часть статьи по алгоритмам. Прошу вас проверить правильно ли я сделал.Serg K 17:31, 8 ноября 2013 (UTC)[ответить]

3.2 Вероятностный латентно-семантический анализ[править код]

Этот раздел в вашей статье сейчас превышает по количеству букв и собственно информации саму статью Вероятностный латентно-семантический анализ. Суть и прелесть вики-сайта в том, чтобы не писать всё о ВЛСА в каждой статье, где он упоминается, а дать упоминание и ссылку на статью, где всё про этот алгоритм написано.

Если же совершенно необходимо описать алгоритм (в особенности те его части или особенности, которые имеют непосредственное отношение к TM), то можно использовать шаблон {{main}}, а после него привести краткие сведения об алгоритме. Вот, например, как хорошо использовала этот шаблон студентка в статье "Вычислительные машины и разум", где нельзя не сказать про "Тест Тьюринга", см. Участник:Holly Bellman/Вычислительные машины и разум.

Поэтому сейчас претензия к объёму этого раздела. Предлагаю его по возможности сократить. Использовать шаблон {{main}}. Всё ценное, что жалко выкидывать (+ иллюстрации), перенесите в статью Вероятностный латентно-семантический анализ.

Те же проблемы со статьёй и разделом Латентное размещение Дирихле. -- Andrew Krizhanovsky 09:37, 6 ноября 2013 (UTC)[ответить]

Вероятностные тематические модели[править код]

В раздел "3.1 Вероятностные тематические модели" я добавил запрос на источник. Когда найдёте статью или книгу, где идёт это перечисление предположение, то замените мой запрос источника на ссылку на статью. Сейчас это выглядит как ВП:Орисс, чего нужно по возможности стараться избегать. -- Andrew Krizhanovsky 18:53, 5 ноября 2013 (UTC)[ответить]

Андрей здравствуйте. Я добавил ссылку на несколько статей и научных презентаций в которых присутствует перечисление (часть в одном источнике другая часть в другом). Посмотрите пожалуйста. И забыл написать у меня появилась ссылка на переименовать.Serg K 17:31, 8 ноября 2013 (UTC)[ответить]
Сергей, вы перемудрили со ссылками. ref и sfn - это взаимоисключающие механизмы. Например, сейчас у вас код в статье:
<ref name="K-TM2012">{{sfn|K-TM2012|2012|с=229}}</ref>

должен остаться только sfn:

{{sfn|K-TM2012|2012|с=229}}

Прочитайте, пожалуйста, внимательно пример в документации: {{sfn}}.

>> И забыл написать у меня появилась ссылка на переименовать.
Понял, отлично! Теперь тогда сами решайте, когда переносить статью в основное пространство.

P.S. Подписывайте, пожалуйста, свои сообщения на страницах обсуждений с пом. четырёх тильд. -- Andrew Krizhanovsky 21:16, 5 ноября 2013 (UTC)[ответить]

Тематические исследования[править код]

Раздел "Тематические исследования" мне сейчас не нравится:

  • непонятно назначение раздела. Это история данного научного направления? Тогда в раздел "История". Или ещё что-то?
  • упоминание имён учёных и исследователей без ссылок на литературу мне кажется не верным решением. -- Andrew Krizhanovsky 15:13, 9 ноября 2013 (UTC)[ответить]

Андрей, я отредактировал раздел. По моему мнению он важен для понимания возможностей тематического моделирования. На примере работ западных специалистов, может сформироваться желание провести эксперименты с русскоязычными корпусами. Ссылки на работы я постараюсь найти и добавить. Serg K 18:56, 9 ноября 2013 (UTC)[ответить]

Хорошо. Просто сейчас начинаешь читать этот раздел и сразу натыкаешься на вопросы - кто такой Темплтон, Джокерс, Пруст? Если они известны как Эйнштейн, тогда достаточно сделать викификацию и поставить ссылку на статью про Эйнштейна в Википедии. Если они не так сильно известны и про них нет статьи ни у нас, ни в англовики, тогда нужны источники (ссылки на их публикации), подтверждающие значимость работ этих неизвестных (пока) людей. -- Andrew Krizhanovsky 17:14, 10 ноября 2013 (UTC)[ответить]

Спасибо за замечания. Добавил ссылки на источники, и немного изменил текст Serg K 14:01, 29 июля 2014 (UTC)[ответить]

Трудности и проблемы[править код]

Существуют ли у данного метода (подхода) какие-либо трудности, проблемы, узкие места, ограничение в области, к которой можно приложить ТМ? Скорее всего, да. Если это так, то нужен раздел с описанием этого. -- Andrew Krizhanovsky 15:44, 9 ноября 2013 (UTC)[ответить]

Андрей: Чтобы грамотно сформулировать такую часть статьи, мне необходимо еще больше узнать о тематическом моделировании. К сожалению литературы по ТМ на русском языке очень мало, научные публикации в области ТМ в большинстве публикуются на английском языке, что делает освоение материала более медленным. Я учел ваши предыдущие замечания, хотел бы выложить статью в общее пространство и продолжить ее редактирование и дополнение согласно вашим рекомендациям. Как вы считаете можно в таком виде статью опубликовать? Serg K 19:09, 9 ноября 2013 (UTC)[ответить]

Да, статья содержит предостаточное количество авторитетных источников. Переносите.
Если вы решите, что можно двигаться дальше и вам будет мало моих комментариев и замечаний - ставьте статью на ВП:Рецензирование, а после доработки выдвигайте на звание хорошей. -- Andrew Krizhanovsky 17:20, 10 ноября 2013 (UTC)[ответить]

Компьютерные системы и взаимосвязь с другими задачами АОТ[править код]

1) Если это направление достаточно развито, то, вероятно, есть компьютерные системы, в которых реализовано ТМ - отдельно или как часть более общих задач. Было бы интересно узнать об этих системах. Можно кратко, в телеграфном стиле (см. перечисление парсеров со ссылками на литературу в Викисловарь#Применение викисловарей в задачах автоматической обработки текста и речи). Подлиннее: см. Определение плагиата#Обзор существующих систем. Или в виде таблицы: см. w:Comparison of parser generators.

2.1) По поводу взаимосвязи с другими задачами автоматической обработки текста (АОТ). Понятно, что все задачи взаимосвязаны, тем не менее, хотелось увидеть явное указание задач АОТ (и вообще приложений, сейчас куцо указана "биоинформатика" и всё), которые становится реально решить, если мы умеем строить ТМ. Недоделанный пример можно посмотреть в статье студентки: Компьютерная лексикография#Взаимосвязь с задачами автоматической обработки текста.

2.2) И другая сторона - какие задачи необходимо уметь решать (например, уметь выполнять лемматизацию, что ещё?), какие лингвистические ресурсы нужны для ТМ (тезаурусы или что-то ещё?), чтобы успешно решить ТМ. Желательно материал не выдумывать и изобретать, а найти ответ в литературе. -- Andrew Krizhanovsky 15:44, 9 ноября 2013 (UTC)[ответить]

Появились системы с открытым исходным кодом для ТМ: simbase, opentopics. Источник: http://lists.wikimedia.org/pipermail/wiki-research-l/2014-March/003339.html -- Andrew Krizhanovsky 09:04, 24 марта 2014 (UTC)[ответить]

Разное[править код]

Сейчас переход в преамбуле после слов "unsupervised learning" - не работает. -- Andrew Krizhanovsky 23:12, 20 декабря 2013 (UTC)[ответить]

Спасибо, поправил Serg K 11:46, 29 июля 2014 (UTC)[ответить]

Статьи[править код]

Публикации, которые можно было бы использовать для данной статьи:

Спасибо. Добавил в ссылки. Serg K 14:01, 29 июля 2014 (UTC)[ответить]

Многоязычное ТМ[править код]

Статья будет неполной без такого раздела. Для затравки можно взять материал по статье: