Обсуждение:Коллаборативная фильтрация

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску

Я считаю, что данный шаблон был проставлен по неэнциклопедическим мотивам. Если не будет возражений в течение недели, снимаю. --Grey horse 07:28, 23 августа 2008 (UTC)[ответить]

Снял. --Grey horse 02:07, 31 августа 2008 (UTC)[ответить]

Комментарии 2012[править код]

  1. Не вижу пока определения, подтверждённого ссылкой на ВП:АИ. Стоит (не в первом предложении) странная ссылка на "An integrated approach to TV Recommendations by TV Genius" - это не научная статья, и не книга, а всего лишь рекламная брошюра компании "RED BEE MEDIA LTD".
  ✔ Сделано Источник поменян.
  1. Из шести источников в списке Литературы - через раздел примечания - используются сейчас только два (Melville и др., Sammut и др.). Либо используйте в тексте статьи и ссылайтесь на другие четыре источника (указывая номера страниц), либо выбирайте другие источники (а эти уберите). В английской версии статье есть много литературы.
  ✔ Сделано Добавленны более релевантные источники и указанны на них ссылки
  1. Замечания Агеева остаются в силе. -- Andrew Krizhanovsky 09:30, 23 декабря 2012 (UTC)[ответить]
  ✔ Сделано Я ответил по всем пунктам рецензии

В примечаниях есть "Проблемы в рекомендательных системах, 2010, с. 837" - типа страница 837? А в документе всего 9 страниц, как это понимать? =8[]

  ✔ Сделано У меня в литературе ссылка на параграфф книги, так как книги в свободном доступе нет. В книге стр 837. Но раз непонятно я поменял.

По поводу категорий у иллюстрации. Сейчас указано:

 Виды коллаборативной фильтрации
 Поисковые системы
 Media needing categories as of 23 December 2012

Всё отлично, только первые две красные, т.е. не существует. И вообще, как-то исторически сложилось, что названия категорий пишут по-английски.
Наличие третьей категории несколько противоречит первым двум. Гляньте на работы коллег - какие они категории ставили и найдите подходящую... -- Andrew Krizhanovsky 13:20, 23 декабря 2012 (UTC)[ответить]

  ✔ Сделано

Второй круг[править код]

В описании рисунка File:Виды коллаборативной фильтрации.jpg:

  1. ссылка с английского текста ведёт на статью "Six Collaborative filtering", которой не существует.
  2. ссылка с русского текста - на несуществующую статью "Виды коллаборативной фильтрации в рекомендательных системах".
  3. Не убран текст "Этот файл некатегоризирован."
  4. Категории: "Recommender systems" - красная ссылка, т.е. не существует,
  5. Категории: "Media needing categories as of 23 December 2012" - а вы говорили, что поставили категории... Логично, если вы уберёте эту, уже устаревшую, служебную категорию.
✔ Сделано На этот раз постарался сделать всё как нужно :)

По определению.
Дайте, пожалуйста, цитату с первой страницы "Xiaoyuan Su и др.", на которую вы ссылаетесь и которую вы перевели так:

Его основное допущение состоит в следующем: те, кто одинаково оценивали предметы в прошлом, склонны давать похожие оценки другим предметам и в будущем.

✔ Сделано The fundamental assumption of CF is that if users X and Y rate n items similarly, or have similar behaviors (e.g., buying, watching, listening), and hence will rate or act on other items similarly [3].

Навскидку взял ссылку номер 11, про "эффект «богатые становятся ещё богаче»" из статьи "Blockbuster Culture’s…". В статье 49 страниц. Сможете уточнить источник, т.е. страницу?

✔ Сделано страница 23.

Почему в разделе "См. также" стоит ссылка на английскую статью "Recommender system", если (интервики показывает) есть аналог в рувики? Вообще по сравнению с английской статьёй этот раздел выглядит бедновато...

✔ Сделано Убрал "Recommender system", добавил ещё ссылок, правда на русском мало что есть.

Вы очень оригинально сделали ссылку на другую статью Википедии через примечание номер 10 "Холодный старт" - ссылка на статью en:Cold start. Просьба - использовать шаблон {{нп3}}. -- Andrew Krizhanovsky 12:22, 25 декабря 2012 (UTC)[ответить]

✔ Сделано
Для определения КФ можете взять и переформулировать определение для систем автоматизированной КФ здесь. -- Andrew Krizhanovsky 08:11, 28 декабря 2012 (UTC)[ответить]
Я взял то определение, которые было уже до этого. Оно аналогично версии в англоязычной википедии. Ссылку я привёл выше.
Определение и о проблеме затратности вычислений КФ написано здесь [1]. -- Andrew Krizhanovsky 15:24, 1 января 2013 (UTC)[ответить]
Информацию о дорогом созданий систем КФ на основые модели я взял из этой статьи - http://downloads.hindawi.com/journals/aai/2009/421425.pdf A Survey of Collaborative Filtering Techniques

Предрождественские замечания[править код]

{{нп3|холодного старта|||Cold start}} — здесь вы даёте ссылку на статью вики «холодного старта». Обычно названия статей даются в именительном падеже. Внимательнее, в этом шаблоне не зря есть ещё параметры. См. документацию с примерами по этому шаблону {{нп3}}.

✔ Сделано Окей, исправил.

— «Недостатки этого подхода в дорогом создании модели.» Если имеется в виду прямое значение слова «дорогой», там — рубли, баксы, то оставьте как есть, если переносное — то, возьмите в кавычки, пожалуйста.

✔ Сделано Дорогой в плане разработки, то есть требуется много времени и человеческих ресурсов, а последние как известно стоят денег. Также очень требовательный к аппаратной части, которая так же стои   денег.

«k-nearest neighbor algorithm» — эту ссылку в разделе «см. также» можно спрямить, так как у этой статьи есть аналог в рувики, хоть и плюгавый относительно английского.

✔ Сделано

Возвращаясь к определению. Согласитесь, Всеволод, что определение КФ идёт у вас в первом предложении. А подкреплено ссылкой на источник допущение, пусть оно и «основное», во втором предложении. То есть хотелось бы видеть не просто переведённое из enwiki определение КФ, но ссылку на источник, откуда оно взято. Кстати, этот «Xiaoyuan Su и др.» тоже даёт определение КФ — можно взять у него и сослаться на него.

✔ Сделано Согласен, взял у Хйаоуюана.
Виды коллаборативной фильтрации

Смотрю на иллюстрацию и понимаю, что не понимаю - два квадратика "Гибридные модели". Это одно и то же? Или это разные... разная гибридность? Если разная, то можно это как-то указать в названии гибридностей, т.е. в иллюстрации или что-то написать в статье, чтобы читатель не впадал в ступор?

✔ Сделано
Collaborative Filtering in Recommender Systems

ос

P.S. Раз уж вы нарисовали этот рис. на английском, то будет просьба, когда вы определитесь с гибридностью, добавить эту иллюстрацию в подходящее место английской статьи КФ. -- Andrew Krizhanovsky 11:43, 6 января 2013 (UTC)[ответить]

✔ Сделано. Поменял и вставил куда нужно.

Послерождественские замечания[править код]

Преамбула[править код]

Вам не кажется, что первое и последнее предложение преамбулы говорят об одном и том же? Вижу два варианта — 1) кратко указать в преамбуле (то есть дополнить последнее предложение в ней) — какие есть виды (или подходы?), описанные ниже, и использовать якоря {{Переход}} для переходов к этим подходам, 2) объединить с первым предложением, оставив ссылки на литературу. Первый вариант умнее.

✔ Сделано Выбрал 1 вариант
Действительно что-то изменилось в преамбуле? -- Andrew Krizhanovsky 06:23, 9 января 2013 (UTC)[ответить]
Угу, вижу - преамбула изменилась в лучшую сторону, хотя четкого указания существующих видов (подходов) и не появилось. -- Andrew Krizhanovsky 16:16, 9 января 2013 (UTC)[ответить]

Суть преамбулы — она должна кратко описывать всё, что есть в статье. Сейчас в ней нет — о видах (подходах?), ни слова о трудностях и проблемах, хотя описание их занимает значительную часть вашей статьи.

✔ Сделано А, я сначала не так понял. Сейчас переделал.

Стиль[править код]

«Данное исследовательское направление всё ещё активно и имеет не решённые проблемы.» «всё ещё активно» — то есть исследователи данного направления всё ещё живы? Для меня прозвучало бы похожим образом: «Социальные сети популярны, Дуров всё ещё жив…» Попробуйте переформулировать. «не решённые» — слитно.

✔ Сделано Переформулировал. Также перенёс эту фразу в преамбулу.

«Этот подход является самым первым и используется во многих рекомендательных системах.» "самый первый" исторически или просто первый, как телеканал?

Не любите обособлять запятыми причастные обороты. Вообще запятые не любите: (

✔ Сделано

Раздел «Проблемы»[править код]

Откуда такой термин «контекстно-основанный подход», да ещё и викифицированный? Из какой книги?

Content based approach. Это второй метод создания рекомендательных систем. 1 страница. http://www.prem-melville.com/publications/recommender-systems-eml2010.pdf 

В enwiki указана проблема «Масштабируемость» (Scalability). У вас её нет. Вы не считаете это серьёзной трудностью для КФ? Почему?

✔ Сделано Я сначала подумал что это можно объеденить с проблемой разрежённости, но потом понял что нет. Вставил проблему в статью.

Раздел «Виды»[править код]

Будьте, пожалуйста, более многословны и уточните название этого раздела, то есть «Виды» чего? Вероятно, этот мой вопрос возник из непоняток следующего вопроса.

✔ Сделано

В первом абзаце этого раздела вы используете слова: виды, методы и подходы. Какие из этих трёх слов являются синонимами в вашей статье? Или это здесь три разные вещи? На рисунке у вас «Виды», а в названиях подразделов «Подходы». Согласуйте, пожалуйста.

✔ Сделано

«Коллаборативная фильтрация является одним из основных методов используемых при создании рекомендательных систем.» Из этого предложения следует, что КФ — это один из методов разработки ПО? Сильно.

✔ Сделано

«Этот подход также позволяет преодолеть проблему разряженности и потери информации. Однако данный подохд сложен и дорог в реализации и применении.» Проблема «разряженности» может случиться у дам, а у данных, наверное, «разреженность». Если вы умеете ставить внутренние ссылки в статье (на подраздел с помощью символа решётки #), то здесь уместно поставить переход на главу «Разреженность данных» в этой же статье.

✔ Сделано

«Одним из самых популярных подходов в реальных проектах является и гибридный подход, который объединяет подход основанный на соседстве с подходом основанным на модели.» "Реальные проекты" делают реальные пацаны :) Меня смутил союз "и": "и гибридный подход" - т.е. и гибридный подход тоже популярен в практических приложениях, но я не уловил, какой из предыдущих двух подходов популярен "в реальных проектах"?

✔ Сделано

«Данная парадигма имеет ряд преимуществ. Он обрабатывает» Парадигма — он?

✔ Сделано

«Число параметров может быть уменьшено на основе видов анализа главных компонент.» Это связано с темой: Метод главных компонент? Не ясно, что значит "видов анализа".

✔ Сделано Да.

«Они включают в себя метод байесовских сетей, кластеризации, латентной семантической модели, такие как сингулярное разложение, вероятностный латентный семантический анализ, латентное распределение Дирихле и марковской процесс принятия решений на основе моделей.» Викифицируйте предложение, поставив ссылки на статьи ВП с этими методами в рувики или enwiki.

✔ Сделано

P.S. Как успехи с анимацией? -- Andrew Krizhanovsky 11:30, 8 января 2013 (UTC)[ответить]

Анимация в пути

Раздел "Ссылки"[править код]

Сайт artpragmatica действительно имеет хоть сколько-нибудь значимый материал по теме КФ? Чем они лучше многих других сервисов КФ? -- Andrew Krizhanovsky 06:29, 9 января 2013 (UTC)[ответить]

Эта ссылка осталась от предыдущего редактора. Там просто пониже есть много источников на инфу о КФ. Хотя вообще думаю можно убрать.

Смотрю вторую ссылку. Что там саммое ценное, на мой взгляд, так это статья "Linden G., Smith B., and York J. Item-to-Item Collaborative Filtering". Но у вас она уже есть в разделе "Литература". Нужна ли эта ссылка?

Читая комментарии по этой ссылке, встретил алгоритм КФ Slope One. Статья будет не полной, если вы не упомянете хотя бы про те алгоритмы, про которые уже написано в ВП. Кстати в статье CF в enwiki этот алгоритм был. Укажите, пожалуйста, к какому типу КФ алгоритм относится.

P.S. Распечатку сделал... -- Andrew Krizhanovsky 11:05, 10 января 2013 (UTC)[ответить]

Категории[править код]

Робот говорит, что у статьи отсутствуют категории [2]. -- Andrew Krizhanovsky 11:55, 12 января 2013 (UTC)[ответить]

Рецензия на 24 января 2013 года[править код]

Здесь находятся завершившиеся обсуждения. Просьба не вносить изменений.

Статья об одном из методов создания рекомендательных систем, который широко используется для составления рекомендаций в социальных сетях и интернет магазинах. Материал взят в основном из списка литературы и частично из enwiki en:Collaborative filtering. Хочется узнать, всё ли легко читается и есть ли какие то недоработки?

Заранее спасибо! --Moshanin 23:49, 22 января 2013 (UTC)[ответить]

Спасибо за замечания. Вы наверно имеете ввиду раздел проблемы или в общем? Дело в том, что все эти разделы различаются по смыслу и их сложно будет объединить в один подзаголовок. Или у вас есть предложения?
✔ Сделано Хорошо, исправил.
  • Читается нелегко, потому что обрывается на самом интересном месте ;). Принцип понятен и вечен, главное — реализация! Вопрос, оставшийся для меня загадкой: где, как, в каком виде система узнаёт об оценках, которые даёт пользователь? Вы упомянули лишь что «большинство пользователей не ставит оценки товарам». Ну да, не ставит. Так как же оно работает? Статистика посещений в пределах одного сайта, той же википедии или ютюб — это понятно, но ведь за посещениями никакого предпочтения (лайка или дислайка) не стоит, да и явной связи с товарами нету. (Читатель примерно знает, кому надо сказать спасибо за то, что в контекстной рекламе Яндекса у меня всегда вываливается товар А, а в рекламе гугля — товар Б, но такой опыт скорее говорит об отсутствии внятной стратегии на том конце — оказывается, одно случайное посещение способно опрелелить «контекст» на несколько недель вперёд. Далеко они пойдут с такой стратегией!) Retired electrician (talk) 13:33, 23 января 2013 (UTC)[ответить]
Ну вообще, то, о чём вы написали в конце является маркетинговым инструментом под названием ретаргетинг и ни какого отношения к КФ он не имеет. А так, в преамбуле и в описании написано немного о способах получения оценок или информации о пользователе, то есть о прямом получении оценок от пользователя (лайк/дислайк) и скрытом наблюдении (напр. наблюдаем какие песни или видео пользователь слушал,смотрел или купил). В статье написано основные принципы работы метода. В литературе есть ссылки на примеры применения КФ в конкретных сервисах, например Amazon.
  • Ещё: уберите лекторские («Отметим, что эти прогнозы …») и рекламные («чрезвычайно полезны») обороты. Но это всё вторично, главное — информация по существу предмета. Retired electrician (talk) 13:33, 23 января 2013 (UTC)[ответить]
✔ Сделано Спасибо, исправил.