Обсуждение:Многослойный перцептрон Румельхарта

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску

leastmean - квадрат (LMS)[править код]

What is it??? Least Mean Square??? Это не "leastmean - квадрат", а оценка чего-либо (например, результата работы алгоритма) по методу наименьшего (Least) средне(Mean)квадратичного (Square) отклонения (от чего-либо, например, идеального результата и т.п.). 94.25.37.21 20:03, 28 октября 2009 (UTC)[ответить]

Стиль ?[править код]

В чем тут проблемы со стилем ? Если нету объяснений, шаблон уберу. --S.J. 10:24, 29 ноября 2010 (UTC)[ответить]

Там в тексте присутствуют просторечные обороты и неверно употреблены некоторые слова. Пример: «С первых же строк происходит серьезное заблуждение». Как всегда бывает со стилем, проще исправлять, чем объяснять. Серебряный 10:43, 29 ноября 2010 (UTC)[ответить]

Если что-то есть - ВП:Правьте смело, но без объяснений шаблоны не выставляют. S.J. 10:58, 29 ноября 2010 (UTC)[ответить]

С чего Вы взяли, что не выставляют? Обратитесь лучше непосредственно к Yaroslav Blanter. Серебряный 11:00, 29 ноября 2010 (UTC)[ответить]
Вот я и обращаюсь. Подожду пару дней. А с какой стати их выставлять ? S.J. 11:03, 29 ноября 2010 (UTC)[ответить]
Ну так со стилем проблемы же.. Ставят, чтобы поправил кто-нибудь, у кого будет время и желание. Серебряный 11:07, 29 ноября 2010 (UTC)[ответить]
Не очевидно. Я например, этих проблем не вижу, да и субъективное это понятие ведомое лишь читателю. S.J. 11:10, 29 ноября 2010 (UTC)[ответить]
То есть Вы полагаете, что этот шаблон в принципе нельзя использовать? Или выносить статьи-кандидаты на использование на голосование на ВП:ВУ? Серебряный 11:12, 29 ноября 2010 (UTC)[ответить]
Я считаю, что нельзя использовать шаблоны без пояснений на странице обсуждения. S.J. 11:14, 29 ноября 2010 (UTC)[ответить]
Какие могут быть пояснения по «субъективному понятию ведомому лишь читателю»? Я дал пояснения выше. Могу добавить, что текст об уже прошедших событиях написан в настоящем времени. Только прошу Вас, не надо после исправления сразу удалять шаблон. Серебряный 11:17, 29 ноября 2010 (UTC)[ответить]
Выставляет шаблон именно такой читатель, поэтому ему и только ему это ведомо. S.J. 11:22, 29 ноября 2010 (UTC)[ответить]
  • Объясняю. На этом месте должна быть не научная работа, а энциклопедическая статья. Пример 1: "И это была бы только терминологическая неточность, если бы не дальнейшие выводы Румельхарда (а не Минского, как это можно было бы подумать)." Кто мог бы подумать? Почему он не подумал? А если подумал, где он об этом написал? На википедическом языке имеем оригинальное исследование. Пример 2. "Далее, Румельхард совершенно обоснованно пишет:" Кто сделал вывод, что он пишет совершенно обоснованно? Автор статьи? Если кто-то ещё, надо дать ссылку. А ещё лучше вообще убрать оборот "совершенно обоснованно". Такое впечетление, что автор постоянно с кем-то спорит. Ничего плохого в этом нет, но тогда нужны источники на источник спора, и прямым текстом об этом написать. А если нет, надо статью из модальности спора перевести в модальность изложения фактов, а если у кого-то что-то написано неверно, привести источники.--Yaroslav Blanter 11:22, 29 ноября 2010 (UTC)[ответить]

Формирование понятия о многослойном перцептроне[править код]

Обсуждаемая хронология:

  1. Розенблатт предложил перцептрон 1958
  2. В своей концепции перцептрона Розенблатт рассматривал несколько архитектур, начиная с т.н. элементарного перцептрона - трёхслойной модели
  3. В трёхслойной архитектуре веса первого слоя (между S и А элементами) выбирались случайным образом, а затем фиксировались
  4. Розенблатту удалось доказать сходимость, он получил много-много результатов и имел большой успех
  5. Минский и Паперт написали книгу 1969 с критическим анализом только элементарного перцептрона
  6. Среди прочего Минский рассматривает проблемы при решении перцептроном т.н. предиката "четность", обучение которого оказалось неэффективным по времени и памяти.
  7. После этой книги интерес к перцептронам резко упал, было снято финансирование. Розенблатт погиб в 1971
  8. Румельхарт в 1986 возобновил интерес к нейронным сетям, опубликовав статью про back propagation
  9. Румельхарт делает при этом терминологическую и фактологическую ошибку, считая перцептрон Розенблатта принципиально однослойным и не решающим задачи XOR.
  10. Минский при описании проблемы с предикатом "чётность" сделал упрощённую демонстрацию. Румельхарт (похоже) на основании упрощённой демонстрации сделал вывод, что задача XOR не решается, ошибочно проинтерпретировав тему, поднятую Минским (таким образом спутав чётность с XOR Тут на самом деле несколько сложнее, и вообще не благодарное дело разбираться что именно им было спутано, по тексту в статье отмечаются фактические его ошибки, а что его привело к этому можно лишь догадываться. ).
  11. По причине этой неточности слава одноуровневого и неспособного к линейной сепарации и решению XOR-проблемы закрепилась за перцептроном Розенблатта, хотя в Розенблатт никогда не рассматривал такого рода перцептроны
  12. Обосновав необходимость многослойности, Румельхарт предложил свою модель многослойного перцептрона, которая была сформулирована по подобию элементарного перцептрона Розенблатта, но с некоторыми модификациями.
  13. Для обучения многослойного перцептрона Румельхарт разработал метод back propagation

Попробуем выправить стиль этой главы. Ярослав прав, текст содержит полемические обороты, и к тому же тяжело читается.Сначала предлагаю в хронологическом порядке описать тут события, о которых идёт речь. Как я понимаю

Правильна ли данная хронология и что в ней отсутствует? неон 18:21, 1 июня 2011 (UTC)[ответить]

Хронология может и такая, но она не верна фактически. Если не возражаете я поправлю вашу хронологию ? --S.J. 20:24, 1 июня 2011 (UTC)[ответить]
зафиксировал веса на выходе со входного уровня, чтобы облегчить себе вычислительную задачу - это не понимаю, такого не было. чтобы облегчить себе вычислительную задачу - это очень спорно, такой цели не было. Что значит зафиксировал веса на выходе со входного уровня ? Веса первого слоя выбираются случайным образом, после чего они фиксируются. "на выходе со входного уровня" - это как минимум очень тяжелая фраза, так терминологически не говорят. --S.J. 20:28, 1 июня 2011 (UTC)[ответить]
Причиной этого было то, что фактически (по причине зафиксированных входных весов) перцептрон Розенблатта стал одноуровневым. - это так описывал Румельхарт, и ряд его последователей. Но так не было фактически. --S.J. 20:31, 1 июня 2011 (UTC)[ответить]
хотя в концепции Розенблатта существовали и многоуровневые перцептроны - более того, в концепции Розеблатта никогда не было менее чем трехслойных перцептронов. Более того, он сам доказал, что перцептроны с меньшим числом слоев не могут ничего. Это никогда не обсуждал и не критиковал Минский, его критика более сложная и относится до сих пор ко всем видам нейронных сетей. --S.J. 20:34, 1 июня 2011 (UTC)[ответить]

Эту хронологию я не предлагаю вставлять в статью, а просто составляю чтобы понять что происходило. Так что "правьте смело", однако сохраняя краткость характеристик событий. Теперь Ваш ход :-) неон 20:38, 1 июня 2011 (UTC)[ответить]

Попробовал разбить историю про Минского на два пункта, чтобы было поменьше сложноподчиненных предложений. Это правильно? неон 21:15, 1 июня 2011 (UTC)[ответить]

Не совсем, к Минскому претензий не может быть, там в этом отношении все четко :) Поправил. --S.J. 21:17, 1 июня 2011 (UTC)[ответить]
Что ещё тут можно выправить или существенного добавить? неон 21:26, 1 июня 2011 (UTC)[ответить]
Ну вроде как все, далее зависит от дальнейшей цели. --S.J. 21:29, 1 июня 2011 (UTC)[ответить]

теперь можно попробовать на основании данной цепочки фактов сформировать раздел статьи.

Начнём с самого главного (преамбулы раздела), которая очень кратко пересказывает о чём идёт речь.

Все виды перцептронов, предложенные Розенблаттом, начиная с 1958 года, являются по современной классификации многослойными. В 1970-е годы интерес к перцептронам снизился, и в 1986 Румельхарт сконструировал многослойный перцептрон заново. При этом по причине терминологической неточности Румельхарта в литературе распространилось также представление о том, что первоначальный перцептрон Розенблатта был примитивным и однослойным, и лишь Руммельхарт обосновал необходимость введения скрытых слоёв.

Сгодится такая фраза как преамбула раздела (в котором далее пойдут пояснения, как такое получилось и что собственно сделал Руммельхарт ? Что тут можно поправить? неон 22:13, 1 июня 2011 (UTC)[ответить]

Тут есть еще такая путаница - есть то, что Розенблатт называл многослойным Многослойный перцептрон Розенблатта (четырехслойный), а есть то, что он называл элементарным перцептроном (об этом статья Перцептрон). Оба они многослойные. Но может утяжелять этими подробностями не нужно ? --S.J. 22:36, 1 июня 2011 (UTC)[ответить]
Чуть поправив перенес. --S.J. 22:47, 1 июня 2011 (UTC)[ответить]

Да, с одной стороны несколько перцептронов Розенблатта многослойны, но текст загромождать не хочется. Как бы написать по короче но поточнее? Например - "Перцептрон, предложенный в 1958 году Розенблаттом, определялся как многослойный, в нескольких вариациях. В 1970-е годы .... " и далее по тексту Сойдет? неон 22:55, 1 июня 2011 (UTC)[ответить]

Может так: "Все виды перцептронов, предложенные Розенблаттом, начиная с 1958 года, являются по современной классификации многослойными. В 1970-е годы .... " ? точнее будет. --S.J. 22:59, 1 июня 2011 (UTC)[ответить]

Достаточно для преамбулы? Дальше думаю можно уже написать поясняющий текст, следуя "хронологии" и иллюстрируя теми цитатами, которые приведены в статье... неон 23:03, 1 июня 2011 (UTC)[ответить]

Ок. Но думаю вдаваться в дебри с предикатами четности не нужно. Что стоит переформулировать далее ? Вы недавно читали, вам легче понять что было не ясно, затрудняло чтение. --S.J. 23:08, 1 июня 2011 (UTC)[ответить]

Далее после преамбулы у нас две цели - "за здравие" - что Руммельхарт сделал нечто, что значительно лучше (с практической точки зрения), и "историческая правда" - что он не разобрался в терминологии и пошло-поехало. Я бы вёл изложение по следующему плану -

  1. В своих исследованиях Розенблатт использовал преимущественно т.н. "элементарный перцептрон" из трёх слоёв, причём веса первого слоя (между S и А элементами) выбирались случайным образом, а затем фиксировались. Такой приём позднее воспринимался как выключение первого слоя, в результате чего перцептрон становился однослойным.
  2. Помимо того, в 1969 Минский и Паперт в своей книге <ссылка >провели критический анализ элементарного перцептрона, выявив крайне медленную сходимость и неэффективность по времени и памяти, что собственно послужило причиной снижения интереса к перцептронам у исследователей.
  3. Вернувшись через много лет к тематике, Руммельхарт поставил целью создать более эффективный и практичный перцептрон. Он теоретически обосновал важность скрытого слоя, разработал более совершенный метод обучения (back propagation), и модифицировал перцептрон в соответствии с требованиями нового метода.
  4. При этом, анализируя предыдущие работы, Руммельхарт допустил терминологическую ошибку. Он сделал заключение о том, что элементарный перцептрон Розенблатта принципиально однослойный, и в частности не решает проблем XOR и линейной сепарабельности, приписав этот вывод Минскому, хотя Минский этих вопросов даже не касался <цитата>.
  5. По причине этой неточности в литературе распространилось ошибочное мнение о примитивности перцептрона Розенблатта, и что лишь Руммельхарт, создав свой многослойный перцептрон, открыв принципиальную возможность производить линейную сепарацию и решать проблему XOR, хотя открытие Руммельхарта состояло преимущественно в практической модификации многослойной схемы и разработке принципиально нового метода обучения.

Что тут можно попрравить? Куда надо всунуть большую цитату? Думаю эту цитату можно серьёзно сократить убрав не имеющие отношение к данной истории экскурсы в LMS и т.д.... Что ещё можно проиллюстрировать для большей наглядности? неон 09:01, 2 июня 2011 (UTC)[ответить]

Это все неверно фактически. Это снова легенды. Ничего Руммельхарт не сделал, что значительно лучше (с практической точки зрения). Он просто разработал еще один способ обучения. Лучше он или нет более чем спорно. Далее я снова выберу ваши пункты и буду исправлять ? Или т.к. исправлений будет много лучше наверное скопирую оставив ваш вариант. --S.J. 09:10, 2 июня 2011 (UTC)[ответить]
  1. В своих исследованиях Розенблатт использовал преимущественно т.н. "элементарный перцептрон" из трёх слоёв, причём веса первого слоя (между S и А элементами) выбирались случайным образом, а затем фиксировались. Такой приём позднее воспринимался как выключение первого слоя, в результате чего перцептрон становился однослойным.
    Воспринимался, но перцептрон не становился. Вот именно игнорирование случайного выбора весов первого слоя и сыграло "злую шутку", на самом деле случайный выбор весов первого слоя, практически эффективнее обучения по Руммельхарту, а теоретически тоже самое (по сходимости и линейной разделимости)
  2. Помимо того, в 1969 Минский и Паперт в своей книге <ссылка >провели критический анализ элементарного перцептрона, выявив крайне медленную сходимость и неэффективность по времени и памяти, что собственно послужило причиной снижения интереса к перцептронам у исследователей.
    Откуда уже обобщение ? Речь у Минского шла о некоторых специфичных предикатах, распространенный пример предикат "четность". Опять же на сегодняшний момент НИ ОДИН вид нейронных сетей не решает этот вопрос лучше.
  3. Вернувшись через много лет к тематике, Руммельхарт поставил целью создать более эффективный и практичный перцептрон. Он теоретически обосновал важность скрытого слоя, разработал более совершенный метод обучения (back propagation), и модифицировал перцептрон в соответствии с требованиями нового метода.
    Не забываем, что Розенблатт сам обосновывал важность скрытого слоя (там ничего нету сложного - пару предложений, т.к. тривиально). Ничего более совершенного там нету, просто другое.
  4. При этом, анализируя предыдущие работы, Руммельхарт допустил терминологическую ошибку. Он сделал заключение о том, что элементарный перцептрон Розенблатта принципиально однослойный, и в частности не решает проблем XOR и линейной сепарабельности, приписав этот вывод Минскому, хотя Минский этих вопросов даже не касался <цитата>.
    Именно так.
  5. По причине этой неточности в литературе распространилось ошибочное мнение о примитивности перцептрона Розенблатта, и что лишь Руммельхарт, создав свой многослойный перцептрон, открыв принципиальную возможность производить линейную сепарацию и решать проблему XOR, хотя открытие Руммельхарта состояло преимущественно в практической модификации многослойной схемы и разработке принципиально нового метода обучения.
    Это тоже так, с учетом, что не подразумевается, что-то лучшее.

Пункты 2-5 попытайтесь скорректировать самостоятельно, важно только указать что работа Минского вызвала снижение интереса по причине специфических контрпримеров. Займемся путктом 1 как наиболее сложным.

Насколько я понимаю, Backpropagation и подобные ему классические математические методы оптимизации аккуратно опускаются в локальном минимуме, и проблему обучения не решают. И реальное обучение обязательно должно сочетать Backpropagation со стохастическим поиском, чтобы вырваться из этого локального минимума и поискать приключений подальше (кстати этот момент в статье кажется не подчеркнут).

Правильно ли я теперь понимаю, что Розенблатт по сути дела случайной выборкой входных весов как раз проводил подобие этого стохастического поиска, и (проводя грубую аналогию) сначала случайно выбирал начальное приближение, а потом искал как умел локальный минимум; а потом снова пробовал другое начальное приближение. В отличии от него Руммельхарт именно усовершенствовал метод поиска локального минимума (а после него вообще вместо backpropagation стал использоваться метод сопряжённых градиентов), но стохастический поиск включался уже потом, когда из локального минимума надо было выходить? Иными словами, два модуля обучения поменялись местами неон 10:04, 2 июня 2011 (UTC)[ответить]

Нет. Там все сложнее :) Уверены, что хотите разобраться ? Может тогда сюда v:Возможности перцептрона Розенблатта, заодно создам курс ... на самом деле этому посвящены две мои статьи. --S.J. 10:15, 2 июня 2011 (UTC)[ответить]
Попробую кратко. Случайной выборкой весов первого слоя обеспечивается отображение исходной задачи на пространство большей размерности, которое уже линейно сепарабельно, и тогда не составляет особого труда найти разделяющую гиперплоскость. Румельхарт же это отображение подыскивает алгоритмически, и тем самым это не гарантирует сразу линейной сепарабельности и происходит итеративный поиск. Преимущество этого только в том, что это линейно сепарабельное пространство в итоге получается не произвольное, а якобы более соответствующие задаче для последующего прогнозирования - но это никто не доказал. --S.J. 10:25, 2 июня 2011 (UTC)[ответить]
Что нибудь знаете о en:Support vector machine ? --S.J. 10:27, 2 июня 2011 (UTC)[ответить]
Вот прочитайте Метод опорных векторов#Постановка задачи. Речь вот о чем. Таких гиперплоскостей может быть много. Поэтому вполне естественно полагать, что максимизация зазора между классами способствует более уверенной классификации. Т.е. перцептрон находит любую гиперплоскость, не сколько не заботясь о максимизации зазора. SVM как раз должно обеспечивать этот зазор (хотя на практике я не знаю как этого добиться). А вот у перцептрона Румельхарта этот зазор не произволен, и возможно лучше чем у перцептрона Розенблатта, но это зависит от задачи и не показано когда какой. Но зато у Румельхарта есть проблемы со сходимостью на практике (хотя в теории доказано что сходимость есть, но подозреваю, что там просто идеальные дифы, а на практике их нету). --S.J. 10:34, 2 июня 2011 (UTC)[ответить]
Кстати, может быть знаете где скачать книгу Perceptrons - Expanded Edition, вроде как в ней Минский снял несколько своих критичных замечаний, было бы интересно узнать каких ... --S.J. 14:02, 2 июня 2011 (UTC)[ответить]
Мне надо это немного переварить. Я пока сомневаюсь в "пространство большей размерности, которое уже линейно сепарабельно", то есть, шансы попасть в такое пространство есть, заглянув с такого бока, чтобы задача XOR и ей подобная решалась (кстати, предикат чётность не есть тот же XOR но в двумерном пространстве??? :-))) "Румельхарт же это отображение подыскивает алгоритмически, и тем самым это не гарантирует сразу линейной сепарабельности и происходит итеративный поиск.". Вот. Если я захочу повредничать, я найду такие входные веса, которые задачу XOR не решают, попадая в неудачное гиперпространство. Тогда что надо будет делать? Бросить эту систему весов и искать другие неон 14:40, 2 июня 2011 (UTC)[ответить]
Сомневайтесь, но это именно так. кстати, предикат чётность не есть тот же XOR но в двумерном пространстве??? - в том то и дело что нет, хотя похоже ... но отсюда и ошибка. --S.J. 17:19, 2 июня 2011 (UTC)[ответить]
Если я захочу повредничать, я найду такие входные веса, которые задачу XOR не решают - вот здесь мы и подходим к сути вопроса. Вы повредничать можете. Но закон распределения случайных чисел не может. Надо лишь выполнить определенные условия, этому и посвящена одна моя статья, нужно просто 30 А-элементов в среднем слое, и вероятность то, что вы попадете в этот неприятный случай уже менее 0,1 %, а для 100 А-элементов уже практически нереально. --S.J. 17:23, 2 июня 2011 (UTC)[ответить]
Отсюда кстати, эммулировать случайность алгоритмически (т.е. по каким-то правилам) на порядок сложнее, а Румельхарт не может это делать произвольным алгоритмом, у него эта случайность должна быть завязана на метод градиентного спуска, и при таких условиях обеспечить случайность на порядок хуже. Лучше же чем случайность тут ничего в принципе не может быть - такая математика. --S.J. 17:34, 2 июня 2011 (UTC)[ответить]
Что касается учебного примера в Викиверситете в 60000 образцов: я попробовал 2000 A-нейронов (меньше плохо, а на большее нет памяти) по 3-4 связи на нейрон, сходится заметно хотя и медленно, по мере итераций выходы полностью обучаются по-очереди, одни быстрее, другие очень медленно. Однако надо отметить, что достаточно скоро "адекватность" (процент угадывания на контрольных примерах) останавливается, и последующее итерационное "вылизывание" весовых коэффициентов для улучшения адекватности ничего не даёт. Тут можно остановить обучение - лучше все равно не выучить, даже если всё полностью сойдётся в ноль. Но Розенблатт тут не виноват - сеть Румельхарта страдает тем же, и другие тоже. В общем мне стало ясно как это получается - случайные коэффициенты на вход A-слоя выворачивают пространство в особый ракурс, отчего выходы становятся линейно сепарабельными, но с разным качеством - одни достаточно чётко, другие похуже, но зависит это от ракурса который получился. Теперь надо думать как эту мысль выразить в статье. И возможно в статье Перцептрон тоже. неон 22:31, 3 июня 2011 (UTC)[ответить]
Все так, собственно тоже самое я и пытался объяснить выше. Жду ваших предложений по "выражевыванию" :) --S.J. 22:45, 3 июня 2011 (UTC)[ответить]

1. В своих исследованиях Розенблатт использовал преимущественно "элементарный перцептрон" из трёх слоёв, причём веса первого слоя (между S и А элементами) выбирались случайным образом, а затем фиксировались. Сочетание случайности и большого числа нейронов в A-слое обеспечивали высокую вероятность попадания в такое гиперпространство, в котором имелась линейная сепарабельность и гарантировалась сходимость процесса обучения. Однако такой приём позднее воспринимался как выключение первого слоя вообще, отчего перцептрон Розенблатта критиковался как однослойный. неон 07:44, 4 июня 2011 (UTC)[ответить]

Сложно назвать критикой то, что неверно понималось. Может так : Однако такой приём тогда не был достаточно изучен и понят, и его некоторые ученные неверно воспринимали как имеющий лишь один "работающий" слой, а фиксированному первому слою не уделяли должного внимания. Одним из первых был Румельхарт ... --S.J. 08:53, 4 июня 2011 (UTC)[ответить]

Отлично. На самый сложный пункт продвинулись. Теперь едем дальше - по поводу второго и третьего пункта неон 09:30, 4 июня 2011 (UTC)[ответить]

Я немного покорректировал статью. Посмотрите и давайте далее с привязкой к имеющемуся тексту. --S.J. 09:41, 4 июня 2011 (UTC)[ответить]

Работаем над фразой

"Кроме того, еще до этого в 1969 году Минский и Паперт в своей книге провели критический анализ элементарного перцептрона, выявив ряд ограничений, что послужило причиной снижения интереса к перцептронам у исследователей. Вернувшись через много лет к тематике, Руммельхарт поставил целью создать более эффективный и практичный перцептрон, но для этого нужно было хотя бы сделать попытку продемонстрировать отсутствие ограничений описанных Минским."

Содержание не вызывает протеста. О стилистике. Я думаю, "кроме того еще до этого" висит в воздухе, может быть просто написать

(2)"1969 году Минский и Паперт в своей книге провели критический анализ элементарного перцептрона, выявив ряд ограничений, что послужило причиной снижения интереса к перцептронам у исследователей. Вернувшись через много лет к тематике, Руммельхарт поставил целью создать более эффективный и практичный перцептрон, но для этого нужно было хотя бы сделать попытку продемонстрировать отсутствие ограничений описанных Минским." неон 11:14, 4 июня 2011 (UTC)[ответить]

И наконец самый длинный пассаж от "Поэтому когда в 1986 году Румельхарт..." до окончания всех цитат. В тексте наталкиваются несколько сюжетов (XOR, Минский, опримальность, терминологическя ошибка, ...) и смешавшись с полемикой делают текст трудночитаемым. Будем думать как из тех же элементов создать хорошочитаемый текст с теми же выводами неон 12:35, 4 июня 2011 (UTC)[ответить]

(3) В 1986 году Румельхарт публикует сборник статей (коллективную монографию) [2] где он возвращается к дискуссии о перцептронах, и обосновывает необходимость алгоритма обратного распространения ошибки, суть которого в необходимости обучения не только второго, но и первого слоя. При этом он приводит рисунок из книги Минского и Пайперта и подписывает его — «Однослойный перцептрон, анализируемый Минским и Пайпертом».

это обсуждаем --S.J. 21:41, 4 июня 2011 (UTC)[ответить]

Неточность заключалась в том, что Минский и Пайперт не анализировали однослойный перцептрона; изображённый на рисунке перцептрон Розенблатта был представлен Румельхартом как однослойный по причине фиксированных коэффициентов первого слоя, отбрасывая первый слой как не подлежащий обучению; но первый слой играл существенную роль в трансформации входного сигнала в линейно-сепарабельное пространство. Эта мысль была сформулирована Румельхартом так:

"В их известной книге Perceptrons, Минский и Паперт (1969) документируют ограничения перцептрона. Самым простым примером функции, которая не может быть вычислена перцептроном, является "исключающее или" (XOR)".

Ошибка заключается в том, что Минский и Паперт на протяжении всей своей книги ни разу не говорили о функции XOR, а технология выбора первого слоя в перцептроне Розенблатта как правило легко решает проблему XOR. Отсюда и появилось название «однослойный перцептрон» по отношению к перцептрону Розенблатта, которое потом стало основой ряда недоразумений.

Далее, Румельхарт пишет: <большая цитата> " ....

Как такой вариант первой половины пассажа? неон 13:23, 4 июня 2011 (UTC)[ответить]

Будем решать :) надо подумать .. но уже сейчас - спасибо за помощь. --S.J. 17:49, 4 июня 2011 (UTC)[ответить]
В принципе хорошо. Но если быть дотошным. по причине фиксированных коэффициентов первого слоя, отбрасывая первый слой как не подлежащий обучению - такое объяснение явно есть у Вассермана (которого тут предпочитают писать через "У"), но у Румельхарта я не помню. Чисто теоритически тут есть и другой вариант: у Минского нарисовано не очень хорошо, если не вдаваться в текст, то ощущение, что нарисован именно один слой. Но у Минского первый слой - это предикаты, а это функция от нескольких аргументов ... т.е. и отсюда может проистекать недоразумение. Как я говорил выше, сложно судить из-за чего ... надо бы как-то красиво этот момент обойти без потери особого смысла. --S.J. 21:26, 4 июня 2011 (UTC)[ответить]

А если так: "как однослойный, так как первый слой с фиксированными весами был отброшен, отчего без внимания остался факт, что первый слой играл существенную роль в трансформации входного сигнала во многомерное линейно-сепарабельное пространство" неон 21:48, 4 июня 2011 (UTC)[ответить]

Лучше, но далее не вяжется "Эта мысль была сформулирована Румельхартом так", мысль то другая ... а не эта .. --S.J. 21:55, 4 июня 2011 (UTC)[ответить]
Может далее по моему тексту (см. коррекции статьи) ? --S.J. 22:02, 4 июня 2011 (UTC)[ответить]

Может быть фразу перед цитатой написать так: "В результате Румельхарт приписал перцептону Розенблатта нерешаемость важнейшего класса задач:". неон 22:13, 4 июня 2011 (UTC)[ответить]

Как то несколько разговорно получается, может быть : В результате Румельхарт сделал неверный/необоснованный/ошибочный [нужное подчеркнуть] вывод: --S.J. 23:56, 4 июня 2011 (UTC)[ответить]
Трудность в том что он сделал сразу две неточности - про XOR и про Минского. "В результате Румельхарт формулирует ошибочный вывод <цитата без выделения в отдельный абзац>. Ссыдка на Минского тоже неверна - Минский нигде на протяжении всей своей книге проблему XOR не затрагивал."

Думаю цитату можно подать курсивом а не отдельным абзацем, чтобы дальнейшее обсуждение про книгу Минского попало в тот же абзац. неон 06:27, 5 июня 2011 (UTC)[ответить]

Поменял, но цитату лучше оставить как есть. --S.J. 06:35, 5 июня 2011 (UTC)[ответить]

Поедем дальше. "Кроме того на самом деле перцептрон Розенблатта легко решает проблему XOR. Такое представление действительно можно получить, если убрать из перцептрона один слой, что собственно ошибочно и было сделано Румельхартом. Отсюда и появилось название «однослойный перцептрон», которое потом стало основой ряда недоразумений." - сократить так как эта мысль уже есть на абзац раньше и дискуссия тут идет по кругу. Возможно следует убрать теперь рассуждения "Кроме того на самом деле" и заменить констатацией -

"Таким образом неточность Румельхарта привела к игнорированию роли ассоциативного слоя (который гарантировал решениие задач типа XOR), и возникло название «однослойный перцептрон», которое потом стало основой ряда недоразумений." Далее Румельхарт пишет <больщая цитата>..."

У нас теперь останется один абзац после большой цитаты - и кажется всё. Этот абзац хорошо бы сократить за счет неповторения аргументации, которая была уже ранее (заменив дисккуссию констатацией) и сделать косметическую коррекцию слитя ... неон 12:52, 5 июня 2011 (UTC)[ответить]

Немного скорректировал, еще предложения ? --S.J. 13:51, 5 июня 2011 (UTC)[ответить]

Хорошо. главное подчеркнуто, никакой дискуссии не ведется и остается констатация.

Теперь последний абзац

"Но Румельхарт ошибочно полагает, что это не относится к перцептрону Розенблатта. Под словами многослойный перцептрон оказывается как раз то, что понимается под перцептроном Розенблатта. Другое дело, что действительно «Оригинальная процедура обучения перцептрона относится не более чем к одному слою», но в этом и не было необходимости, так как первый слой выбирался случайным образом, что строго математически позволяло «взять оригинальную двумерную проблему и преобразовать это в соответствующую трехмерную проблему». Кроме того, Розенблаттом рассматривался полный аналог многослойного перцептрона Румельхарта, под названием перцептрон с переменными S-A связями, где помимо прочего было доказано, что процедура обучения аналогичная обратному распространению ошибки не всегда может гарантировать достижение решения (обеспечить сходимость)."

попробую сформулировать по-другому, опять же стараясь исключать полемические выражения и вперёд выставляя позитивные утверждения.

"Здесь Румельхарт видит решение в том, что необходимо «взять оригинальную двумерную проблему и преобразовать это в соответствующую трехмерную проблему», и обосновывает принципиальную важность многослойности, ошибочно считая что перцептрон Розенблатта этим качеством не обладает. Разница только в том, что Розенблатт смог избежать обучения первого слоя, используя его случайную проекцию на многомерное пространство. Кроме того в других работах Розенблаттом рассматривался полный аналог многослойного перцептрона Румельхарта, под названием «перцептрон с переменными S-A связями», где помимо прочего было доказано, что процедура обучения аналогичная обратному распространению ошибки не всегда может гарантировать достижение решения (обеспечить сходимость)."

Так годится? Я попытался сконцентрировать внимание на различии неон 14:08, 5 июня 2011 (UTC)[ответить]

Да, так лучше получается. --S.J. 15:09, 5 июня 2011 (UTC)[ответить]

Уже достаточно прилично выглядит, тут можно думаю остановиться. Ещё бы добавить пару ссылок, в которых - (1) утверждается что перцептрон Розенблатта способен решать XOR и другие задачи за счет проекции в гиперпространство и (2) отмечается что Руммельхарт совершил ошибку неон 15:28, 5 июня 2011 (UTC)[ответить]

Таких ссылок не существует (за исключением моей статьи :) под названием в "PERCEPTRON ARCHITECTURE ENSURING PATTERN DESCRIPTION COMPACTNESS" в сборнике РТУ ) --S.J. 17:28, 5 июня 2011 (UTC)[ответить]

Тут например из IEEE

описывается процесс увеличения скрытого слоя и упоминается о трехслойном перцептроне Розенблатта. Может быть использована как ссылка для обоснования наиболее щекотливого места статьи. Ну еще картинку про XOR из статьи Перцептрон. Ваша ссылка сгодится раз она была опубликована в научном журнале. А если будет выглядеть не так явно что "Руммельхарт совершил ошибку" - придётся поправить текст и сделать более политкорректным - указать на терминологическое несоответствие и на неоднозначность понимания перцептрона после появления Руммельхарта, показав что Перцептрон Розенблатта также воспринимается как трёхслойный. неон 17:47, 5 июня 2011 (UTC)[ответить]

в русском варианте моя статья тут [1] (правда математические знаки "покоцанные", копи-паст из ворда был). Там о Руммельхарте я ничего не говорю (политкорректно :) ), но там отмечены другие важные моменты. --S.J. 17:59, 5 июня 2011 (UTC)[ответить]
Статья более подробно излагает (1) утверждается что перцептрон Розенблатта способен решать XOR и другие задачи за счет проекции в гиперпространство, ну а ошибка Руммельхарта - очевидна, и это показывается просто сравнением трех работ, Руммельхарта, Минского и Розенблатта. --S.J. 18:12, 5 июня 2011 (UTC)[ответить]
Сослаться надо однако на нерусский вариант (если он в научном издании), а русский указать как перевод. А если ошибка явно нигде не утверждается - надо ослабить её критику и указать просто на несоответствие. неон 19:52, 5 июня 2011 (UTC)[ответить]
Сделал добавление, в статье явно указано "Второй вывод, который мы сделаем, заключается в том, что представленный в работе анализ позволяет понять, почему в ряде случаев исследователями делались несколько некорректные выводы по отношению к возможностям перцептронов.", ни говорится явно о Руммельхарте, но говорю явно о Минском (что даже "сильнее") "Но Розенблатт не провел полного анализа того, что это может означать на практике. Следствием этого стало недостаточно обоснованное утверждение Минского [4], что «перцептрон работает безупречно только при том условии, что множество исходных данных линейно разделимо». Теоретически уже достаточно доказанных теорем Розенблатта, чтобы опровергнуть это утверждение Минского и показать, что перцептрон работает на любом множестве данных. Но так как первый слой связей в перцептроне выбирается случайным образом и не обучается, часто возникает мнение, что с равной вероятностью перцептрон может работать, а может не работать при линейно неразделимых исходных данных, и только линейные исходные данные гарантируют его безупречную работу. ". Это думаю достаточно, чтобы оставить так как сейчас есть. --S.J. 22:42, 9 июня 2011 (UTC)[ответить]

В общем исследования про первый слоя и историю про XOR надо обильно снабдить ссылками (лучше несколько), слово "ошибка" во возможности заменить на несоответствие (чтобы оно было видно), хорошо бы ещё ссылку о том что в этой области несоответствия сплошь и рядом (кажется Вассерман сие говорил)... Главное что раздел всё-таки посвящйн не ошибке а становлению понятия "многослойный перцептрон" неон 20:03, 5 июня 2011 (UTC)[ответить]

  • Кстати, и автор гипотезы компактности, говорит о том же, что и я, только с другой точки зрения: "случайное соединение рецепторов с A-элементами можно рассматривать просто как удобную техническую реализацию достаточно равномерного разбиения пространства рецепторов.", "То обстоятельство, что функции ϕ и Ф меняются непрерывно, а функции Δσ и σ — дискретно (на гранях многогранников), несущественно ввиду очень большого числа многогранников, которые образуются при пересечении нескольких сотен плоскостей, реализуемых персептроном". Так что, по Румельхарту мы еще мягко прошлись :) --S.J. 00:21, 10 июня 2011 (UTC)[ответить]