Обсуждение:Метод обратного распространения ошибки

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску

Открытие[править код]

В книге Stuart J. Russell and Peter Norvig "Artificial Intelligence. A Modern Approach" написано, что "The most popular method for learning in multilayer networks is called back-propagation. It was first invented in 1969 by Bryson and Ho", и еще в одном месте "The back-propagation technique had been invented quite early (Bryson and Ho, 1969) but it was rediscovered several times (Werbos, 1974; Parker, 1985).". И указана ссылка на книгу "Bryson, A. E. and Ho, Y.-C. (1969). Applied Optimal Control. Blaisdell, New York." --Tal1974 13:33, 5 июня 2014 (UTC)[ответить]

Ещё в 1970 в магистерской диссертации один финн предложил: http://people.idsia.ch/~juergen/who-invented-backpropagation.html. — infovarius (обс.) 11:16, 21 марта 2020 (UTC)[ответить]

Обновление[править код]

Статья должна быть полностью переписана с учетом современного состояния глубинного обучения, в текущем варианте она вводит читателя в заблуждение. Хороший обзор современного состояния науки можно найти, например, тут http://cs231n.github.io.

1) В англовики https://en.wikipedia.org/wiki/Backpropagation#History утверждается, что алгоритм обратного распространения был предложен в 1960-х годах.

2) Сам алгоритм используется не для минимизации функции ошибки, а для рассчета ее градиента или гессиана, которые, в свою очередь, подаются на вход алгоритмам оптимизации, таким как L-BFGS, SGD, Adam, RMSProp, SAG, SVRG, etc.

3) Имеет смысл рассматривать backprop как частный случай метода автоматического дифференцирования.

4) С 2010-х годов сигмоидальные функции активации почти не используются по причине затухания градиентов. Вместо них применяются ReLU, ELU и подобные.

5) Раздел про функции оценки возможно имеет смысл убрать вообще и оставить ссылку на статью про метод максимального правдоподобия, например.

6) Про режимы реализации написана чушь. Стохастический градиентный спуск используется в случаях, когда размер обучающей выборки слишком велик и вычисление полного градиента занимает слишком много времени.

7) Раздел про математическую интерпретацию нужно убрать совсем.

8) Раздел про недостатки алгоритма нужно убрать совсем, поскольку описанные недостатки специфичны не для алгоритма обратного распространения, а для конкретных архитектур сетей и методов оптимизации.

Norpadon (обс.) 06:51, 25 июля 2017 (UTC)[ответить]