Глубокое обучение: различия между версиями

[непроверенная версия]

Содержимое удалено Содержимое добавлено

Линейный

Версия от 11:03, 29 ноября 2019

Глубокое обучение (глубинное обучение; англ. Deep learning) — совокупность методов машинного обучения (с учителем, с частичным привлечением учителя, без учителя, с подкреплением), основанных на обучении представлениям (англ. feature/representation learning), а не специализированным алгоритмам под конкретные задачи. Многие методы глубокого обучения были известны ещё в 1980-е (и даже ранее^[1]), но результаты были невпечатляющими^[2], пока продвижения в теории искусственных нейронных сетей (предобучение нейросетей с помощью специального случая ненаправленной графической модели, так называемой ограниченной машины Больцмана) и вычислительные мощности середины 2000-х (прежде всего, графических процессоров Nvidia, а в настоящее время и тензорных процессоров Google) не позволили создавать сложные технологические архитектуры нейронных сетей, обладающие достаточной производительностью и позволяющие решать широкий спектр задач, не поддававшихся эффективному решению ранее, например, в компьютерном зрении, машинном переводе, распознавании речи, причём качество решения во многих случаях теперь сопоставимо, а в некоторых случаях превосходит эффективность «белковых» экспертов^[3].

История

Несмотря на то что термин «глубокое обучение» появился в научном сообществе машинного обучения только в 1986 году после работы Рины Дехтер^[4], первый общий рабочий алгоритм для глубоких многослойных перцептронов прямого распространения был опубликован в книге советских учёных Алексея Григорьевича Ивахненко и Валентина Григорьевича Лапы «Кибернетические предсказывающие устройства»^[5].

Другие глубокие архитектуры, в особенности те, которые специализируются на распознавании образов, берут своё начало с неокогнитрона, разработанного Кунихико Фукусимой в 1980 году. В 1989 году Яну Лекуну удалось использовать алгоритм обратного распространения ошибки для обучения глубоких нейросетей для решения задачи распознавания рукописных ZIP-кодов^[6]. Несмотря на успешный опыт, для обучения модели потребовалось три дня, что существенно ограничивало применимость этого метода. Низкая скорость обучения связана со многими факторами, включая проблему исчезающих градиентов из-за большого разброса масштабов обучаемых параметров, которую в 1991 году анализировали Йорген Шмидхубер и Сепп Хохрайтер. Из-за этих проблем нейронные сети в 1990-х годах уступили место методу опорных векторов.

К 1991 году такие системы использовались для распознавания изолированных двумерных рукописных цифр, а распознавание трёхмерных объектов осуществлялось путём сопоставления двумерных изображений с трёхмерной объектной моделью, изготовленной вручную. В 1992 году создана модель кресцентрона^[7]^[8]^[9] для распознавания трёхмерных объектов в загромождённых сценах.

В 1994 году Андре де Карвальо, вместе с Майком Фэйрхерстом и Дэвидом Биссетом, опубликовал экспериментальные результаты многослойной булевой нейронной сети, также известной как невесомая нейронная сеть, состоящая из трехуровневого самоорганизующегося модуля нейронной сети для выделения признаков (SOFT), а затем модуль многоуровневой классификации нейронной сети (GSN). Каждый модуль прошел независимое друг от друга обучение. Каждый слой в модуле извлекал объекты с растущей сложностью относительно предыдущего слоя.^[10]

В 1995 году Брендан Фрей продемонстрировал, что можно обучить (в течение двух дней) сеть, содержащую шесть полностью соединенных слоев и несколько сотен скрытых юнитов, используя алгоритм сна-бодрствования, разработанный совместно с Питером Даяном и Хинтоном^[11]. Многие факторы способствуют медленной скорости, включая проблему исчезающего градиента, проанализированную в 1991 году Зеппом Хохрайтером^[12]^[13].

Более простые модели, которые используют ручные работы, специфичные для конкретной задачи, такие как фильтры Габора и метод опорных векторов (МОВ), были популярным выбором в 1990-х и 2000-х годах из-за вычислительных затрат искусственной нейронной сети (ИНС, англ. ANN) и отсутствия понимания того, как мозг связывает свои биологические сети.

Как поверхностное, так и глубокое обучение (например, рекуррентные сети) ИНС изучалась в течение многих лет^[14]^[15]^[16]. Эти методы никогда не превосходили неоднородную смешанную Гауссову модель и скрытую модель Маркова, основанную на генеративных моделях речи, обученных дискриминационно^[17]. Были проанализированы ключевые трудности, в том числе уменьшение градиента^[12] и слабая временная корреляционная структура в нейронных прогностических моделях^[18]^[19]. Дополнительными трудностями были отсутствие обучающих данных и ограниченная вычислительная мощность.

Глубокое обучение приобрело популярность в середине 2000-х годов, когда всё сошлось воедино: компьютеры стали достаточно мощными, чтобы обучать большие нейронные сети (вычисления научились делегировать графическим процессорам, что ускорило процесс обучения на порядок), наборы данных стали достаточно объёмными, чтобы обучение больших сетей имело смысл, а в теории искусственных нейронных сетей произошло очередное продвижение — статьи Хинтона, Осиндеро и Тэ^[20], а также Бенджио^[21], в которых авторы показали, что можно эффективно предобучать многослойную нейронную сеть, если обучать каждый слой отдельно при помощи ограниченной машины Больцмана, а затем дообучать при помощи метода обратного распространения ошибки.

Революция в глубоком обучении

В 2012 году команда под руководством Джорджа Э. Даля выиграла Конкурс "Merck Molecular Activity Challenge", используя многозадачные глубокие нейронные сети для прогнозирования биомолекулярной мишени одного препарата.^[22] В 2014 году группа Хохрейтера использовала глубокое обучение для выявления нецелевых и токсических эффектов химических веществ, присутствующих в окружающей среде, в питательных веществах, продуктах домашнего обихода и лекарствах, и выиграла «Tox21 Data Challenge» от Национального института здравоохранения США, Управления по санитарному надзору за качеством пищевых продуктов и медикаментов и NCATS.^[23]

Значительное развитие в распознавании изображений или объектов ощущалось в период с 2011 по 2012 годы. Хотя сверточные нейронные сети (СНН), обученные обратному распространению, существовали в течение десятилетий, и GPU внедряли нейронные сети в течение многих лет, включая СНН, быстрые реализации СНН на GPU использовали для развития компьютерного зрения. В 2011 году этот подход впервые позволил добиться сверхчеловеческой производительности в конкурсе визуального распознавания образов. Также в 2011 году он выиграл конкурс рукописного ввода ICDAR, а в мае 2012 года - конкурс сегментации изображений ISBI.^[24] До 2011 года СНН не играли основной роли на конференциях по компьютерному зрению, но в июне 2012 года доклад Циресана^[25] на ведущей конференции CVPR показал, как максимальное объединение СНН на GPU может значительно улучшить многие результаты бенчмарков. В октябре 2012 г. аналогичная система была разработана Крижевским^[26], коллектив которого выиграл крупномасштабный конкурс ImageNet со значительным преимуществом по сравнению с методами поверхностного машинного обучения. В ноябре 2012 года команда Циресана также выиграла конкурс ICPR по анализу больших медицинских изображений для выявления рака, а в следующем году MICCAI Grand Challenge по той же теме.^[27]

Определения

Глубокое обучение характеризуется как класс алгоритмов машинного обучения, который^[28]:

использует многослойную систему нелинейных фильтров для извлечения признаков с преобразованиями. Каждый последующий слой получает на входе выходные данные предыдущего слоя. Система глубокого обучения может сочетать алгоритмы обучения с учителем и без учителя, при этом анализ образца представляет собой обучение без учителя, а классификация — обучение с учителем.
обладает несколькими слоями выявления признаков или параметров представления данных (обучение без учителя). При этом признаки организованы иерархически, признаки более высокого уровня являются производными от признаков более низкого уровня.
является частью более широкой области машинного обучения изучения представлений данных.
формирует в процессе обучения слои на нескольких уровнях представлений, которые соответствуют различным уровням абстракции; слои образуют иерархию понятий.

Все определения констатируют

наличие нескольких слоев нелинейной обработки
обучение с учителем или без учителя признаков каждого слоя, формируя иерархию от низкого до высокого уровня^[28].

Состав конкретных нелинейных слоёв зависит от решаемой проблемы. Используются как скрытые слои нейронной сети, так и слои сложных логических преобразований^[29]. Система может включать скрытые переменные, организованные послойно в глубоких генеративных моделях, таких как узлы в глубокой сети доверия и глубокой ограниченной машине Больцмана.

Алгоритмы глубокого обучения противопоставлены алгоритмам неглубокого обучения по количеству параметризованных преобразований, с которыми сталкивается сигнал, распространяющийся от входного слоя к выходному слою, где параметризованным преобразованием считается такой блок обработки данных, у которого есть обучаемые параметры, такие как веса или пороги^[30]. Цепочка преобразований от входа к выходу называется CAP — путём передачи ответственности (англ. credit assignment path, CAP). CAP описывают потенциальные причинные связи вдоль сети от входа к выходу, при этом путь в разных ветвях может иметь разную длину. Для нейронной сети прямого распространения (feedforward) глубина CAP не отличается от глубины сети и равна количеству скрытых слоев плюс один (выходной слой также параметризован). Для рекуррентных нейронных сетей, в которых сигнал может перескакивать через слои минуя промежуточные, CAP из-за обратной связи потенциально неограничен в длине. Не существует универсально согласованного порога глубины деления неглубокого обучения от глубокого обучения, но обычно считается, что глубокое обучение характеризуется несколькими нелинейными слоями (CAP > 2). Йорген Шмидхубер выделяет также «очень глубокое обучение», когда CAP > 10^[30].

Содержание

Глубокое обучение — это алгоритмы машинного обучения для моделирования высокоуровневых абстракций с применением многочисленных нелинейных преобразований^[28]^[29]^[30]^[31]^[32].

В первую очередь к глубинному обучению относятся следующие методы и их вариации:

Определённые системы обучения без учителя, такие как ограниченная машина Больцмана для предварительного обучения, автокодировщик, глубокая сеть доверия, генеративно-состязательная сеть,
Определённые системы обучения с учителем, такие как свёрточная нейронная сеть, которая вывела на новый уровень технологии распознавания образов,
Рекуррентные нейронные сети, позволяющие обучаться на процессах во времени,
Рекурсивные нейронные сети, позволяющие включать обратную связь между элементами схемы и цепочками.

Комбинируя эти методы, создаются сложные системы, соответствующие различным задачам искусственного интеллекта.

Глубокое обучение является апробированной выборкой из широкого семейства методов машинного обучения для представлений данных, наиболее соответствующих характеру задачи. Изображение, например, может быть представлено многими способами, такими как вектор интенсивности значений на пиксель, или (в более абстрактной форме) как множество примитивов, областей определённой формы, и т. д. Удачные представления данных облегчают решение конкретных задач — например, распознавания лиц и выражений лица^[33]). В системах глубокого обучения автоматизирует сам процесс выбора и настройки признаков, проводя обучение признаков^[англ.] без учителя или с частичным привлечением учителя, используя для этого эффективные алгоритмы и иерархическое извлечение признаков^[англ.]^[34].

Исследования в этой области позволили усовершенствовать модели работы с большими объёмами немаркированных данных. Некоторые подходы возникли в результате достижений в области нейронаук, успехов интерпретации обработки информации, построения коммуникационных моделей в нервной системе, таких как нейронное кодирование, связанное с определением отношения между стимулом и нейронными реакциями и взаимосвязи электрической активности между нейронами в головном мозге^[35].

Системы глубокого обучения нашли применение в таких областях, как компьютерное зрение, распознавание речи, обработка естественного языка, аудиораспознавание, биоинформатика, где для ряда задач были продемонстрированы существенно лучшие результаты, чем ранее.

Несмотря на успехи использования глубинного обучения, у него всё же есть фундаментальное ограничение: модели глубинного обучения ограничены в том, что они могут представлять, и большинство программ нельзя выразить в виде непрерывного геометрического морфинга многообразия данных^[36].

Осталось, однако, и скептическое представление, что глубокое обучение — не что иное, как модное слово или ребрендинг для нейронных сетей^[37]^[38].

См. также

Сравнение программ глубинного обучения

Примечания

↑ На самом деле, первые глубокие сети появились ещё в середине 1960-х: сети в виде глубоких перцептронов были описаны в работах советских учёных А. Г. Ивахненко и В. Г. Лапы — см. далее раздел «История».
↑ Исследователь нейронных сетей Джон Денкер (John Denker) в 1994 году заметил: «Нейронные сети — это второй лучший способ сделать практически что угодно».
↑ Ciresan, Dan; Meier, U.; Schmidhuber, J. Multi-column deep neural networks for image classification (англ.) // 2012 IEEE Conference on Computer Vision and Pattern Recognition : journal. — 2012. — June. — P. 3642—3649. — doi:10.1109/cvpr.2012.6248110.
↑ Rina Dechter (1986). Learning while searching in constraint-satisfaction problems. University of California, Computer Science Department, Cognitive Systems Laboratory.
↑ Ивахненко А. Г., Лапа В. Г. Кибернетические предсказывающие устройства. — К.: «Наукова думка», 1965. — 216 с. — ISBN 978-5-458-61159-6.
↑ Yann LeCun et al. Backpropagation Applied to Handwritten Zip Code Recognition (неопр.).
↑ J. Weng, N. Ahuja and T. S. Huang. Cresceptron: a self-organizing neural network which grows adaptively // Proc. International Joint Conference on Neural Networks, Baltimore, Maryland, vol I, pp. 576-581. — June, 1992..
↑ J. Weng, N. Ahuja and T. S. Huang,. Learning recognition and segmentation of 3-D objects from 2-D images // Proc. 4th International Conf. Computer Vision, Berlin, Germany, pp. 121-128. — May, 1993..
↑ J. Weng, N. Ahuja and T. S. Huang,. Learning recognition and segmentation using the Cresceptron // International Journal of Computer Vision, vol. 25, no. 2, pp. 105-139. — Nov. 1997..
↑ de Carvalho, Andre C. L. F.; Fairhurst, Mike C.; Bisset, David (1994-08-08). An integrated Boolean neural network for pattern classification // Pattern Recognition Letters.. — С. 807–813. — doi:10.1016/0167-8655(94)90009-4..
↑ Hinton, Geoffrey E.; Dayan, Peter; Frey, Brendan J.; Neal, Radford. The wake-sleep algorithm for unsupervised neural networks // Science. 268 (5214): 1158–1161.. — 1995-05-26. — doi:10.1126/science.7761831..
↑ ¹ ² S. Hochreiter. Untersuchungen zu dynamischen neuronalen Netzen // Diploma thesis. Institut f. Informatik, Technische Univ. Munich. Advisor: J. Schmidhuber. — 1991.
↑ Hochreiter, S.; et al. Gradient flow in recurrent nets: the difficulty of learning long-term dependencies // In Kolen, John F.; Kremer, Stefan C. (eds.). A Field Guide to Dynamical Recurrent Networks. John Wiley & Sons.. — 15 January 2001. — ISBN 978-0-7803-5369-5..
↑ Morgan, Nelson; Bourlard, Hervé; Renals, Steve; Cohen, Michael; Franco, Horacio. Hybrid neural network/hidden markov model systems for continuous speech recognition // International Journal of Pattern Recognition and Artificial Intelligence.. — 1993-08-01. — № 07 (4): 899–916. — ISSN 0218-0014. — doi:10.1142/s0218001493000455.
↑ Robinson, T. A real-time recurrent error propagation network word recognition system. — ICASSP. Icassp'92: 617–620.. — 1992. — ISBN 9780780305328..
↑ Waibel, A.; Hanazawa, T.; Hinton, G.; Shikano, K.; Lang, K. J. Phoneme recognition using time-delay neural networks // IEEE Transactions on Acoustics, Speech, and Signal Processing. 37 (3): 328–339. — March 1989. — ISSN 0096-3518. — doi:10.1109/29.21701. hdl:10338.dmlcz/135496.
↑ Baker, J.; Deng, Li; Glass, Jim; Khudanpur, S.; Lee, C.-H.; Morgan, N.; O'Shaughnessy, D. 2009. Research Developments and Directions in Speech Recognition and Understanding, Part 1 // IEEE Signal Processing Magazine.. — № 26 (3): 75–80. — doi:10.1109/msp.2009.932166.
↑ Bengio, Y. Artificial Neural Networks and their Application to Speech/Sequence Recognition // McGill University Ph.D. thesis.. — 1991.
↑ Deng, L.; Hassanein, K.; Elmasry, M. Analysis of correlation structure for a neural predictive model with applications to speech recognition // Neural Networks. 7 (2). — 1994. — С. 331–339. — doi:10.1016/0893-6080(94)90027-2.
↑ A Fast Learning Algorithm for Deep Belief Nets
↑ Bengio, Yoshua (2012). "Practical recommendations for gradient-based training of deep architectures". arXiv:1206.5533.
↑ Announcement of the winners of the Merck Molecular Activity Challenge (неопр.).
↑ NCATS Announces Tox21 Data Challenge Winners (неопр.).
↑ Ciresan, Dan; Giusti, Alessandro; Gambardella, Luca M.; Schmidhuber, Juergen. Advances in Neural Information Processing Systems // Curran Associates, Inc.. — 2012. — С. 2843–2851..
↑ Ciresan, D.; Meier, U.; Schmidhuber, J. Multi-column deep neural networks for image classification // IEEE Conference on Computer Vision and Pattern Recognition. — 2012. — С. 3642–3649. — ISBN 978-1-4673-1228-8. — doi:10.1109/cvpr.2012.6248110. — arXiv:1202.2745..
↑ Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffry. ImageNet Classification with Deep Convolutional Neural Networks // NIPS 2012: Neural Information Processing Systems, Lake Tahoe, Nevada.. — 2012.
↑ Ciresan, D.; Giusti, A.; Gambardella, L.M.; Schmidhuber, J. Mitosis Detection in Breast Cancer Histology Images using Deep Neural Networks // Proceedings MICCAI. Lecture Notes in Computer Science. 7908 (Pt 2): 411–418.. — 2013. — ISBN 978-3-642-38708-1. — doi:10.1007/978-3-642-40763-5_51. — PMID 24579167.
↑ ¹ ² ³ Deng, L.; Yu, D. Deep Learning: Methods and Applications (неопр.) // Foundations and Trends in Signal Processing. — 2014. — Т. 7, № 3—4. — С. 1—199. — doi:10.1561/2000000039.
↑ ¹ ² Bengio, Yoshua. Learning Deep Architectures for AI (неопр.) // Foundations and Trends in Machine Learning. — 2009. — Т. 2, № 1. — С. 1—127. — doi:10.1561/2200000006. Архивировано 4 марта 2016 года. Архивная копия от 4 марта 2016 на Wayback Machine
↑ ¹ ² ³ Schmidhuber, J. Deep Learning in Neural Networks: An Overview (неопр.) // Neural Networks. — 2015. — Т. 61. — С. 85—117. — doi:10.1016/j.neunet.2014.09.003. — arXiv:1404.7828. — PMID 25462637.
↑ Bengio, Y.; Courville, A.; Vincent, P. Representation Learning: A Review and New Perspectives (англ.) // IEEE Transactions on Pattern Analysis and Machine Intelligence^[англ.] : journal. — 2013. — Vol. 35, no. 8. — P. 1798—1828. — doi:10.1109/tpami.2013.50. — arXiv:1206.5538.
↑ Bengio, Yoshua; LeCun, Yann; Hinton, Geoffrey. Deep Learning (англ.) // Nature. — 2015. — Vol. 521. — P. 436—444. — doi:10.1038/nature14539. — PMID 26017442.
↑ Glauner, P. (2015). Deep Convolutional Neural Networks for Smile Recognition (MSc Thesis). Imperial College London, Department of Computing. arXiv:1508.06535.
↑ Song, Lee, Neural Information Processing, 2013
↑ Olshausen, B. A. Emergence of simple-cell receptive field properties by learning a sparse code for natural images (англ.) // Nature : journal. — 1996. — Vol. 381, no. 6583. — P. 607—609. — doi:10.1038/381607a0. — Bibcode: 1996Natur.381..607O. — PMID 8637596.
↑ Francois Chollet. Chapter 9, Section 2 // Deep Learning with Python. — Manning, 2017. — 350 p. — ISBN 9781617294433.
↑ Collobert, R. (April 2011). Deep Learning for Efficient Discriminative Parsing. VideoLectures.net. Event occurs at 7min 45s.
↑ Gomes, Machine-Learning Maestro Michael Jordan on the Delusions of Big Data and Other Huge Engineering Efforts

Литература

Гудфеллоу Я., Бенджио И., Курвилль А. Глубокое обучение = Deep Learning. — М.: ДМК Пресс, 2017. — 652 с. — ISBN 978-5-97060-554-7.
Николенко С., Кадурин А., Архангельская Е. Глубокое обучение. — СПб.: Питер, 2018. — 480 с. — ISBN 978-5-496-02536-2.

Ссылки

Критика

[1] На самом деле, первые глубокие сети появились ещё в середине 1960-х: сети в виде глубоких перцептронов были описаны в работах советских учёных А. Г. Ивахненко и В. Г. Лапы — см. далее раздел «История».

[2] Исследователь нейронных сетей Джон Денкер (John Denker) в 1994 году заметил: «Нейронные сети — это второй лучший способ сделать практически что угодно».

[3] Ciresan, Dan; Meier, U.; Schmidhuber, J. Multi-column deep neural networks for image classification (англ.) // 2012 IEEE Conference on Computer Vision and Pattern Recognition : journal. — 2012. — June. — P. 3642—3649. — doi:10.1109/cvpr.2012.6248110.

[dechter1986-4] Rina Dechter (1986). Learning while searching in constraint-satisfaction problems. University of California, Computer Science Department, Cognitive Systems Laboratory.

[5] Ивахненко А. Г., Лапа В. Г. Кибернетические предсказывающие устройства. — К.: «Наукова думка», 1965. — 216 с. — ISBN 978-5-458-61159-6.

[6] Yann LeCun et al. Backpropagation Applied to Handwritten Zip Code Recognition (неопр.).

[7] J. Weng, N. Ahuja and T. S. Huang. Cresceptron: a self-organizing neural network which grows adaptively // Proc. International Joint Conference on Neural Networks, Baltimore, Maryland, vol I, pp. 576-581. — June, 1992..

[8] J. Weng, N. Ahuja and T. S. Huang,. Learning recognition and segmentation of 3-D objects from 2-D images // Proc. 4th International Conf. Computer Vision, Berlin, Germany, pp. 121-128. — May, 1993..

[9] J. Weng, N. Ahuja and T. S. Huang,. Learning recognition and segmentation using the Cresceptron // International Journal of Computer Vision, vol. 25, no. 2, pp. 105-139. — Nov. 1997..

[10] de Carvalho, Andre C. L. F.; Fairhurst, Mike C.; Bisset, David (1994-08-08). An integrated Boolean neural network for pattern classification // Pattern Recognition Letters.. — С. 807–813. — doi:10.1016/0167-8655(94)90009-4..

[11] Hinton, Geoffrey E.; Dayan, Peter; Frey, Brendan J.; Neal, Radford. The wake-sleep algorithm for unsupervised neural networks // Science. 268 (5214): 1158–1161.. — 1995-05-26. — doi:10.1126/science.7761831..

[:0-12] ¹ ² S. Hochreiter. Untersuchungen zu dynamischen neuronalen Netzen // Diploma thesis. Institut f. Informatik, Technische Univ. Munich. Advisor: J. Schmidhuber. — 1991.

[13] Hochreiter, S.; et al. Gradient flow in recurrent nets: the difficulty of learning long-term dependencies // In Kolen, John F.; Kremer, Stefan C. (eds.). A Field Guide to Dynamical Recurrent Networks. John Wiley & Sons.. — 15 January 2001. — ISBN 978-0-7803-5369-5..

[14] Morgan, Nelson; Bourlard, Hervé; Renals, Steve; Cohen, Michael; Franco, Horacio. Hybrid neural network/hidden markov model systems for continuous speech recognition // International Journal of Pattern Recognition and Artificial Intelligence.. — 1993-08-01. — № 07 (4): 899–916. — ISSN 0218-0014. — doi:10.1142/s0218001493000455.

[15] Robinson, T. A real-time recurrent error propagation network word recognition system. — ICASSP. Icassp'92: 617–620.. — 1992. — ISBN 9780780305328..

[16] Waibel, A.; Hanazawa, T.; Hinton, G.; Shikano, K.; Lang, K. J. Phoneme recognition using time-delay neural networks // IEEE Transactions on Acoustics, Speech, and Signal Processing. 37 (3): 328–339. — March 1989. — ISSN 0096-3518. — doi:10.1109/29.21701. hdl:10338.dmlcz/135496.

[17] Baker, J.; Deng, Li; Glass, Jim; Khudanpur, S.; Lee, C.-H.; Morgan, N.; O'Shaughnessy, D. 2009. Research Developments and Directions in Speech Recognition and Understanding, Part 1 // IEEE Signal Processing Magazine.. — № 26 (3): 75–80. — doi:10.1109/msp.2009.932166.

[18] Bengio, Y. Artificial Neural Networks and their Application to Speech/Sequence Recognition // McGill University Ph.D. thesis.. — 1991.

[19] Deng, L.; Hassanein, K.; Elmasry, M. Analysis of correlation structure for a neural predictive model with applications to speech recognition // Neural Networks. 7 (2). — 1994. — С. 331–339. — doi:10.1016/0893-6080(94)90027-2.

[20] A Fast Learning Algorithm for Deep Belief Nets

[bengio2012-21] Bengio, Yoshua (2012). "Practical recommendations for gradient-based training of deep architectures". arXiv:1206.5533.

[22] Announcement of the winners of the Merck Molecular Activity Challenge (неопр.).

[23] NCATS Announces Tox21 Data Challenge Winners (неопр.).

[24] Ciresan, Dan; Giusti, Alessandro; Gambardella, Luca M.; Schmidhuber, Juergen. Advances in Neural Information Processing Systems // Curran Associates, Inc.. — 2012. — С. 2843–2851..

[25] Ciresan, D.; Meier, U.; Schmidhuber, J. Multi-column deep neural networks for image classification // IEEE Conference on Computer Vision and Pattern Recognition. — 2012. — С. 3642–3649. — ISBN 978-1-4673-1228-8. — doi:10.1109/cvpr.2012.6248110. — arXiv:1202.2745..

[26] Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffry. ImageNet Classification with Deep Convolutional Neural Networks // NIPS 2012: Neural Information Processing Systems, Lake Tahoe, Nevada.. — 2012.

[27] Ciresan, D.; Giusti, A.; Gambardella, L.M.; Schmidhuber, J. Mitosis Detection in Breast Cancer Histology Images using Deep Neural Networks // Proceedings MICCAI. Lecture Notes in Computer Science. 7908 (Pt 2): 411–418.. — 2013. — ISBN 978-3-642-38708-1. — doi:10.1007/978-3-642-40763-5_51. — PMID 24579167.

[BOOK2014-28] ¹ ² ³ Deng, L.; Yu, D. Deep Learning: Methods and Applications (неопр.) // Foundations and Trends in Signal Processing. — 2014. — Т. 7, № 3—4. — С. 1—199. — doi:10.1561/2000000039.

[BENGIODEEP-29] ¹ ² Bengio, Yoshua. Learning Deep Architectures for AI (неопр.) // Foundations and Trends in Machine Learning. — 2009. — Т. 2, № 1. — С. 1—127. — doi:10.1561/2200000006. Архивировано 4 марта 2016 года. Архивная копия от 4 марта 2016 на Wayback Machine

[SCHIDHUB-30] ¹ ² ³ Schmidhuber, J. Deep Learning in Neural Networks: An Overview (неопр.) // Neural Networks. — 2015. — Т. 61. — С. 85—117. — doi:10.1016/j.neunet.2014.09.003. — arXiv:1404.7828. — PMID 25462637.

[31] Bengio, Y.; Courville, A.; Vincent, P. Representation Learning: A Review and New Perspectives (англ.) // IEEE Transactions on Pattern Analysis and Machine Intelligence^[англ.] : journal. — 2013. — Vol. 35, no. 8. — P. 1798—1828. — doi:10.1109/tpami.2013.50. — arXiv:1206.5538.

[NatureBengio-32] Bengio, Yoshua; LeCun, Yann; Hinton, Geoffrey. Deep Learning (англ.) // Nature. — 2015. — Vol. 521. — P. 436—444. — doi:10.1038/nature14539. — PMID 26017442.

[33] Glauner, P. (2015). Deep Convolutional Neural Networks for Smile Recognition (MSc Thesis). Imperial College London, Department of Computing. arXiv:1508.06535.

[34] Song, Lee, Neural Information Processing, 2013

[35] Olshausen, B. A. Emergence of simple-cell receptive field properties by learning a sparse code for natural images (англ.) // Nature : journal. — 1996. — Vol. 381, no. 6583. — P. 607—609. — doi:10.1038/381607a0. — Bibcode: 1996Natur.381..607O. — PMID 8637596.

[36] Francois Chollet. Chapter 9, Section 2 // Deep Learning with Python. — Manning, 2017. — 350 p. — ISBN 9781617294433.

[37] Collobert, R. (April 2011). Deep Learning for Efficient Discriminative Parsing. VideoLectures.net. Event occurs at 7min 45s.

[38] Gomes, Machine-Learning Maestro Michael Jordan on the Delusions of Big Data and Other Huge Engineering Efforts

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

@@ Строка 21: / Строка 21: @@
 В 2012 году команда под руководством Джорджа Э. Даля выиграла Конкурс "Merck Molecular Activity Challenge", используя многозадачные глубокие нейронные сети для прогнозирования биомолекулярной мишени одного препарата.<ref>{{Cite web|url=https://www.kaggle.com/c/MerckActivity/details/winners|title=Announcement of the winners of the Merck Molecular Activity Challenge|author=|website=|date=|publisher=}}</ref> В 2014 году группа Хохрейтера использовала глубокое обучение для выявления нецелевых и токсических эффектов химических веществ, присутствующих в окружающей среде, в питательных веществах, продуктах домашнего обихода и лекарствах, и выиграла «Tox21 Data Challenge» от [[Национальные институты здравоохранения США|Национального института здравоохранения США]], [[Food and Drug Administration|Управления по санитарному надзору за качеством пищевых продуктов и медикаментов]] и NCATS.<ref>{{Cite web|url=https://tripod.nih.gov/tox21/challenge/leaderboard.jsp|title=NCATS Announces Tox21 Data Challenge Winners|author=|website=|date=|publisher=}}</ref>
-Значительное развитие в распознавании изображений или объектов ощущалось в период с 2011 по 2012 годы. Хотя [[Свёрточная нейронная сеть|сверточные нейронные сети]] (СНН), обученные обратному распространению, существовали в течение десятилетий, и GPU внедряли нейронные сети в течение многих лет, включая СНН, быстрые реализации СНН на GPU использовали для развития компьютерного зрения. В 2011 году этот подход впервые позволил добиться сверхчеловеческой производительности в конкурсе визуального распознавания образов. Также в 2011 году он выиграл конкурс рукописного ввода ICDAR, а в мае 2012 года - конкурс сегментации изображений ISBI.<ref>{{Статья|ссылка=http://papers.nips.cc/paper/4741-deep-neural-networks-segment-neuronal-membranes-in-electron-microscopy-images.pdf|автор=Ciresan, Dan; Giusti, Alessandro; Gambardella, Luca M.; Schmidhuber, Juergen|заглавие=Advances in Neural Information Processing Systems|год=2012|язык=|издание=Curran Associates, Inc.|тип=|месяц=|число=|том=|номер=|страницы=2843–2851.|issn=}}</ref> До 2011 года СНН не играли основной роли на конференциях по компьютерному зрению, но в июне 2012 года доклад Циресана<ref>{{Статья|ссылка=|автор=Ciresan, D.; Meier, U.; Schmidhuber, J.|заглавие=Multi-column deep neural networks for image classification|год=2012|язык=|издание=IEEE Conference on Computer Vision and Pattern Recognition|тип=|месяц=|число=|том=|номер=|страницы=3642–3649|isbn=978-1-4673-1228-8|issn=|doi=10.1109/cvpr.2012.6248110|arxiv=1202.2745.}}</ref> на ведущей конференции CVPR показал, как максимальное объединение СНН на GPU может значительно улучшить многие результаты бенчмарков. В октябре 2012 г. аналогичная система была разработана Крижевским<ref>{{Статья|ссылка=https://www.cs.toronto.edu/~kriz/imagenet_classification_with_deep_convolutional.pdf|автор=Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffry|заглавие=ImageNet Classification with Deep Convolutional Neural Networks|год=2012|язык=|издание=NIPS 2012: Neural Information Processing Systems, Lake Tahoe, Nevada.|тип=|месяц=|число=|том=|номер=|страницы=|issn=}}</ref>, коллектив которого выиграл крупномасштабный конкурс [[ImageNet]] со значительным преимуществом по сравнению с методами поверхностного машинного обучения. В ноябре 2012 года команда Циресана также выиграла конкурс ICPR по анализу больших медицинских изображений для выявления рака, а в следующем году  MICCAI Grand Challenge по той же теме.
+Значительное развитие в распознавании изображений или объектов ощущалось в период с 2011 по 2012 годы. Хотя [[Свёрточная нейронная сеть|сверточные нейронные сети]] (СНН), обученные обратному распространению, существовали в течение десятилетий, и GPU внедряли нейронные сети в течение многих лет, включая СНН, быстрые реализации СНН на GPU использовали для развития компьютерного зрения. В 2011 году этот подход впервые позволил добиться сверхчеловеческой производительности в конкурсе визуального распознавания образов. Также в 2011 году он выиграл конкурс рукописного ввода ICDAR, а в мае 2012 года - конкурс сегментации изображений ISBI.<ref>{{Статья|ссылка=http://papers.nips.cc/paper/4741-deep-neural-networks-segment-neuronal-membranes-in-electron-microscopy-images.pdf|автор=Ciresan, Dan; Giusti, Alessandro; Gambardella, Luca M.; Schmidhuber, Juergen|заглавие=Advances in Neural Information Processing Systems|год=2012|язык=|издание=Curran Associates, Inc.|тип=|месяц=|число=|том=|номер=|страницы=2843–2851.|issn=}}</ref> До 2011 года СНН не играли основной роли на конференциях по компьютерному зрению, но в июне 2012 года доклад Циресана<ref>{{Статья|ссылка=|автор=Ciresan, D.; Meier, U.; Schmidhuber, J.|заглавие=Multi-column deep neural networks for image classification|год=2012|язык=|издание=IEEE Conference on Computer Vision and Pattern Recognition|тип=|месяц=|число=|том=|номер=|страницы=3642–3649|isbn=978-1-4673-1228-8|issn=|doi=10.1109/cvpr.2012.6248110|arxiv=1202.2745.}}</ref> на ведущей конференции CVPR показал, как максимальное объединение СНН на GPU может значительно улучшить многие результаты бенчмарков. В октябре 2012 г. аналогичная система была разработана Крижевским<ref>{{Статья|ссылка=https://www.cs.toronto.edu/~kriz/imagenet_classification_with_deep_convolutional.pdf|автор=Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffry|заглавие=ImageNet Classification with Deep Convolutional Neural Networks|год=2012|язык=|издание=NIPS 2012: Neural Information Processing Systems, Lake Tahoe, Nevada.|тип=|месяц=|число=|том=|номер=|страницы=|issn=}}</ref>, коллектив которого выиграл крупномасштабный конкурс [[ImageNet]] со значительным преимуществом по сравнению с методами поверхностного машинного обучения. В ноябре 2012 года команда Циресана также выиграла конкурс ICPR по анализу больших медицинских изображений для выявления рака, а в следующем году  MICCAI Grand Challenge по той же теме.<ref>{{Статья|ссылка=|автор=Ciresan, D.; Giusti, A.; Gambardella, L.M.; Schmidhuber, J.|заглавие=Mitosis Detection in Breast Cancer Histology Images using Deep Neural Networks|год=2013|язык=|издание=Proceedings MICCAI. Lecture Notes in Computer Science. 7908 (Pt 2): 411–418.|тип=|месяц=|число=|том=|номер=|страницы=|isbn=978-3-642-38708-1|issn=|doi=10.1007/978-3-642-40763-5_51|pmid=24579167}}</ref>
 <br />

Машинное обучение и data mining
Задачи	Задача классификации Обучение без учителя Обучение с частичным привлечением учителя Регрессионный анализ AutoML Ассоциативные правила Выделение признаков Обучение признакам Обучение ранжированию Грамматический вывод Онлайновое обучение
Обучение с учителем	Метод k ближайших соседей Наивный байесовский классификатор Дерево решений Метод опорных векторов Линейная регрессия Логистическая регрессия Перцептрон Ансамблевое обучение Бэггинг Бустинг Метод случайного леса Метод релевантных векторов
Кластерный анализ	Метод k-средних Метод нечёткой кластеризации Иерархическая кластеризация EM-алгоритм BIRCH CURE DBSCAN OPTICS Mean-shift
Снижение размерности	Факторный анализ Метод главных компонент CCA ICA LDA Неотрицательное матричное разложение t-SNE
Структурное прогнозирование	Графовая вероятностная модель Байесовская сеть Скрытая марковская модель CRF
Выявление аномалий	Метод k ближайших соседей Локальный уровень выброса
Графовые вероятностные модели	Байесовская сеть Марковская сеть Скрытая марковская модель
Нейронные сети	Ограниченная машина Больцмана Самоорганизующаяся карта Функция активации Сигмоида Softmax Радиально-базисная функция Метод обратного распространения ошибки Глубокое обучение Многослойный перцептрон Рекуррентная нейронная сеть Долгая краткосрочная память Управляемый рекуррентный блок Свёрточная нейронная сеть U-Net Автокодировщик
Обучение с подкреплением	Марковский процесс Уравнение Беллмана Жадный алгоритм Q-обучение SARSA Temporal difference (TD)
Теория	Размерность Вапника — Червоненкиса Дилемма смещения–дисперсии Теория вычислительного обучения Минимизация эмпирического риска Оккамово обучение PAC learning Статистическая теория обучения
Журналы и конференции	NeurIPS ICML ML JMLR ArXiv:cs.LG