Рекурсивные нейронные сети: различия между версиями

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску
Содержимое удалено Содержимое добавлено
Переведено с английской Википедии
(нет различий)

Версия от 22:15, 8 декабря 2017

Рекурсивные нейронные сети (англ. Recursive neural network; RvNN) — вид нейронных сетей, в которой нейроны с одинаковыми весами активируются рекурсивно в соответствии со структурой сети. В процессе работы рекурсивной сети вырабатывается возможность структурного предсказания для структур переменной размерности, или скалярное предсказание через активацию данной структуры в соответствии с топологическим порядком. Сети RvNNs успешно применяются при обучении последовательных структур и деревьев в задачах обработки естественного языка, при этом фразы и предложения моделируются через векторное представление слов. RvNNs первоначально появились для распределённого представления структур, например, через понятия математической логики.[1] Разработки рекурсивных сетей и первые модели начались в середине 1990-х.[2][3]

Архитектура

Базовый элемент

Архитектура простой рекурсивной сети

В самой простой архитектуре узлы сети сходятся к родителям через матрицу весов скрытого слоя, используемую многократно через всю сеть, и нелинейную функцию активации типа гиперболического тангенса. Если c1 и c2 - n-мерные презентации узлов сети, то их родители также представляют собой n--мерные ветора, вычисляемые как

Здесь W - обученная матрица весов .

Эта архитектура с некоторым усовершенствованием используется для последовательной дешифровки натуральных сцен изображения или для структурирования предложений естественного языка.[4]

Рекурсивная каскадная корреляция (RecCC)

Рекурсивная каскадная корреляция RecCC - это подход к конструированию рекурсивных сетей, оперирующих с тремя доменами[2] , первые приложения такого рода появились в химииy[5], а расширение образует направленный ациклический граф.[6]

Рекурсивные сети без учителя

В 2004 году была предложена система обучения рекурсивной сети без учителя.[7][8]

Тензорные сети

Тензорные рекурсивные сети используют одну тензорную функцию для всех узлов дерева.[9]

Обучение

Стохастический метод градиентного спуска

Для обучения используется обычно Стохастический метод градиентного спуска (SGD). Градиент определяется через сквозную структуру обратного распространения ошибок (BPTS), этот метод является модификацией обратного распространения ошибок во временных рядах, применяемого для обучения рекуррентных нейронных сетей.

Особенности

В литературе подтверждается способность универсальной аппроксимации рекуррентными сетями по сетям типа дерева.[10][11]

Родственные модели

Рекуррентная нейронная сеть

Рекуррентная нейронная сеть представляет собой рекурсивную сеть со специфической структурой - в виде линейной цепочки. Рекурсивные сети работают на структурах общего типа, включающих иерархию, рекуррентные сети работают исключительно на линейной прогрессии во времени, связывая предыдущий момент времени со следующим через скрытый нейронный слой .

Сети состояний с тремя откликами (Tree Echo State Network)

Сети состояний с тремя откликами - эффективный пример рекурсивных нейронных сетей,[12] использующих парадигму резервуарного вычисления (Reservoir computing).

Расширения до графов

Расширение структуры до графов образует графическую нейронную сеть (GNN),[13], нейронную сеть для графов (NN4G),[14] и более новые свёрточные нейронные сети для графов.

Ссылки

  1. Goller, C.; Küchler, A. "Learning task-dependent distributed representations by backpropagation through structure". Neural Networks, 1996., IEEE. doi:10.1109/ICNN.1996.548916.
  2. 1 2 Sperduti, A.; Starita, A. (1997-05-01). "Supervised neural networks for the classification of structures". IEEE Transactions on Neural Networks. 8 (3): 714—735. doi:10.1109/72.572108. ISSN 1045-9227.
  3. Frasconi, P.; Gori, M.; Sperduti, A. (1998-09-01). "A general framework for adaptive processing of data structures". IEEE Transactions on Neural Networks. 9 (5): 768—786. doi:10.1109/72.712151. ISSN 1045-9227.
  4. Socher, Richard; Lin, Cliff; Ng, Andrew Y.; Manning, Christopher D. "Parsing Natural Scenes and Natural Language with Recursive Neural Networks" (PDF). The 28th International Conference on Machine Learning (ICML 2011).
  5. Bianucci, Anna Maria; Micheli, Alessio; Sperduti, Alessandro; Starita, Antonina (2000). "Application of Cascade Correlation Networks for Structures to Chemistry". Applied Intelligence (англ.). 12 (1–2): 117—147. doi:10.1023/A:1008368105614. ISSN 0924-669X.
  6. Micheli, A.; Sona, D.; Sperduti, A. (2004-11-01). "Contextual processing of structured data by recursive cascade correlation". IEEE Transactions on Neural Networks. 15 (6): 1396—1410. doi:10.1109/TNN.2004.837783. ISSN 1045-9227.
  7. Hammer, Barbara; Micheli, Alessio; Sperduti, Alessandro; Strickert, Marc (2004). "Recursive self-organizing network models". Neural Networks. 17: 1061—1085.
  8. Hammer, Barbara; Micheli, Alessio; Sperduti, Alessandro; Strickert, Marc (2004-03-01). "A general framework for unsupervised processing of structured data". Neurocomputing. 57: 3—35. doi:10.1016/j.neucom.2004.01.008.
  9. Socher, Richard; Perelygin, Alex; Y. Wu, Jean; Chuang, Jason; D. Manning, Christopher; Y. Ng, Andrew; Potts, Christopher. "Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank" (PDF). EMNLP 2013.
  10. Hammer, Barbara. Learning with Recurrent Neural Networks : [англ.]. — Springer, 2007-10-03. — ISBN 9781846285677.
  11. Hammer, Barbara; Micheli, Alessio; Sperduti, Alessandro (2005-05-01). "Universal Approximation Capability of Cascade Correlation for Structures". Neural Computation (англ.). 17 (5): 1109—1159. doi:10.1162/0899766053491878.
  12. Gallicchio, Claudio; Micheli, Alessio (2013-02-04). "Tree Echo State Networks". Neurocomputing. 101: 319—337. doi:10.1016/j.neucom.2012.08.017.
  13. Scarselli, F.; Gori, M.; Tsoi, A. C.; Hagenbuchner, M.; Monfardini, G. (2009-01-01). "The Graph Neural Network Model". IEEE Transactions on Neural Networks. 20 (1): 61—80. doi:10.1109/TNN.2008.2005605. ISSN 1045-9227.
  14. Micheli, A. (2009-03-01). "Neural Network for Graphs: A Contextual Constructive Approach". IEEE Transactions on Neural Networks. 20 (3): 498—511. doi:10.1109/TNN.2008.2010350. ISSN 1045-9227.