Машина Больцмана

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск
Пример графического представления машины Больцмана. В данном примере 3 скрытых и 4 видимых нейрона

Машина Больцмана (англ. Boltzmann machine) — вид стохастической рекуррентной нейронной сети, изобретенной Джеффри Хинтоном и Терри Сейновски в 1985 году[1]. Машина Больцмана может рассматриваться как стохастический генеративный вариант сети Хопфилда.

Специалисты по статистике называют такие сети случайными марковскими полями. Сеть называется машиной Больцмана в честь австрийского физика Л. Больцмана, одного из создателей статистической механики. Эта сеть использует для обучения алгоритм имитации отжига и оказалась первой нейронной сетью, способной обучаться внутренним репрезентациям, решать сложные комбинаторные задачи. Несмотря на это, из-за ряда проблем, машины Больцмана с неограниченной связностью не могут использоваться для решения практических проблем. Если же связность ограничена, то обучение может быть достаточно эффективным для использования на практике. В частности, из каскада ограниченных машин Больцмана строится так называемая deep belief network.

Модель[править | править вики-текст]

Как и сеть Хопфилда, машина Больцмана является сетью нейронов с определенной для нее энергией. Расчет глобальной энергии производится идентичным по форме с сетью Хопфилда образом:

E = -\sum_{i<j} w_{ij} \, s_i \, s_j - \sum_i \theta_i \, s_i

Где:

  • w_{ij} сила связи между нейронами j и i.
  • s_i состояние , s_i \in \{0,1\}, нейрона i.
  • \theta_i порог для нейрона i.

Связи имеют следующие ограничения:

  • w_{ii}=0\qquad \forall i. (нейрон не может иметь связь с самим собой)
  • w_{ij}=w_{ji}\qquad \forall i,j. (все связи являются симметричными)

Термическое равновесие[править | править вики-текст]

Одним из основных недостатков сети Хопфилда является тенденция «стабилизации» выходного сигнала в локальном, а не в глобальном минимуме. Желательно, чтобы сеть находила глубокие минимумы чаще, чем мелкие, и чтобы относительная вероятность перехода сети в один из двух различных минимумов зависела только от соотношения их глубин. Это позволило бы управлять вероятностями получения конкретных выходных векторов путем изменения профиля энергетической поверхности системы за счет модификации весов связей. На основе этих соображений и построена машина Больцмана. Идея использования «теплового шума» для выхода из локальных минимумов и повышения вероятности попадания в более глубокие минимумы принадлежит С. Кирпатрику. На основе этой идеи разработан алгоритм имитации отжига.

Введем некоторый параметр t — аналог уровня теплового шума. Тогда вероятность активности некоторого нейрона к определяется на основе вероятностной функции Больцмана:

Pk=1/(1+e^{-Ek/t})

где t — уровень теплового шума в сети; Ек — сумма весов связей к-го нейрона со всеми активными в данный момент нейронами.

Ограниченная машина Больцмана[править | править вики-текст]

Ограниченная машина Больцмана

Хотя возможности обучения машины Больцмана ограничены на практике, эти проблемы могут быть решены при помощи архитектуры ограниченной машины Больцмана (restricted Boltzmann machine; RBM). При подобной архитектуре связи существуют только между скрытыми и видимыми нейронами, но при этом отсутствуют между нейронами одного слоя. Архитектура изначально использовалась Полом Смоленски в 1986 году под названием Harmonium[2], но приобрела популярность только после изобретения быстрых алгоритмов обучения Хинтоном в середине 2000-х годов.

Ограниченные машины Больцмана используются в сетях глубокого обучения. В частности, глубокие сети доверия могут быть получены путем «наложения» RBM и последующего дообучения при помощи алгоритма обратного распространения ошибки.

Примечания[править | править вики-текст]

  1. Ackley, David H.; Hinton, Geoffrey E.; Sejnowski, Terrence J A Learning Algorithm for Boltzmann Machines. — Cognitive Science 9 (1), 1985. — С. 147–169.
  2. Smolensky Paul Chapter 6: Information Processing in Dynamical Systems: Foundations of Harmony Theory // Parallel Distributed Processing: Explorations in the Microstructure of Cognition, Volume 1: Foundations. — MIT Press, 1986. — P. 194–281. — ISBN 0-262-68053-X.

Ссылки[править | править вики-текст]