Нейронная сеть

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск
Схема простой нейронной сети. Зелёным цветом обозначены входные нейроны, бирюзовым скрытые нейроны, фиолетовым — выходной нейрон

Нейронная сеть — термин, имеющий два значения:

  1. Биологическая нейронная сеть — сеть, состоящая из биологических нейронов, которые связаны или функционально объединены в нервной системе. В нейронауках зачастую определяется как группа нейронов, которые выполняют специфические физиологические функции.
  2. Искусственная нейронная сеть — сеть, состоящая из искусственных нейронов (программируемая конструкция, имитирующая свойства биологических нейронов). Искусственные нейронные сети используются для изучения свойств биологических нейронных сетей, а также для решения задач в сфере искусственного интеллекта.

В данной статье рассматриваются отношения между двумя этими понятиями, подробное описание каждого из них дано в отдельных статьях — биологическая нейронная сеть и искусственная нейронная сеть.

Общий обзор[править | править исходный текст]

Биологическая нейронная сеть состоит из группы или групп химически или функционально связанных нейронов. Один нейрон может быть связан со многими другими нейронами, а общее количество нейронов и связей в сети может быть достаточно большим. Место контакта нейронов называется синапсом, типичный синапс — аксо-дендритический химический. Передача импульсов осуществляется химическим путём с помощью медиаторов или электрическим путём посредством прохождения ионов из одной клетки в другую.

Исследования в сфере искусственного интеллекта и когнитивного моделирования пытаются имитировать некоторые свойства биологических нейронных сетей. В сфере искусственного интеллекта искусственные нейронные сети были успешно применены для распознавания речи, анализа изображений и адаптивного управления в целях разработки программных агентов (например, в компьютерных и видеоиграх) или автономных роботов. Большинство искусственных нейронных сетей, используемых в настоящее время в сфере искусственного интеллекта, разработаны на основе статистических методов, теории оптимизации и теории управления.

В сфере когнитивного моделирования ведётся физическое или математическое моделирование поведения нейронных систем, начиная с уровня отдельных нейронов (например, моделирование реакции нейрона на стимул), с выходом на уровень нейронных кластеров (например, моделирование выхода дофамина в базальных ганглиях) и организма в целом (например, моделирование ответа организма на раздражители).

История исследований нейронных сетей[править | править исходный текст]

Основы теории нейронных сетей были независимо разработаны А.Бэйном[1] (1873) и У.Джеймсом[2] (1890). В своих работах они рассматривают мыслительную деятельность как результат взаимодействия между нейронами в головном мозге.

Согласно Бэйну[1], любая деятельность ведёт к активизации определенного набора нейронов. При повторении той же деятельности связи между этими нейронами укрепляются. Согласно его теории, эти повторения ведут к формированию памяти. Научное сообщество того времени восприняло теорию Бэйна скептически, поскольку следствием её являлось возникновение чрезмерного количества нейронных связей в мозге. Теперь очевидно, что мозг является чрезвычайно сложной конструкцией и способен работать с несколькими задачами одновременно.

Теория Джеймса была схожа с теорией Бэйна[2], но в то же время Джеймс предположил, что формирование памяти происходит в результате прохождения электрических токов между нейронами в головном мозге, не требуя соединений нейронов для каждого акта запоминания или действия.

Британский физиолог Ч.Шеррингтон в 1898 провел эксперименты для проверки теории Джеймса.[3] Он пропускал электрический ток вдоль спинного мозга крыс. При этом вместо ожидаемого усиления тока, согласно теории Джеймса, Шеррингтон обнаружил, что электрический ток ослабевает с течением времени. Результаты экспериментов Шеррингтона сыграли важную роль в разработке теории привыкания.

В 1943 Мак-Каллок и Питтс разработали компьютерную модель нейронной сети[4] на основе математических алгоритмов. Они назвали эту модель «пороговой логикой». Модель Мак-Каллока — Питтса заложила основы двух различных подходов исследований нейронных сетей. Один подход был ориентирован на изучение биологических процессов в головном мозге, другой — на применение нейронных сетей для искусственного интеллекта.

В конце 1940-х канадский физиолог и психолог Дональд Хебб выдвинул гипотезу интерпретации обучения на основе механизма нейронной пластичности, известную как теория Хебба. Теория Хебба считается типичным случаем самообучения, при котором испытуемая система спонтанно обучается выполнять поставленную задачу, без вмешательства со стороны экспериментатора. В более поздних вариантах теория Хебба легла в основу описания явления долговременной потенциации. Эти идеи с 1948 начали применяться для вычислительных моделей в B-машинах А.Тьюринга.

Фарли и Кларк в 1954 с использованием компьютеров разработали имитацию сети Хебба в Массачусетском технологическом институте.[5] Другие исследования нейронных сетей с помощью компьютерного моделирования были проведены в 1956 Рочестером, Холландом, Хебитом и Дуда.[6]

В 1957 Ф.Розенблатт разработал перцептрон[7] — математическую и компьютерную модель восприятия информации мозгом, на основе двухслойной обучающей компьютерной сети, использующей действия сложения и вычитания. В математической нотации Розенблатт описал также схему не только основного перцептрона, но и схему логического сложения, которая не могла быть реализована до разработки в 1975 Вербосом метода обратного распространения ошибки.[8]

Исследования нейронных сетей застопорились после публикации работы по машинному обучению Минского и Пейперта в 1969.[9] Они обнаружили две основные проблемы, связанные с вычислительными машинами, которые обрабатывают нейронные сети. Первая проблема состояла в том, что однослойные нейронные сети не могли совершать логическое сложение. Второй важной проблемой было то, что компьютеры не обладали достаточной вычислительной мощностью, чтобы эффективно обрабатывать огромный объём вычислений, необходимых для больших нейронных сетей. Исследования нейронных сетей замедлились до того времени, когда компьютеры достигли больших вычислительных мощностей. Одним из важных более поздних достижений было открытие метода обратного распространения ошибки, который позволил решить проблему с логическим сложением.[8]

Когнитрон, разработанный К.Фукусимой в 1975,[10] был одной из первых многослойных нейронных сетей с алгоритмом обучения. Фактическая структура сети и методы, используемые в когнитроне для задания относительных весов связей, варьировались от одной стратегии к другой, каждая из стратегий имела свои преимущества и недостатки. Сети могли распространять информацию только в одном направлении, или перебрасывать информацию из одного конца в другой, пока не активировались все узлы и сеть не приходила в конечное состояние. Достичь двусторонней передачи информации между нейронами/узлами удалось лишь в сети Хопфилда (1982), и специализация этих узлов для конкретных целей была введена в первых гибридных сетях.

Алгоритм параллельной распределенной обработки данных в середине 1980-х стал популярен под названием коннективизма. Работа Руммельхарта и Мак-Клелланда (1986)[11] полностью использует коннективизм для компьютерного моделирования нейронных процессов.

Распространение сетей, основанных на методе обратного распространения ошибки, вызвало большой энтузиазм в научном сообществе и породило многочисленные споры о том, может ли такое обучение быть реализовано в головном мозге, отчасти потому, что механизм обратного прохождения сигнала не был очевидным в то время, но главным образом потому, что не было явного источника «обучающего» или «целевого» сигнала. Тем не менее с 2006 было предложено несколько неконтролируемых процедур обучения нейронных сетей с одним или несколькими слоями с использованием так называемых алгоритмов глубокого обучения. Эти алгоритмы могут быть использованы для изучения промежуточных представлений, как с выходным сигналом, так и без него, чтобы понять основные особенности распределения сенсорных сигналов, поступающих на каждый слой нейронной сети.

Головной мозг, нейронные сети и компьютеры[править | править исходный текст]

Компьютерная модель ветвистой архитектуры дендритов пирамидальных нейронов.[12]

Нейронные сети, используемые в сфере искусственного интеллекта, традиционно рассматриваются как упрощенные модели нейронных сетей в головном мозге, хотя вопрос о том, в какой мере искусственные нейронные сети отражают реальную структуру головного мозга, по-прежнему остается открытым.[13]

Предметом исследований в теоретической нейробиологии является вопрос об уровне сложности и свойствах, которыми должны обладать отдельные нейроны для того, чтобы воспроизвести нечто, похожее на разум животных.

Исторически сложилось, что развитие компьютерной техники шло от архитектуры фон Неймана, которая основана на последовательной обработке и исполнении явных инструкций. С другой стороны, разработка искусственных нейронных сетей основывалась на моделях обработки информации в биологических системах, которые предполагают параллельную обработку информации, а также использование неявных инструкций на основе распознавания «сенсорных» входов из внешних источников. Другими словами, нейронная сеть представляет собой сложный статистический процессор (в отличие от систем, основанных на последовательной обработке и исполнении команд).

Нейрокодирование основано на том, как нейроны представляют сенсорную и другую информацию в мозге. Основная цель изучения нейрокодирования — выявить характер связи между стимулом и индивидуальной или групповой реакцией нейронов на него, а также взаимосвязь между электрической активностью нейронов в группе.[14] Считается, что нейроны могут кодировать как цифровую, так и аналоговую информацию.[15]

Нейронные сети и искусственный интеллект[править | править исходный текст]

Нейронная сеть (НС), в случае искусственных нейронов называемая искусственной нейронной сетью (ИНС) или смоделированной нейронной сетью (СНС), является взаимосвязанной группой естественных или искусственных нейронов, которая использует математические и вычислительные модели для обработки информации на основе коннективисткого подхода к вычислению. В большинстве случаев ИНС является адаптивной системой, которая изменяет свою структуру под влиянием внешней или внутренней информации, которая течет через сеть.

С практической точки зрения нейронные сети являются нелинейными статистическими системами моделирования данных или системами принятия решений. Они могут быть использованы для моделирования сложных отношений между входными и выходными данными или для нахождения закономерностей в данных. Ощутимый эффект от применения искусственных нейронных сетей возникает только при решении очень сложных задач высокой и сверхвысокой размерности. Там, где задача может быть решена классическими методами, применение искусственных нейронных сетей нецелесообразно.

Нейронные сети и нейронаука[править | править исходный текст]

Архитектура[править | править исходный текст]

Критика[править | править исходный текст]

См. также[править | править исходный текст]

Примечания[править | править исходный текст]

  1. 1 2 Bain Mind and Body: The Theories of Their Relation. — New York: D. Appleton and Company, 1873.
  2. 1 2 James The Principles of Psychology. — New York: H. Holt and Company, 1890.
  3. Sherrington, C.S.. «Experiments in Examination of the Peripheral Distribution of the Fibers of the Posterior Roots of Some Spinal Nerves». Proceedings of the Royal Society of London 190: 45–186.
  4. McCullock, Warren; Walter Pitts (1943). «A Logical Calculus of Ideas Immanent in Nervous Activity». Bulletin of Mathematical Biophysics 5 (4): 115–133. DOI:10.1007/BF02478259.
  5. Farley, B; W.A. Clark (1954). «Simulation of Self-Organizing Systems by Digital Computer». IRE Transactions on Information Theory 4 (4): 76–84. DOI:10.1109/TIT.1954.1057468.
  6. Rochester, N.; J.H. Holland, L.H. Habit, and W.L. Duda (1956). «Tests on a cell assembly theory of the action of the brain, using a large digital computer». IRE Transactions on Information Theory 2 (3): 80–93. DOI:10.1109/TIT.1956.1056810.
  7. Rosenblatt, F. (1958). «The Perceptron: A Probalistic Model For Information Storage And Organization In The Brain». Psychological Review 65 (6): 386–408. DOI:10.1037/h0042519. PMID 13602029.
  8. 1 2 Werbos P.J. Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences. — 1975.
  9. Minsky M. An Introduction to Computational Geometry. — MIT Press, 1969. — ISBN 0-262-63022-2
  10. Fukushima, Kunihiko (1975). «Cognitron: A self-organizing multilayered neural network». Biological Cybernetics 20 (3–4): 121–136. DOI:10.1007/BF00342633. PMID 1203338.
  11. Rummelhart D.E Parallel Distributed Processing: Explorations in the Microstructure of Cognition. — Cambridge: MIT Press, 1986.
  12. (2010) «PLoS Computational Biology Issue Image». PLoS Computational Biology 6 (8): ev06.ei08. DOI:10.1371/image.pcbi.v06.i08.
  13. Russell, Ingrid Neural Networks Module. Архивировано из первоисточника 23 июня 2012.
  14. (2004) «Multiple neural spike train data analysis: state-of-the-art and future challenges». Nature Neuroscience 7 (5): 456–61. DOI:10.1038/nn1228. PMID 15114358.
  15. Spike arrival times: A highly efficient coding scheme for neural networks, SJ Thorpe — Parallel processing in neural systems, 1990

Литература[править | править исходный текст]