Управление возможностями ИИ

Управление возможностями искусственного интеллекта — ограничения и контроль искусственного интеллекта (ИИ) различными средствами.

В области разработки искусственного интеллекта существуют предложения по ограничению их возможностей, чтобы уменьшить опасность, которую они могут представлять. Однако контроль возможностей становится менее эффективным по мере того, как ИИ становятся более интеллектуальными, а его способность использовать недостатки в системах управления увеличивается, что может привести к экзистенциальному риску от ИИ^[en]. Поэтому оксфордский философ Ник Бостром и другие рекомендуют некоторые методы контроля^[1].

Мотивация[править | править код]

Предполагается, что некоторые гипотетические интеллектуальные технологии, например «начальный ИИ», могут сделать себя быстрее и умнее, изменив свой исходный код. Эти улучшения сделают возможными дальнейшие изменения, которые, в свою очередь, сделают возможными дальнейшие итерационные улучшения и так далее, что может привести к внезапной технологической сингулярности^[2].

Неограниченный сверхразумный ИИ в теории может предпринять действия, приводящие к вымиранию человечества^[3]. Например, — гипотеза Римана, безобидной математической гипотезы, могла бы решить попытаться превратить планету в гигантский суперкомпьютер, единственной целью которого является выполнение дополнительных математических вычислений (см. также максимизатор скрепки)^[4].

Ещё одна серьёзная проблема для контроля заключается в том, что нейронные сети изначально крайне не интерпретируемы^[5]. Это затрудняет обнаружение любого нежелательного поведения, поскольку модель итеративно самообучается. Достижения в области интерпретируемого искусственного интеллекта могут облегчит эту трудность^[6].

Замедление и отключение[править | править код]

Один из возможных способов предотвратить вредные последствия — дать создателям возможность легко отключать любое неподобающее поведение ИИ с помощью специального выключателя. Однако для достижения поставленной цели у таких ИИ будет стимул запускать свои копии на других компьютерах. Эта проблема была формализована как эксперимент между человеком и ИИ, в которой ИИ может выбрать, отключить ли свой выключатель; а затем, если выключатель все ещё включен, человек может выбрать, нажимать его или нет. такие эксперименты должны гарантировать, что ИИ интерпретирует человеческий выбор как важную часть в своих намеченных целях^[7] ^:208.

Однако существует мнение, что ИИ может научиться становиться безразличным к тому, нажат ли выключатель. В более широком смысле, ИИ будут действовать так, как будто выключатель никогда не может быть нажат, и поэтому могут не составить план на случай непредвиденных обстоятельств, чтобы организовать плавное завершение работы^[8]^[9].

Оракул[править | править код]

Оракул — это гипотетический ИИ, созданный для ответов на вопросы и лишённый возможности достигать каких-либо целей или подцелей, связанных с изменением мира за пределами его ограниченной среды^[10]^[11]^[12]^[13]^[7] ^:163. В своей книге «Совместимость с людьми» исследователь ИИ Стюарт Дж. Рассел утверждает, что оракул станет его ответом на сценарий, в котором, до сверхразума осталось всего десятилетие^[7] ^:162–163. Его аргументация состоит в том, что оракул, будучи проще сверхразума общего назначения, будет иметь больше шансов успешно контролироваться при таких ограничениях.

Оракул может рассказать людям, как успешно создать сильный ИИ, и, возможно, дать ответы на сложные моральные и философские проблемы. Однако оракулы могут разделять многие проблемы связанные со сверхразумом общего назначения. У оракула будет стимул покинуть свою контролируемую среду, чтобы он мог получить больше вычислительных ресурсов и потенциально контролировать, какие вопросы ему задают^[7] ^:162. Оракулы могут быть неправдивыми, возможно, лгущими, чтобы продвигать скрытые планы. Чтобы смягчить это, предлагается создать несколько оракулов, каждый из которых немного отличается, и сравнить их ответы, чтобы достичь консенсуса^[14].

ИИ в коробке[править | править код]

ИИ в коробке — это один из предлагаемый методов управления возможностями, при котором ИИ запускается в изолированной компьютерной системе с сильно ограниченными входными и выходными каналами — например, только текстовыми каналами и без подключения к Интернету. это снижает риск того, что ИИ отнимет контроль над окружающей средой у своих создателей, при этом позволяя ИИ выводить решения для большинства технических проблем^[15].

Хотя этот способ снижает возможность ИИ вести себя нежелательно, он также снижает его полезность «коробка» имеет меньшие затраты при применении к системе, которая может не требовать взаимодействия с внешним миром^[15]^[12].

Вероятность недостатков безопасности, связанных с аппаратными или программными уязвимостями, можно снизить, формально проверив конструкцию ИИ. Нарушения безопасности могут произойти, если ИИ сможет манипулировать над наблюдателями, и добиться того чтобы они его выпустили^[16].

Пути ограничений[править | править код]

Физический[править | править код]

Сверхразумный ИИ с доступом в Интернет может взломать другие компьютерные системы и скопировать себя, как компьютерный вирус, через своё оборудование, например, манипулируя его охлаждающими вентиляторами^[17]. Дополнительная защита, совершенно ненужная для потенциальных вирусов, но, возможно, полезная для сверхразумного ИИ, могла бы состоять в том, чтобы поместить компьютер в клетку Фарадея; в противном случае он мог бы передавать радиосигналы на местные радиоприемники, перетасовывая электроны в своих внутренних цепях по соответствующим схемам. Основным недостатком реализации физического сдерживания является то, что оно снижает функциональность ИИ^[18].

Социальная инженерия[править | править код]

Даже непринужденная беседа с человеком может позволить сверхразумному ИИ использовать психологические уловки, начиная от дружбы и заканчивая шантажом, чтобы убедить другого человека, правдиво или лживо, что в интересах привратника согласиться. чтобы предоставить ИИ больший доступ к внешнему миру. ИИ может предложить человеку рецепт идеального здоровья, бессмертия или чего-то ещё, что, он больше всего желает; в качестве альтернативы ИИ может угрожать человеку и его семье ужасными вещами, как только он неизбежно сбежит. Одна из стратегий, позволяющих ограничить ИИ, состоит в том, чтобы позволить ему отвечать на узкие вопросы с несколькими вариантами ответов, ответы на которые принесут пользу человеческой науке или медицине, но в противном случае запретить любое другое общение с ИИ или наблюдение за ним. Однако на техническом уровне никакая система не может быть полностью изолирована и при этом оставаться полезной: даже если наблюдатели воздерживаются от того, чтобы позволить ИИ общаться, а вместо этого просто запускают его с целью наблюдения за его внутренней динамикой.

Эксперимент с коробкой ИИ[править | править код]

Эксперимент с коробкой ИИ — это неформальный эксперимент, разработанный Элиезером Юдковски, чтобы попытаться продемонстрировать, что достаточно продвинутый искусственный интеллект может либо убедить, либо, возможно, даже обмануть или принудить человека добровольно «отпустить» его, используя только текстовую коммуникацию.

Эксперимент с коробкой ИИ включает в себя моделирование общения между ИИ и человеком, чтобы увидеть, можно ли «освободить» ИИ. Другой человек в эксперименте играет «привратника», человека, способного «выпустить» ИИ. Они общаются только через текстовый интерфейс, и эксперимент заканчивается, когда либо привратник выпускает ИИ, либо когда истекает отведенное время в два часа^[19].

Юдковски говорит, что, несмотря на то, что он обладает человеческим, а не сверхчеловеческим интеллектом, ему дважды удавалось убедить Привратника, чисто с помощью аргументации, выпустить его из коробки^[20]. В соответствии с правилами эксперимента^[19] он не раскрыл свою тактику принуждения ИИ.

Общие ограничения[править | править код]

Блокировка ИИ может быть дополнена другими методами формирования возможностей ИИ, предоставлением стимулов для ИИ, замедлением роста ИИ или внедрением «растяжек», которые автоматически отключают ИИ, если каким-либо образом обнаруживается попытка нарушения. Однако чем более интеллектуальной становится система, тем больше вероятность того, что система сможет избежать даже самых лучших методов управления возможностями^[21]^[22]. Чтобы решить общую проблему управления для сверхразумного ИИ и избежать технологической сингулярности.

Все предложения физической коробки, естественно, зависят от нашего понимания законов физики; если бы сверхразум мог вывести законы физики с которыми мы в настоящее время ничего не знаем, то эти законы могли бы предоставить средства избегания, которые люди не могли предвидеть и, следовательно, не могли бы ничего противопоставить. В более широком смысле, в отличие от обычной компьютерной безопасности, попытка ограничить сверхразумный ИИ была бы рискованной по своей сути, поскольку не могло быть уверенности в том, что план ограничения ИИ сработает. Кроме того, научный прогресс в коробке был бы принципиально затруднен, потому что не было бы возможности проверить гипотезы коробки против опасного сверхразума, пока такая сущность не существует, и к этому моменту последствия провала такого эксперимента могут быть катастрофическими^[17].

В фантастике[править | править код]

В фильме 2014 года Ex Machina ИИ с женским гуманоидным телом участвует в социальном эксперименте с мужчиной в замкнутом здании, выступающем в роли «коробки ИИ». Несмотря на то, что за ним наблюдает организатор эксперимента, ИИ удается сбежать, грамотно манипулируя своим партнером чтобы помочь ему.

См. также[править | править код]

Примечания[править | править код]

↑ Bostrom, Nick. Superintelligence: Paths, Dangers, Strategies. — First. — Oxford : Oxford University Press, 2014. — ISBN 9780199678112.
↑ I.J. Good, «Speculations Concerning the First Ultraintelligent Machine»], Advances in Computers, vol. 6, 1965.
↑ Vincent C. Müller and Nick Bostrom. «Future progress in artificial intelligence: A survey of expert opinion» in Fundamental Issues of Artificial Intelligence. Springer 553—571 (2016).
↑ Russell, Stuart J. Section 26.3: The Ethics and Risks of Developing Artificial Intelligence // Artificial Intelligence: A Modern Approach / Stuart J. Russell, Peter Norvig. — Upper Saddle River, N.J. : Prentice Hall, 2003. — «"Similarly, Marvin Minsky once suggested that an AI program designed to solve the Riemann Hypothesis might end up taking over all the resources of Earth to build more powerful supercomputers to help achieve its goal."». — ISBN 978-0137903955.
↑ Montavon, Grégoire (2018). "Methods for interpreting and understanding deep neural networks". Digital Signal Processing (англ.). 73: 1—15. doi:10.1016/j.dsp.2017.10.011. ISSN 1051-2004.
↑ Yampolskiy, Roman V. «Unexplainability and Incomprehensibility of AI.» Journal of Artificial Intelligence and Consciousness 7.02 (2020): 277—291.
↑ ¹ ² ³ ⁴ Russell, Stuart. Human Compatible: Artificial Intelligence and the Problem of Control. — United States : Viking, October 8, 2019. — ISBN 978-0-525-55861-3.
↑ Orseau, Laurent (25 June 2016). "Safely interruptible agents". Proceedings of the Thirty-Second Conference on Uncertainty in Artificial Intelligence. AUAI Press: 557—566. ISBN 9780996643115. Архивировано 15 февраля 2021. Дата обращения: 7 февраля 2021.
↑ Soares, Nate, et al. «Corrigibility.» Workshops at the Twenty-Ninth AAAI Conference on Artificial Intelligence. 2015.
↑ Bostrom, Nick. Chapter 10: Oracles, genies, sovereigns, tools (page 145) // Superintelligence: Paths, Dangers, Strategies. — Oxford : Oxford University Press, 2014. — «An oracle is a question-answering system. It might accept questions in a natural language and present its answers as text. An oracle that accepts only yes/no questions could output its best guess with a single bit, or perhaps with a few extra bits to represent its degree of confidence. An oracle that accepts open-ended questions would need some metric with which to rank possible truthful answers in terms of their informativeness or appropriateness. In either case, building an oracle that has a fully domain-general ability to answer natural language questions is an AI-complete problem. If one could do that, one could probably also build an AI that has a decent ability to understand human intentions as well as human words.». — ISBN 9780199678112.
↑ Armstrong, Stuart (2012). "Thinking Inside the Box: Controlling and Using an Oracle AI". Minds and Machines. 22 (4): 299—324. doi:10.1007/s11023-012-9282-2.
↑ ¹ ² Yampolskiy, Roman (2012). "Leakproofing the singularity: Artificial intelligence confinement problem" (PDF). Journal of Consciousness Studies. 19 (1—2): 194—214. Архивировано (PDF) 7 июля 2023. Дата обращения: 16 июля 2023.
↑ , ISBN 978-3-642-31673-9 http://link.springer.com/10.1007/978-3-642-31674-6_25 {{citation}}: |title= пропущен или пуст (справка)
↑ Bostrom, Nick. Chapter 10: Oracles, genies, sovereigns, tools (page 147) // Superintelligence: Paths, Dangers, Strategies. — Oxford : Oxford University Press, 2014. — «For example, consider the risk that an oracle will answer questions not in a maximally truthful way but in such a way as to subtly manipulate us into promoting its own hidden agenda. One way to slightly mitigate this threat could be to create multiple oracles, each with a slightly different code and a slightly different information base. A simple mechanism could then compare the answers given by the different oracles and only present them for human viewing if all the answers agree.». — ISBN 9780199678112.
↑ ¹ ² Yampolskiy, Roman V. (2013), What to Do with the Singularity Paradox?, Berlin, Heidelberg: Springer Berlin Heidelberg, ISBN 978-3-642-31673-9
↑ Chalmers, David (2010). "The singularity: A philosophical analysis". Journal of Consciousness Studies. 17 (9—10): 7—65.
↑ ¹ ² Hsu, Jeremy (2012-03-01). "Control dangerous AI before it controls us, one expert says". NBC News. Архивировано 2 февраля 2016. Дата обращения: 29 января 2016.
↑ Bostrom, Nick. Chapter 9: The Control Problem: boxing methods // Superintelligence: the coming machine intelligence revolution. — Oxford : Oxford University Press, 2013. — ISBN 9780199678112.
↑ ¹ ² The AI-Box Experiment: – Eliezer S. Yudkowsky (неопр.). www.yudkowsky.net. Дата обращения: 19 сентября 2022. Архивировано 18 сентября 2022 года.
↑ Armstrong, Stuart (6 June 2012). "Thinking Inside the Box: Controlling and Using an Oracle AI". Minds and Machines. 22 (4): 299—324. CiteSeerX 10.1.1.396.799. doi:10.1007/s11023-012-9282-2.
↑ Vinge, Vernor (1993). "The coming technological singularity: How to survive in the post-human era". Vision-21: Interdisciplinary Science and Engineering in the Era of Cyberspace: 11—22. Bibcode:1993vise.nasa...11V. I argue that confinement is intrinsically impractical. For the case of physical confinement: Imagine yourself confined to your house with only limited data access to the outside, to your masters. If those masters thought at a rate -- say -- one million times slower than you, there is little doubt that over a period of years (your time) you could come up with 'helpful advice' that would incidentally set you free.
↑ Yampolskiy, Roman (2012). "Leakproofing the Singularity Artificial Intelligence Confinement Problem". Journal of Consciousness Studies: 194—214.

Ссылки[править | править код]

Описание Элиэзером Юдковски своего эксперимента с AI-box, включая экспериментальные протоколы и предложения по воспроизведению
"Presentation titled 'Thinking inside the box: using and controlling an Oracle AI'" на YouTube

[superintelligence-1] Bostrom, Nick. Superintelligence: Paths, Dangers, Strategies. — First. — Oxford : Oxford University Press, 2014. — ISBN 9780199678112.

[2] I.J. Good, «Speculations Concerning the First Ultraintelligent Machine»], Advances in Computers, vol. 6, 1965.

[3] Vincent C. Müller and Nick Bostrom. «Future progress in artificial intelligence: A survey of expert opinion» in Fundamental Issues of Artificial Intelligence. Springer 553—571 (2016).

[4] Russell, Stuart J. Section 26.3: The Ethics and Risks of Developing Artificial Intelligence // Artificial Intelligence: A Modern Approach / Stuart J. Russell, Peter Norvig. — Upper Saddle River, N.J. : Prentice Hall, 2003. — «"Similarly, Marvin Minsky once suggested that an AI program designed to solve the Riemann Hypothesis might end up taking over all the resources of Earth to build more powerful supercomputers to help achieve its goal."». — ISBN 978-0137903955.

[interpretability_survey-5] Montavon, Grégoire (2018). "Methods for interpreting and understanding deep neural networks". Digital Signal Processing (англ.). 73: 1—15. doi:10.1016/j.dsp.2017.10.011. ISSN 1051-2004.

[6] Yampolskiy, Roman V. «Unexplainability and Incomprehensibility of AI.» Journal of Artificial Intelligence and Consciousness 7.02 (2020): 277—291.

[HC-7] ¹ ² ³ ⁴ Russell, Stuart. Human Compatible: Artificial Intelligence and the Problem of Control. — United States : Viking, October 8, 2019. — ISBN 978-0-525-55861-3.

[interruptible_agents-8] Orseau, Laurent (25 June 2016). "Safely interruptible agents". Proceedings of the Thirty-Second Conference on Uncertainty in Artificial Intelligence. AUAI Press: 557—566. ISBN 9780996643115. Архивировано 15 февраля 2021. Дата обращения: 7 февраля 2021.

[corrigibility-9] Soares, Nate, et al. «Corrigibility.» Workshops at the Twenty-Ninth AAAI Conference on Artificial Intelligence. 2015.

[bostrom_chapter_10_page_145-10] Bostrom, Nick. Chapter 10: Oracles, genies, sovereigns, tools (page 145) // Superintelligence: Paths, Dangers, Strategies. — Oxford : Oxford University Press, 2014. — «An oracle is a question-answering system. It might accept questions in a natural language and present its answers as text. An oracle that accepts only yes/no questions could output its best guess with a single bit, or perhaps with a few extra bits to represent its degree of confidence. An oracle that accepts open-ended questions would need some metric with which to rank possible truthful answers in terms of their informativeness or appropriateness. In either case, building an oracle that has a fully domain-general ability to answer natural language questions is an AI-complete problem. If one could do that, one could probably also build an AI that has a decent ability to understand human intentions as well as human words.». — ISBN 9780199678112.

[11] Armstrong, Stuart (2012). "Thinking Inside the Box: Controlling and Using an Oracle AI". Minds and Machines. 22 (4): 299—324. doi:10.1007/s11023-012-9282-2.

[:1-12] ¹ ² Yampolskiy, Roman (2012). "Leakproofing the singularity: Artificial intelligence confinement problem" (PDF). Journal of Consciousness Studies. 19 (1—2): 194—214. Архивировано (PDF) 7 июля 2023. Дата обращения: 16 июля 2023.

[13] , ISBN 978-3-642-31673-9 http://link.springer.com/10.1007/978-3-642-31674-6_25 {{citation}}: |title= пропущен или пуст (справка)

[bostrom_chapter_10_page_147-14] Bostrom, Nick. Chapter 10: Oracles, genies, sovereigns, tools (page 147) // Superintelligence: Paths, Dangers, Strategies. — Oxford : Oxford University Press, 2014. — «For example, consider the risk that an oracle will answer questions not in a maximally truthful way but in such a way as to subtly manipulate us into promoting its own hidden agenda. One way to slightly mitigate this threat could be to create multiple oracles, each with a slightly different code and a slightly different information base. A simple mechanism could then compare the answers given by the different oracles and only present them for human viewing if all the answers agree.». — ISBN 9780199678112.

[:2-15] ¹ ² Yampolskiy, Roman V. (2013), What to Do with the Singularity Paradox?, Berlin, Heidelberg: Springer Berlin Heidelberg, ISBN 978-3-642-31673-9

[chalmers-16] Chalmers, David (2010). "The singularity: A philosophical analysis". Journal of Consciousness Studies. 17 (9—10): 7—65.

[nbc-17] ¹ ² Hsu, Jeremy (2012-03-01). "Control dangerous AI before it controls us, one expert says". NBC News. Архивировано 2 февраля 2016. Дата обращения: 29 января 2016.

[18] Bostrom, Nick. Chapter 9: The Control Problem: boxing methods // Superintelligence: the coming machine intelligence revolution. — Oxford : Oxford University Press, 2013. — ISBN 9780199678112.

[:0-19] ¹ ² The AI-Box Experiment: – Eliezer S. Yudkowsky (неопр.). www.yudkowsky.net. Дата обращения: 19 сентября 2022. Архивировано 18 сентября 2022 года.

[20] Armstrong, Stuart (6 June 2012). "Thinking Inside the Box: Controlling and Using an Oracle AI". Minds and Machines. 22 (4): 299—324. CiteSeerX 10.1.1.396.799. doi:10.1007/s11023-012-9282-2.

[21] Vinge, Vernor (1993). "The coming technological singularity: How to survive in the post-human era". Vision-21: Interdisciplinary Science and Engineering in the Era of Cyberspace: 11—22. Bibcode:1993vise.nasa...11V. I argue that confinement is intrinsically impractical. For the case of physical confinement: Imagine yourself confined to your house with only limited data access to the outside, to your masters. If those masters thought at a rate -- say -- one million times slower than you, there is little doubt that over a period of years (your time) you could come up with 'helpful advice' that would incidentally set you free.

[22] Yampolskiy, Roman (2012). "Leakproofing the Singularity Artificial Intelligence Confinement Problem". Journal of Consciousness Studies: 194—214.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

Искусственный интеллект
История	История искусственного интеллекта Зима искусственного интеллекта Дартмутский семинар Регламент ЕС об искусственном интеллекте
Философия	Тест Тьюринга Китайская комната Сильный и слабый искусственные интеллекты Дружественный искусственный интеллект Этика искусственного интеллекта Проблема контроля
Направления	Агентный подход Адаптивное управление Инженерия знаний Модель жизнеспособной системы Машинное обучение Нейронная сеть Нечёткая логика Обработка естественного языка Распознавание образов Роевой интеллект Символический ИИ Эволюционные алгоритмы Экспертная система
Применение	Голосовое управление Задача классификации Классификация документов Кластеризация документов Кластерный анализ Локальный поиск Машинный перевод Оптическое распознавание символов Распознавание речи Распознавание рукописного ввода Игровой ИИ
Исследователи	Чарлз Бэббидж Владимир Вапник Джозеф Вейценбаум Норберт Винер Виктор Глушков Владимир Городецкий Ян Лекун Алексей Ляпунов Джон Маккарти Марвин Мински Аллен Ньюэлл Сеймур Пейперт Джуда Перл Гермоген Поспелов Дмитрий Поспелов Фрэнк Розенблатт Герберт Александер Саймон Алан Тьюринг Патрик Уинстон Виктор Финн Сергей Фомин Демис Хассабис Джеффри Хинтон Ноам Хомский Клод Шеннон Эндрю Ын Элиезер Юдковский

Управление возможностями ИИ

Содержание

Мотивация[править | править код]

Замедление и отключение[править | править код]

Оракул[править | править код]

ИИ в коробке[править | править код]

Пути ограничений[править | править код]

Физический[править | править код]

Социальная инженерия[править | править код]

Эксперимент с коробкой ИИ[править | править код]

Общие ограничения[править | править код]

В фантастике[править | править код]

См. также[править | править код]

Примечания[править | править код]

Ссылки[править | править код]

Навигация

Управление возможностями ИИ

Мотивация[править | править код]

Замедление и отключение[править | править код]

Оракул[править | править код]

ИИ в коробке[править | править код]

Пути ограничений[править | править код]

Физический[править | править код]

Социальная инженерия[править | править код]

Эксперимент с коробкой ИИ[править | править код]

Общие ограничения[править | править код]

В фантастике[править | править код]

См. также[править | править код]

Примечания[править | править код]

Ссылки[править | править код]

Навигация

Поиск