Обучение с подкреплением на основе отзывов людей

Обучение с подкреплением на основе отзывов (RLHF; также обучение с подкреплением на основе человеческих предпочтений) — метод, который обучает «модель вознаграждения» непосредственно на основе отзывов человека и использует её в качестве функции вознаграждения для оптимизации политики агента с использованием обучения с подкреплением (RL)^[1]^[2]. RLHF может улучшить надёжность и исследование агентов RL, особенно когда функция вознаграждения разрежена или зашумлена^[3]^[4]^[5].

Человеческая обратная связь собирается путём просьбы к людям ранжировать случаи поведения агента^[6]^[7]^[8]. Затем эти рейтинги можно использовать для оценки результатов, например, с помощью рейтинговой системы Эло^[2].

RLHF применялся к различным областям обработки естественного языка, таким как диалоговые агенты, автоматическое реферирование и понимание естественного языка^[9]^[10]. Регулярное обучение с подкреплением, когда агенты учатся на своих собственных действиях на основе функции вознаграждения, трудно применить к задачам обработки естественного языка, потому что вознаграждение часто нелегко определить или измерить, особенно при решении сложных задач, связанных с человеческими ценностями или предпочтениями. RLHF может позволить языковым моделям давать ответы, соответствующие этим сложным значениям, генерировать более подробные ответы и отклонять вопросы, которые либо неуместны, либо выходят за рамки области знаний модели^[11]. Некоторыми примерами языковых моделей, обученных с помощью RLHF, являются ChatGPT от OpenAI и его предшественник InstructGPT^[7]^[12]^[13]^[14], а также Sparrow от DeepMind^[15]^[16]^[17].

RLHF также применялся в других областях, таких как разработка ботов для видеоигр. Например, OpenAI и DeepMind обучили агентов играть в игры Atari на основе человеческих предпочтений^[18]^[19]. Агенты продемонстрировали высокую производительность во многих протестированных средах, часто превосходя возможности человека^[20].

Проблемы и ограничения[править | править код]

Одной из основных проблем RLHF является масштабируемость и стоимость обратной связи с человеком, которая может быть медленной и дорогой по сравнению с неконтролируемым обучением. Качество и согласованность обратной связи с людьми также могут варьироваться в зависимости от задачи, интерфейса и индивидуальных предпочтений людей. Даже когда человеческая обратная связь возможна, модели RLHF могут по-прежнему демонстрировать нежелательное поведение, которое не фиксируется человеческой обратной связью, или использовать лазейки в модели вознаграждения, что выявляет проблемы согласования и надёжности^[21].

Примечания[править | править код]

↑ Ziegler, Daniel M. (2019). "Fine-Tuning Language Models from Human Preferences" (англ.). doi:10.48550/arXiv.1909.08593. {{cite journal}}: Cite journal требует |journal= (справка)
↑ ¹ ² Lambert; Castricato, Louis; von Werra, Leandro; Havrilla, Alex Illustrating Reinforcement Learning from Human Feedback (RLHF) (англ.). huggingface.co. Дата обращения: 4 марта 2023. Архивировано 16 марта 2023 года.
↑ MacGlashan, James (6 August 2017). "Interactive learning from policy-dependent human feedback". Proceedings of the 34th International Conference on Machine Learning - Volume 70 (англ.). JMLR.org: 2285—2294. Архивировано 4 марта 2023. Дата обращения: 16 марта 2023.
↑ Warnell, Garrett (25 April 2018). "Deep TAMER: Interactive Agent Shaping in High-Dimensional State Spaces". Proceedings of the AAAI Conference on Artificial Intelligence (англ.). 32 (1). doi:10.1609/aaai.v32i1.11485.
↑ Bai, Yuntao (2022). "Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback" (англ.). doi:10.48550/arXiv.2204.05862. {{cite journal}}: Cite journal требует |journal= (справка)
↑ Ouyang, Long (31 October 2022). "Training language models to follow instructions with human feedback" (англ.). Архивировано 15 марта 2023. Дата обращения: 16 марта 2023. {{cite journal}}: Cite journal требует |journal= (справка)
↑ ¹ ² Edwards. OpenAI invites everyone to test ChatGPT, a new AI-powered chatbot—with amusing results (амер. англ.). Ars Technica (1 декабря 2022). Дата обращения: 4 марта 2023. Архивировано 15 марта 2023 года.
↑ Abhishek. Getting stakeholder engagement right in responsible AI (англ.). VentureBeat (5 февраля 2023). Дата обращения: 4 марта 2023. Архивировано 20 марта 2023 года.
↑ Ouyang, Long (2022). "Training language models to follow instructions with human feedback" (англ.). doi:10.48550/arXiv.2203.02155. {{cite journal}}: Cite journal требует |journal= (справка)
↑ Nisan, Stiennon (2020). "Learning to summarize with human feedback". Advances in Neural Information Processing Systems (англ.). 33. Архивировано 23 декабря 2022. Дата обращения: 16 марта 2023.
↑ Wiggers. Can AI really be protected from text-based attacks? (англ.). TechCrunch (24 февраля 2023). Дата обращения: 4 марта 2023. Архивировано 16 марта 2023 года.
↑ Farseev. Council Post: Is Bigger Better? Why The ChatGPT Vs. GPT-3 Vs. GPT-4 'Battle' Is Just A Family Chat (англ.). Forbes. Дата обращения: 4 марта 2023. Архивировано 19 марта 2023 года.
↑ Heikkilä. How OpenAI is trying to make ChatGPT safer and less biased (англ.). MIT Technology Review. Дата обращения: 4 марта 2023. Архивировано 16 марта 2023 года.
↑ Douglas Heaven. ChatGPT is OpenAI’s latest fix for GPT-3. It’s slick but still spews nonsense (англ.). MIT Technology Review. Дата обращения: 4 марта 2023. Архивировано 14 марта 2023 года.
↑ Glaese, Amelia (2022). "Improving alignment of dialogue agents via targeted human judgements" (англ.). doi:10.48550/arXiv.2209.14375. {{cite journal}}: Cite journal требует |journal= (справка)
↑ Why DeepMind isn’t deploying its new AI chatbot — and what it means for responsible AI (англ.). VentureBeat (23 сентября 2022). Дата обращения: 4 марта 2023. Архивировано 9 февраля 2023 года.
↑ Building safer dialogue agents (англ.). www.deepmind.com. Дата обращения: 4 марта 2023. Архивировано 1 августа 2023 года.
↑ Learning from human preferences (англ.). openai.com. Дата обращения: 4 марта 2023. Архивировано 18 июня 2023 года.
↑ Learning through human feedback (англ.). www.deepmind.com. Дата обращения: 4 марта 2023. Архивировано 19 марта 2023 года.
↑ Christiano, Paul F (2017). "Deep Reinforcement Learning from Human Preferences". Advances in Neural Information Processing Systems (англ.). 30. Curran Associates, Inc. Архивировано 19 марта 2023. Дата обращения: 4 марта 2023.
↑ Christiano. Thoughts on the impact of RLHF research (англ.). Дата обращения: 4 марта 2023. Архивировано 20 марта 2023 года.

[1] Ziegler, Daniel M. (2019). "Fine-Tuning Language Models from Human Preferences" (англ.). doi:10.48550/arXiv.1909.08593. {{cite journal}}: Cite journal требует |journal= (справка)

[huggingface-2] ¹ ² Lambert; Castricato, Louis; von Werra, Leandro; Havrilla, Alex Illustrating Reinforcement Learning from Human Feedback (RLHF) (англ.). huggingface.co. Дата обращения: 4 марта 2023. Архивировано 16 марта 2023 года.

[3] MacGlashan, James (6 August 2017). "Interactive learning from policy-dependent human feedback". Proceedings of the 34th International Conference on Machine Learning - Volume 70 (англ.). JMLR.org: 2285—2294. Архивировано 4 марта 2023. Дата обращения: 16 марта 2023.

[4] Warnell, Garrett (25 April 2018). "Deep TAMER: Interactive Agent Shaping in High-Dimensional State Spaces". Proceedings of the AAAI Conference on Artificial Intelligence (англ.). 32 (1). doi:10.1609/aaai.v32i1.11485.

[5] Bai, Yuntao (2022). "Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback" (англ.). doi:10.48550/arXiv.2204.05862. {{cite journal}}: Cite journal требует |journal= (справка)

[6] Ouyang, Long (31 October 2022). "Training language models to follow instructions with human feedback" (англ.). Архивировано 15 марта 2023. Дата обращения: 16 марта 2023. {{cite journal}}: Cite journal требует |journal= (справка)

[ars-7] ¹ ² Edwards. OpenAI invites everyone to test ChatGPT, a new AI-powered chatbot—with amusing results (амер. англ.). Ars Technica (1 декабря 2022). Дата обращения: 4 марта 2023. Архивировано 15 марта 2023 года.

[8] Abhishek. Getting stakeholder engagement right in responsible AI (англ.). VentureBeat (5 февраля 2023). Дата обращения: 4 марта 2023. Архивировано 20 марта 2023 года.

[9] Ouyang, Long (2022). "Training language models to follow instructions with human feedback" (англ.). doi:10.48550/arXiv.2203.02155. {{cite journal}}: Cite journal требует |journal= (справка)

[10] Nisan, Stiennon (2020). "Learning to summarize with human feedback". Advances in Neural Information Processing Systems (англ.). 33. Архивировано 23 декабря 2022. Дата обращения: 16 марта 2023.

[11] Wiggers. Can AI really be protected from text-based attacks? (англ.). TechCrunch (24 февраля 2023). Дата обращения: 4 марта 2023. Архивировано 16 марта 2023 года.

[12] Farseev. Council Post: Is Bigger Better? Why The ChatGPT Vs. GPT-3 Vs. GPT-4 'Battle' Is Just A Family Chat (англ.). Forbes. Дата обращения: 4 марта 2023. Архивировано 19 марта 2023 года.

[13] Heikkilä. How OpenAI is trying to make ChatGPT safer and less biased (англ.). MIT Technology Review. Дата обращения: 4 марта 2023. Архивировано 16 марта 2023 года.

[14] Douglas Heaven. ChatGPT is OpenAI’s latest fix for GPT-3. It’s slick but still spews nonsense (англ.). MIT Technology Review. Дата обращения: 4 марта 2023. Архивировано 14 марта 2023 года.

[15] Glaese, Amelia (2022). "Improving alignment of dialogue agents via targeted human judgements" (англ.). doi:10.48550/arXiv.2209.14375. {{cite journal}}: Cite journal требует |journal= (справка)

[16] Why DeepMind isn’t deploying its new AI chatbot — and what it means for responsible AI (англ.). VentureBeat (23 сентября 2022). Дата обращения: 4 марта 2023. Архивировано 9 февраля 2023 года.

[17] Building safer dialogue agents (англ.). www.deepmind.com. Дата обращения: 4 марта 2023. Архивировано 1 августа 2023 года.

[18] Learning from human preferences (англ.). openai.com. Дата обращения: 4 марта 2023. Архивировано 18 июня 2023 года.

[19] Learning through human feedback (англ.). www.deepmind.com. Дата обращения: 4 марта 2023. Архивировано 19 марта 2023 года.

[20] Christiano, Paul F (2017). "Deep Reinforcement Learning from Human Preferences". Advances in Neural Information Processing Systems (англ.). 30. Curran Associates, Inc. Архивировано 19 марта 2023. Дата обращения: 4 марта 2023.

[21] Christiano. Thoughts on the impact of RLHF research (англ.). Дата обращения: 4 марта 2023. Архивировано 20 марта 2023 года.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

Обучение с подкреплением на основе отзывов людей

Проблемы и ограничения[править | править код]

Примечания[править | править код]

Навигация

Поиск