Q-обучение

Q-обучение (англ. Q-learning) — метод машинного обучения, применяемый при разработке искусственного интеллекта в рамках агентного подхода. Относится к экспериментам вида обучение с подкреплением. На основе получаемого от среды вознаграждения агент формирует функцию полезности Q, что впоследствии дает ему возможность уже не случайно выбирать стратегию поведения, а учитывать опыт предыдущего взаимодействия со средой. Одно из преимуществ Q-обучения — то, что оно в состоянии сравнить ожидаемую полезность доступных действий, не формируя модели окружающей среды. Применяется для ситуаций, которые можно представить в виде марковского процесса принятия решений.

Алгоритм Q-обучения[править | править код]

   Повторять до сходимости или конечного состояния:
       # Наблюдение:
       s_пред = s
       a_пред = a
       s = Получить текущее состояние сенсора
       r = Получить вознаграждение за предыдущее действие
       # Обновление полезности:
       Q[s_пред, a_пред] = Q[s_пред, a_пред] + LF * (r + DF * MAX(Q, s) - Q[s_пред, a_пред])
       # Выбор действия:
       a = ARGMAX(Q, s)
       Передать действие a активатору
   Функция MAX(Q, s):
       max = minValue
       Для каждого a из возможных действий для состояния s:
           Если Q[s, a] > max, то max = Q[s, a]
       Вернуть max
   Функция ARGMAX(Q, s):
       amax = Первое возможное действие для состояния s
       Для каждого a из возможных действий для состояния s:
           Если Q[s, a] > Q[s, amax], то amax = a
       Вернуть amax

где:

LF — это коэффициент обучения α. Чем он выше, тем сильнее агент доверяет новой информации.
DF — это коэффициент обесценивания (дисконтирования) γ. Чем он меньше, тем меньше агент предпочитает выгоду от своих будущих действий в пользу настоящего.

См. также[править | править код]

Обучение с подкреплением

Примечания[править | править код]

Литература[править | править код]

Стюарт Рассел, Питер Норвиг, «ИИ — современный подход»
Machine Learning Proceedings 1991: Proceedings of the Eighth International Workshop (ML91). — Elsevier Science, 2014. — P. 364. — ISBN 978-1-4832-9817-7.
Watkins, Chris; Dayan, Peter (1992). "Q-learning". Machine Learning. 8 (3—4): 279—292. doi:10.1007/BF00992698.

Машинное обучение и data mining
Задачи	Задача классификации Обучение без учителя Обучение с частичным привлечением учителя Регрессионный анализ AutoML Ассоциативные правила Выделение признаков Обучение признакам Обучение ранжированию Грамматический вывод Онлайновое обучение
Обучение с учителем	Метод k-ближайших соседей Наивный байесовский классификатор Дерево решений Метод опорных векторов Линейная регрессия Логистическая регрессия Перцептрон Ансамблевое обучение Бэггинг Бустинг Random forest Метод релевантных векторов
Кластерный анализ	Метод k-средних Метод нечёткой кластеризации Иерархическая кластеризация EM-алгоритм BIRCH CURE DBSCAN OPTICS Mean-shift
Снижение размерности	Факторный анализ Метод главных компонент CCA ICA LDA Неотрицательное матричное разложение t-SNE
Структурное прогнозирование	Графовая вероятностная модель Байесовская сеть Скрытая марковская модель CRF
Выявление аномалий	Метод k-ближайших соседей Локальный уровень выброса
Графовые вероятностные модели	Байесовская сеть Марковская сеть Скрытая марковская модель
Нейронные сети	Ограниченная машина Больцмана Самоорганизующаяся карта Функция активации Сигмоида Softmax Радиально-базисная функция Метод обратного распространения ошибки Глубокое обучение Многослойный перцептрон Рекуррентная нейронная сеть Долгая краткосрочная память Управляемый рекуррентный блок Свёрточная нейронная сеть U-Net Автокодировщик
Обучение с подкреплением	Марковский процесс Уравнение Беллмана Жадный алгоритм Q-обучение SARSA Temporal difference (TD)
Теория	Теория Вапника — Червоненкиса Дилемма смещения–дисперсии Теория вычислительного обучения Минимизация эмпирического риска Оккамово обучение PAC learning Статистическая теория обучения
Журналы и конференции	NeurIPS ICML ML JMLR ArXiv:cs.LG

Q-обучение

Содержание

Алгоритм Q-обучения[править | править код]

См. также[править | править код]

Примечания[править | править код]

Литература[править | править код]

Навигация

Q-обучение

Алгоритм Q-обучения[править | править код]

См. также[править | править код]

Примечания[править | править код]

Литература[править | править код]

Навигация

Поиск