AlphaZero

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

AlphaZero — программа для нейронных сетей, разработанная компанией DeepMind, которая использует обобщенный подход AlphaGo Zero. 5 декабря 2017 года коллектив DeepMind выпустил препринт AlphaZero, которая в течение 24 часов достигла сверхчеловеческого уровня игры в шахматы, сёги, и го, победив чемпионов мира среди программ, Stockfish, Elmo и трехдневный вариант AlphaGo Zero в каждом случае.[1][2]

Отличия от AlphaGo Zero[править | править код]

AlphaZero (AZ) — это более обобщенный вариант алгоритма AlphaGo Zero (AGZ), который кроме го, умеет также играть в сёги и шахматы. Различия между AZ и AGZ заключаются в том, что:

  • AGZ имеет жёстко заданные правила для установленного поиска гиперпараметров.
  • Нейронные сети обновляются постоянно.
  • Го (в отличие от шахмат) симметрична относительно определённых отражений и поворотов; AGZ был запрограммирован так, чтобы воспользоваться этими симметриями, AZ& — нет.
  • Партии в шахматы и сёги (в отличие от Го) могут закончиться вничью, поэтому AZ должна учитывать возможность ничейного исхода игры.

AlphaZero против Stockfish и Elmo[править | править код]

Рассматривая поиск с помощью дерева поиска Монте-Карло, AlphaZero анализирует лишь 80,000 позиций на секунду в шахматах и 40 000 в сёги, по сравнению с 70 миллионов для Stockfish и 35 миллионов для Elmo. AlphaZero компенсирует низкое количество оценок использованием своих глубоких нейронных сетей, сосредотачиваясь гораздо более избирательно на наиболее перспективных вариантах.

Результаты[править | править код]

Шахматы[править | править код]

В шахматных партиях AlphaZero против Stockfish каждая программа имела по одной минуте времени на ход. AlphaZero имела лучшее компьютерное оборудование относительно Stockfish. Из 100 игр с нормального начального положения AlphaZero выиграл 25 партий белыми, 3 чёрными и свёл вничью оставшиеся 72.[3]

Критика[править | править код]

Некоторые гроссмейстеры, такие как Хикару Накамура и создатель Комодо Ларри Кауфман, подчеркнули, что силу AlphaZero не надо преувеличивать, утверждая, что результаты матча был бы другими, если бы программа имела доступ к дебютным базам (поскольку Stockfish был оптимизирован под этот сценарий)[4]. AlphaZero победила Stockfish, лишив последнего доступа к дебютным базам и эндшпильным таблицам, играя с намного лучшим компьютерным оборудованием, чем у противника.[5][6] Stockfish также была ограничена по времени принятия хода: нетипичный контроль времени, 1 минута на ход, не позволял глубоко задумываться в критических позициях. Кроме того использовалась версия Stockfish 8, вышедшая год назад. Все четыре обстоятельства: нехватка мощности, ограничение по времени, отключение дебютной книги и использование устарелой версии внесли свой вклад роль в поражение Stockfish.

Сёги[править | править код]

В ста играх в сёги против Elmo, AlphaZero выиграл девяносто раз, восемь раз проиграл и две партии завершились вничью.

Сообщество программистов компьютерной игры в сёги не полностью удовлетворена условиями матча AlphaZero — Elmo.[7][8]

Го[править | править код]

После 8-и часов самостоятельного обучения игры в го, в матчах против предыдущей версии AlphaZero, AlphaZero выиграл шестьдесят игр и проиграл сорок.

Реакция[править | править код]

Газеты вышли с заголовками, что обучение шахматам заняло только четыре часа: «это было сделано за время чуть большее, чем промежуток между завтраком и обедом»[9]. Wired раскрутили AlphaZero как «первый искусственный интеллект, который является чемпионом многих настольных игр»[10].

«Мне всегда было интересно, как это будет, когда высшие существа приземлятся на землю и покажут нам, как они играют в шахматы», заявил датский гроссмейстер Питер Хайне Нильсен в интервью Би-би-си, «теперь я знаю». Норвежский гроссмейстер Йон Людвиг Хаммер охарактеризовал AlphaZero как «сумасшедшие атакующие шахматы» с глубокой позиционной игрой. Бывший чемпион мира Гарри Каспаров сказал: «это замечательное достижение, даже несмотря на то, что мы уже ожидали нечто подобное после успехов AlphaGo»[11].

Примечания[править | править код]

  1. https://arxiv.org/pdf/1712.01815.pdf Mastering Chess and Shogi by Self-Play with a General Reinforcment Learning Algorithm.
  2. A bot will complete this citation soon. Click here to jump the queue"Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm", 5 December 2017, arΧiv:1712.01815 [cs.AI] 
  3. 'Superhuman' Google AI claims chess crown, BBC News (6 December 2017). Проверено 7 декабря 2017.
  4. Google's AlphaZero Destroys Stockfish In 100-Game Match, Chess.com. Проверено 7 декабря 2017.
  5. Knapton, Sarah. Entire human chess knowledge learned and surpassed by DeepMind's AlphaZero in four hours (англ.), Telegraph.co.uk (6 December 2017). Проверено 6 декабря 2017.
  6. Vincent, James. DeepMind’s AI became a superhuman chess player in a few hours, just for fun, The Verge (6 December 2017). Проверено 6 декабря 2017.
  7. http://www.uuunuuun.com/single-post/2017/12/07/Some-concerns-on-the-matching-conditions-between-AlphaZero-and-Shogi-engine
  8. Silver, David; Hubert, Thomas; Schrittwieser, Julian; Antonoglou, Ioannis; Lai, Matthew; Guez, Arthur; Lanctot, Marc; Sifre, Laurent; et al. (5 December 2017), "Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm", arΧiv:1712.01815 [cs.AI] 
  9. Badshah, Nadeem. Google’s DeepMind robot becomes world-beating chess grandmaster in four hours, The Times of London (7 December 2017). Проверено 7 декабря 2017.
  10. Alphabet's Latest AI Show Pony Has More Than One Trick, WIRED (6 December 2017). Проверено 7 декабря 2017.
  11. Gibbs, Samuel. AlphaZero AI beats champion chess program after teaching itself in four hours, The Guardian (7 December 2017). Проверено 8 декабря 2017.