Матч AlphaGo — Ли Седоль
Матч AlphaGo — Ли Седоль (или Google DeepMind Challenge Match) — матч по игре го, проходивший c 9 по 15 марта 2016 года между компьютерной программой AlphaGo, разработанной британской компанией Google DeepMind, и корейским профессионалом 9 дана Ли Седолем. Всего было сыграно 5 партий. Игра велась по китайским правилам, величина коми составляла 7,5 очков. Контроль времени классический — каждому игроку на партию даётся по два часа и 3 бёёми по 60 секунд. Для работы AlphaGo использовались 1920 процессоров и 280 графических процессоров, работающих в распределённой сети[1]. Игры транслировались в прямом эфире на YouTube[2]. Матч завершился победой AlphaGo со счётом 4:1[3][4]. Событие сравнивают с историческим шахматным матчем между программой Deep Blue и Гарри Каспаровым 1997 года, в некоторой степени предопределившим судьбу шахмат[5][6][7].
Победителю матча предназначалась награда в 1 миллион долларов; поскольку победителем стала AlphaGo, представители Google DeepMind заявили, что призовые деньги будут отданы на благотворительные цели, в том числе фонду ЮНИСЕФ и го-организациям[8]. Ли Седоль получил 170 тысяч долларов (150 тысяч за участие и дополнительные 20 тысяч за победу в одной из партий)[9].
После победы в матче Корейская ассоциация падук присвоила AlphaGo наивысший ранг го — «почётный 9 дан» за «искренние усилия» программы в овладении мастерством игры[10].
Перед матчем
[править | править код]Развитие компьютерных программ, играющих в го
[править | править код]Го — сложная настольная игра, требующая помимо логики применение интуиции, творческого и стратегического мышления[11][12]. В течение длительного времени обучить компьютерные программы играть в го на уровне сильного любителя было крайне сложно[13]. По сравнению с шахматами, в го перед искусственным интеллектом ставится больше задач, решение которых требует имитацию мыслительного процесса человека[14]. Ещё в 1965 году математик Ирвинг Джон Гуд писал:
Го на компьютере? — Для того, чтобы запрограммировать компьютер на осмысленную партию в го, а не просто партию по правилам, необходимо оформить принципы хорошей стратегии или создать обучающуюся программу. Принципы игры в го качественнее и загадочнее, чем в шахматах, и больше зависят от оценочного суждения. Поэтому я полагаю, что создать компьютерную программу, разумно играющую в го даже намного сложнее, чем шахматную программу[15].
До 2015 года[16] лучшие программы, играющие в го, могли достичь лишь уровня любительского дана[17]. Компьютер достиг бо́льших успехов на доске размером 9×9, где некоторые программы смогли выиграть у профессиональных игроков. До появления AlphaGo некоторые разработчики заявляли, что компьютеры никогда не смогут победить лучших игроков среди людей[18]. Илон Маск, один из первых инвесторов компании Deepmind, в 2016 году заявил, что по мнению экспертов, искусственный интеллект находится в 10 годах от победы над лучшим из профессиональных игроков[19].
Матч AlphaGo против Ли Седоля можно сравнить с шахматным матчем между программой Deep Blue и Гарри Каспаровым 1997 года, где победа программы, созданной IBM, над действовавшим чемпионом стала символической точкой отсчёта новой эпохи, когда компьютеры превзошли людей в шахматах[20].
AlphaGo имеет значительные отличия от программ-предшественников. Она задействует нейронные сети, где эвристические оценки не основываются на конкретных значениях переменных, закодированных людьми, а в значительной степени, извлекаются самой программой, путём десятков миллионов просмотров сыгранных партий и собственных партий с самой собой[16][21][22]. Даже сама команда разработчиков AlphaGo не в состоянии указать, каким образом AlphaGo оценивает позицию в партии и выбирает свой следующий ход[23]. Метод Монте-Карло также стал одним из основных способов повышения эффективности программы в выборе ходов. При создании программы использовались данные из теории распознавания образов и машинного обучения[16].
Матч против Фань Хуэя
[править | править код]В начале 2016 года были опубликованы материалы о том, что в октябре 2015 года AlphaGo победила трёхкратного чемпиона Европы по го Фань Хуэя (2 профессиональный дан) со счётом 5-0; таким образом, искусственный интеллект впервые одержал победу над профессиональным игроком на доске размером 19x19 без форы[24][25]. Часть экспертов указывала на сильный разрыв в уровне игры между Фань Хуэем и Ли Седолем, обладателем наивысшего ранга — 9 профессионального дана и множества завоёванных титулов[26]. Прежде компьютерные программы Zen и Crazy Stone[англ.] смогли одержать победу над профессиональными игроками, имея фору в четыре или пять камней[27][28]. Канадский исследователь теории игр и искусственного интеллекта Джонатан Шеффер после победы AlphaGo над Фань Хуэем сравнил программу с «ребёнком-вундеркиндом», которому недостаёт опыта, и заявил, что настоящие достижения начнутся тогда, когда программа сыграет с настоящим топ-игроком; победу в матче он предрекал всё же Ли Седолю[25] Ли Хаджин[англ.], профессиональный игрок и генеральный секретарь Международной федерации го, заявила, что у AlphaGo и Ли Седоля равные шансы на победу в грядущем матче[25].
После своего поражения, Фань Хуэй заявил, что благодаря этому матчу он стал играть лучше и стал видеть те вещи в игре, которые не замечал ранее; к марту 2016 года мировой рейтинг Фань Хуэя поднялся примерно на 300 позиций[29]
Подготовка
[править | править код]Эксперты по го нашли несколько ошибок, сделанных AlphaGo в партиях против Фань Хуэя, в частности, в оценке позиции на всей доске в противовес отдельным тактическим моментам; однако, к началу матча против Ли Седоля, не было известно, насколько с тех пор усилилась программа[26][30]. AlphaGo не была настроена специально под стиль игры Ли Седоля, что и так было бы сложно сделать, поскольку «тренировка» AlphaGo включала в себя просмотр десятков миллионов партий; несколько сотен или тысяч матчей Ли Седоля не были достаточным количеством для того, чтобы изменить стиль игры программы. Вместо этого AlphaGo просматривала партии сильных игроков-любителей, сыгранные на интернет-серверах, после чего играла сама против себя; в базе данных тренировки AlphaGo не было партий Ли Седоля[31][32].
В интервью перед матчем Ли Седоль предсказывал, что он легко выиграет со счётом 4-1 или даже 5-0, затем 2-3 года Google будут дорабатывать AlphaGo, после чего захотят взять у него реванш. В этом случае играть с обновлённой версией AlphaGo будет действительно интересно, считал Ли[33][34].
Игроки
[править | править код]Ли Седоль
[править | править код]Ли Седоль, профессиональный игрок, обладатель 9 профессионального дана по го[35], считается одним из сильнейших игроков в истории го[36]. Его карьера началась в 1996 году, когда он получил ранг 1 профессионального дана в возрасте 12 лет, с тех пор он завоевал множество титулов го[37]. Стиль Ли Седоля отличается нестандартными креативными ходами[38]. Предрекавший свою безоговорочную победу[38] Ли Седоль за несколько недель до матча стал обладателем одного из основных корейских титулов го — Мёнин[39].
AlphaGo
[править | править код]AlphaGo — компьютерная программа, созданная компанией Google DeepMind. Алгоритм AlphaGo использует комбинацию последних достижений для поиска оптимальной стратегии в дереве игры с новейшими методами машинного обучения в сочетании с интенсивным изучением партий людей, так и тренировкой при игре с самой собой[16]. Изначально AlphaGo тренировали подражанию человеческой игре через изучение множества партий, сыгранных как профессионалами так и сильными любителями, в том числе базы данных сервера КГС[англ.] из около 30 миллионов ходов из 160 тысяч партий игроков от 6 до 9 дана[16][40]. После достижения определённого уровня в стратегии и тактике, программа перешла на игру против самой себя и обучение с подкреплением[41]. Система не использует базу данных ходов. Как пояснил один из создателей программы,[23],
Хоть мы и программировали эту машину, мы не знаем, какой ход она сделает. Её ходы представляют собой феномен эмерджентности, что стало результатом тренировки. Мы всего лишь создаём ряды данных и алгоритмы обучения. Но ходы, к которым она прибегает, не в наших руках, и намного лучше, чем мы, как игроки, могли бы выбрать.
Версия программы, использовавшаяся в матче против Ли Седоля, использовала сходные компьютерные мощности, что и в партиях против Фань Хуэя, — 1920 CPU и 280 GPU[1]. В мае 2016 года представители компании Google объявили, что AlphaGo использовала при обучении TPU, процессор, разработанный Google, специально для машинного обучения[42][43].
Условия проведения матча
[править | править код]Пять партий матча состоялись 9, 10, 12, 13 и 15 марта 2016 года в Сеуле[44].
Партии игрались по китайским правилам, коми составляло 7,5 очков; временной контроль — по 2 часа основного времени каждому игроку 3 периода бёёми по 60 секунд[9]. Партии проходили в закрытом зале в присутствии трёх официальных наблюдателей, среди которых был Фань Хуэй. За время проведения игр не было зарегистрировано каких-либо происшествий, приведших к вмешательству наблюдателей.
Прямая трансляция партий матча шла на YouTube, параллельно с ней велись трансляции с комментариями игры на английском языке от Майкла Редмонда[45] (единственный неазиатский игрок, имеющий 9 профессиональный дан[46]) и на корейском языке от Ю Чханхёка, Сон Тхэгона и других корейских профессионалов[47][48][49]. Айа Хуань (игрок, обладатель 6 любительского дана и сотрудник команды разработчиков DeepMind) ставил камни на гобан за AlphaGo[6]. Работа программы велась с помощью Google Cloud Platform, сервер располагался в США[50].
Разработчики решили перед каждой партией использовать «фиксированную» версию программы, таким образом она не использовала для самообучения партии, сыгранные в этом матче и не подстраивалась под стиль игры Ли Седоля, каждый раз заново определяя свою стратегию[51].
Победитель матча получал в качестве награды 1 миллион долларов. Представители Google DeepMind заявили, что в случае победы AlphaGo они планируют передать эти деньги в благотворительные фонды (включая ЮНИСЕФ) и организации, занимающиеся развитием го[8]. Ли Седоль получил 150 тысяч долларов за участие в матче и по 20 тысяч долларов за победы в отдельных партиях[8][9].
Ход матча
[править | править код]Резюме
[править | править код]Игра # | Чёрные | Белые | Результат | Дата | Ходов | Затраченное время[прим. 1] |
---|---|---|---|---|---|---|
1 | Ли Седоль | AlphaGo | 0-1 (сдался) | 9 Марта 2016 | 186 | Ли Седоль: 1ч. 32мин. — AlphaGo: 1ч. 55мин. |
2 | AlphaGo | Ли Седоль | 1-0 (сдался) | 10 Марта 2016 | 211 | Ли Седоль: 2ч. — AlphaGo: 2ч. |
3 | Ли Седоль | AlphaGo | 0-1 (сдался) | 12 Марта 2016 | 176 | Ли Седоль: 2ч. — AlphaGo: 1ч. 51мин. |
4 | AlphaGo | Ли Седоль | 0-1 (сдался) | 13 Марта 2016 | 180 | Ли Седоль: 2ч. — AlphaGo: 1ч. 59мин. |
5[прим. 2][52][53] | Ли Седоль | AlphaGo | 0-1 (сдался) | 15 Марта 2016 | 280 | Ли Седоль: 2ч. — AlphaGo: 2ч. |
Общий счет: AlphaGo — Ли Седоль: 4-1 |
Общие комментарии
[править | править код]Комментируя первую партию матча, и Чо Хансын (9 профессиональный дан) и Майкл Редмонд отметили, что AlphaGo значительно усилилась по сравнению с октябрьским матчем против Фань Хуэя[54]. Уже на стадии фусэки стало ясно, что программа играет на уровне лучших игроков среди людей; Не Вэйпин (9 профессиональный дан, Китай) предположил, что AlphaGo играет в силу 6 или 7 профессионального дана в фусэки и 13—15 дана в тюбане[55]. Сам Ли Седоль после проигрыша во второй партии заявил: «Вчера я был удивлён, но сегодня у меня нет слов»[56]. После третьего поражения Ли Седоля AlphaGo досрочно победила в матче и комментаторы сошлись на том, что остаётся надежда на одну победу человека[57]. Кэ Цзе, возглавлявший на тот момент рейтинг игроков и также бросивший вызов AlphaGo, заявил, что он начал сомневаться в своей победе над программой[58]. В партиях со стороны программы были замечены ошибки; Демис Хассабис заявил, что они будут тщательно проанализированы, и что видимо AlphaGo «не знает некоторые классические тэсудзи и совершает тактические ошибки», что стало видно после проигранной ей партии, когда программа после ключевого победного хода Ли Седоля стала делать нелогичные ходы вместо того, чтобы сдаться[59]. После матча Ли Седоль заявил, что был побеждён психологически, но вовсе не технически[60]. Программа показала способность к креативным решениям, что удивило многих игроков (например, ход № 37 во второй партии); некоторые ходы противоречили классической теории го, но в матче доказали свою эффективность, некоторые профессионалы стали использовать эти находки в своих партиях[23]. Чо Хе Ён (9 профессиональный дан) заявила, что она хотела бы учиться игре у AlphaGo, поскольку та «знает всё»[61]. Сам Ли Седоль после матча решил изменить некоторые аспекты своей игры[60]. Комментаторы во время матча сошлись на том, что AlphaGo совершала ошибки, и были уверены, что в конечном итоге ей не хватит территории для победы[23], но в итоге ходы, изначально казавшиеся слабыми, привели к выигрышу[57].
Ключевые моменты партий
[править | править код]Во время партий наблюдатели отметили четыре исключительных хода, повлиявших на исход в партиях; Ли Седоль прокомментировал их в серии статей в издании Dong-a Ilbo[англ.][62]:
Первая партия: Ход, поразивший Ли Седоля. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Вторжение, ход 102[63]. |
Вторая партия: Неожиданный креативный ход программы[64]. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Ход 37, «удар в плечо», отвергающийся классической теорией игры. |
Третья партия : Впечатляющая контратака[57]. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Ход 32 разворачивает атаку в партии. |
Четвёртая партия : «Божественный ход» Ли Седоля. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
После сыгранного тэсудзи (78 ход) оценка AlphaGo резко изменилась[65]. |
Первая партия
[править | править код]В первой партии, прошедшей 9 марта, победу одержала AlphaGo (белые). Ли Седоль держал игру под контролем большую часть времени, программа получила преимущество в течение финальных 20 минут, заставив Ли сдаться[63]. После игры Ли заявил, что он допустил критическую ошибку в начале партии, и что стратегия программы на начальной стадии игры была «великолепна», и искусственный интеллект сделал один необычный ход, который никогда бы не сыграл человек[63]. Обозреватель сайта Go Game Guru Дэвид Омерод отметил, что седьмой ход Ли Седоля был «странным ходом, сделанным с целью протестировать силу AlphaGo в фусэки», и что ответный ход программы был «точным и эффективным»; по его оценке, первая часть игры осталась за AlphaGo, а Ли начал отыгрывать преимущество с ходом 81, а затем сделал «сомнительные» ходы 119 и 123, за которыми последовал 129 ход, приведший к поражению[54]. Чо Хансын, комментировавший партию, отметил мощный прогресс AlphaGo по сравнению с матчем против Фань Хуэя в октябре 2015 года[54]. Майкл Редмонд отметил, что стиль программы стал более агрессивным по сравнению с партиями против Фань Хуэя[66].
По мнению Ким Сонрёна (9 профессиональный дан), Ли Седоль был потрясён ходом 102[67], после которого он раздумывал над ответным ходом более 10 минут[67]. Ли Седоль признал своё поражение на 186 ходу, спустя примерно три с половиной часа игры, хотя на часах у него ещё оставался запас времени 28 минут и 28 секунд[67].
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Ходы 1—99 |
|