DeepMind создали самый мощный алгоритм для игры в го, даже не показывая ему примеры игры

20.10.2017

В прошлом году весь мир наблюдал за историческим матчем - нейросеть AlphaGo от DeepMind обыграла лучшего в мире игрока в го, корейца Ли Седоля. Это было событие, сравнимое с поражением Каспарова программе Deep Blue. А вчера DeepMind представили новую, улучшенную версию программы - AlphaGo Zero, которая обыграла предыдущую версию AlphaGo со счётом 100:0!

Но самое интересное - это то, как именно создали такого монстра. Предыдущая версия AlphaGo была создала с помощью reinforcement learning - программа улучшала свои навыки, играя миллионы партий со своей копией. Но при выборе следующего хода AlphaGo использовала нейросеть, обученную на сотнях тысяч партий лучших мастеров го. У AlphaGo Zero не было примеров для обучения - только правила игры. Нейросеть, выбирающая следующий ход и оценивающая вероятность выигрыша после каждого хода, перенастраивалась после каждой сыгранной партии.

После 4,9 миллионов партий программа эволюционировала до недостижимого уровня, создав настолько сложные стратегии игры, что обычные игроки не могут понять логику её ходов. Программа буквально играет на сверхчеловеческом уровне.

В будущем с помощью такого эволюционного обучения будут решать более прикладные задачи - моделирование белков, уменьшение энергопотребления, синтез новых материалов. А глава с го закрыта - разработчики объявили, что больше не будут проводить матчи AlphaGo с живыми мастерами. Логично: соревноваться с машинным интеллектом - все равно что пытаться обогнать самолёт.

Научная публикация разработчиков AlphaGo Zero