Компания DeepMind, приобретенная Google, занимается разработкой ИИ. Спроектированный ею алгоритм AlphaGo смог без усилий выиграть в го у лучших игроков в мире Ли Седоля и Кэ Цзе. Главная цель компании — создать самообучаемый алгоритм, предназначенный для решения разноплановых задач. Новое поколение алгоритма под названием AlphaZero, по мнению специалистов, существенно продвинуло компанию к достижению поставленной цели.
AlphaZero за 8 часов научился играть в го, а затем победил своего предшественника AlphaGo. В следующие 4 часа AlphaZero обучился игре в шахматы. Затем он обыграл шахматного лидера среди ИИ – программу Stockfish. Из ста партий новичок выиграл 25, играя белыми фигурами (это даёт преимущество первого хода), и 3, играя черными. Остальные партии завершались ничьей. Но что самое интересное, Stockfish не смог победить ни разу, а AlphaZero — ни разу не проиграл.
В завершении AlphaZero за 2 часа научился играть в сеги (японский аналог шахмат) и победил лучшую в мире программу по этой игре - Elmo.
Первоначально в функции AlphaZero не входили настольные игры. Все три игры ИИ изучал без дополнительных сведений о тактиках и стратегиях. Для тренировки AlphaZero играл сам с собой, постепенно совершенствуя мастерство до уровня лучших мировых игроков. Такой метод обучения называется "обучение с подкреплением". В этом случае система находится в полностью незнакомой среде, без каких-либо дополнительных сведений, но она может проводить определенные действия, способствующие познанию среды.
В середине осени компания DeepMind уже демонстрировала промежуточный образец алгоритма, названный тогда AlphaGo Zero. Презентуя этот ИИ, глава DeepMind Демис Хассабис заверил, что алгоритмы, подобные AlphaGo Zero, смогут решать серьезные исследовательские задачи, в частности, разработку медикаментов и новых материалов.