Система искусственного интеллекта, разработанная командой Maluuba (была куплена корпорацией Microsoft в январе), установила рекорд в игре Ms. Pac-Man на Atari 2600. ИИ смог набрать максимально возможное количество баллов – 999990. Для сравнения, наилучший результат человека в этой игре составляет 266330 баллов.
Чтобы добиться столь впечатляющего результата, команда Maluuba использовала методику обучения искусственного интеллекта Hybrid Reward Architecture – это комбинация закреплённого обучения и метода «разделяй и властвуй». При этом общая цель игры разбивалась на отдельные задачи, выполняемые агентами. Всего использовалось более 150 агентов. Отдельным агентам назначались простые поэтапные задачи, например, поиск конкретного шарика или уклонение от призраков. Полученные от «рядовых» агентов данные передавались «главному» агенту (Microsoft сравнивает его со старшим менеджером в компании). Он принимал сведения от всех агентов и информировал, куда игровому персонажу двигаться дальше, чтобы избежать опасностей и набирать очки.
Отмечается, что наилучшие результаты достигались, когда отдельные агенты «действовали очень эгоистично», а главный агент сосредоточился на том, что лучше всего для всей команды. При этом он учитывал не только количество агентов, желающих двигаться в определенном направлении, но и важность этого направления. Например, меньшее количество агентов, желающих избежать призрака, было более приоритетным по сравнению с большим количеством агентов, желающих двигаться в сторону шарика.
Команда Maluuba уверяет, что система обучения ИИ Hybrid Reward Architecture имеет обширные сферы практического приложения, такие как помощь в прогнозировании продаж компаний или обработка естественного языка.