Различные системы искусственного интеллекта уже умеют делать такие вещи, что впору задумываться о том, что сюжет кинофраншизы Терминатор – это не такая уж и фантастика. Более того, с каждым днем ИИ обучается все новым и новым приемам. К примеру, недавно специалисты компании Google обучили свой искусственный разум идентифицировать голоса отдельных людей в шуме толпы с поразительной точностью.
Для начала инженеры Google создали технологию на основе машинного обучения, которая выявляет голоса отдельных людей благодаря «эффекту вечеринки». Это то, что умеем делать все мы: общаясь с человеком в окружении посторонних шумов, мы можем понимать то, о чем он говорит, анализируя не только речь, но и мимику, отфильтровывая «мешающие» звуки. ИИ Google работает похожим образом: проводя анализ мимических мышц лица и всего шума, он выделяет голоса разных людей и создает из них отдельные аудиодорожки. Затем в Google обучили искусственный интеллект распознавать лица людей, изолировать их голоса и подавлять посторонние шумы.
Таким образом система может выделять из толпы шумящих людей необходимого человека и проводить распознавание его голоса в режиме реального времени. Это стало возможно благодаря тому, что инженеры Google «натаскали» ИИ на более чем 100 000 видеолекциях и разговорных видео с YouTube с фоновым шумом. Новая разработка, по словам Google, может быть использована, например, для улучшения качества видеочатов, чтобы во время группового общения пользователь смог сосредоточиться на одном собеседнике.