Прошло чуть больше полугода с тех пор, как представленная Microsoft система распознавания речи сравнялась по показателям ошибок с профессиональным стенографистом — человеком (уровень ошибок составляет 5,9%). Однако разработчики Microsoft не прекратили работу в этом направлении и уже сейчас презентовали очередной успех системы. Теперь она выдаёт всего 5.1 % ошибочных слов при расшифровке речи. Таким образом, можно смело утверждать, что ИИ превзошёл возможности человека.
Увеличение точности распознавания человеческой речи, произошедшее за последний год в Microsoft, превысило 12 процентов. В результате усовершенствований нейронная сеть смогла анализировать даже контекст сказанного человеком, прогнозировать будущие слова или даже фразы. Данное достижение значительно повысило эффективность расшифровки аудиозаписи в автоматическом режиме. Тестирование нейросети Microsoft осуществляется в рамках программы Switchboard, предусматривающей распознавание речи по 2400 ранее записанным телефонным разговорам, преимущественно на общие темы.
Уровень ошибки в 5.1 %, достигнутый ИИ, соответствует результативности работы нескольких экспертов-людей, прослушавших записанный фрагмент несколько раз и обсуждавших услышанный текст между собой. Использование столь высоких достижений нейронной сети может быть применено для улучшения работы голосового помощника Cortana или в офисном пакете Microsoft для презентаций на нескольких языках.
Показав уникальный результат точности распознавания речи с ошибкой всего в 5.1 %, Microsoft опередила ближайшего конкурента – компанию IBM, которая на своей системе Watson показывала результат в 5.5%. Разработчики из Microsoft не собираются останавливаться на достигнутом. Следующим этапом будет улучшение восприятия голоса при наличии акустических помех, шумов, совершенствование способности распознавания речи с акцентом или расшифровки диалектов. Кроме того, специалисты поставили главную цель — умение ИИ понимать сказанное, а не просто автоматически переводить речь человека.