Сотрудники лаборатории искусственного интеллекта MIT представили нейронную сеть под названием Temporal Relation Network (TRN), способную предсказывать некоторые события на видео, распознавая не само действие, а намерение его совершить.
Как сообщается, обрабатывая видеозапись, TRN не анализирует каждый кадр, а выделяет базовые планы и группирует их в кластеры. После этого содержимое полученных кластеров проверяется на соответствие известным системе видам манипуляций.
Ученые утверждают, что точность работы искусственного интеллекта составляет 95%. Причем Temporal Relation Network предсказывает не только простые действия, но и достаточно сложные: например, нейросеть может распознать «намерение открыть книгу». Кроме того, по словам разработчиков, по балансу между точностью и производительностью TRN превосходит известные аналоги.
Для обучения создатели Temporal Relation Network использовали три набора данных: самый крупный, Jester, содержащий 150 000 видео и 27 движений руками, а также Something-Something от компании TwentyBN и Charades, разработанный Университетом Карнеги — Меллона.
Впрочем, нужно отметить, что созданная в MIT нейросеть распознает манипуляции, но не сами объекты. Разработчики намерены устранить этот недостаток в будущем. Помимо этого, сотрудники института планируют научить ИИ определять физические свойства объектов, запечатленных в видеороликах.
По мнению исследователей, их наработки в будущем позволят роботам лучше ориентироваться в пространстве в режиме реального времени.
«Мы считаем, что способность роботов предвидеть и прогнозировать результаты действий пользователей упростят взаимодействие с ними», — заявили ученые.