Японский энтузиаст по имени Нао Токуи придумал программу, в основе которой лежит нейросеть, способная подбирать наиболее удачные звуки и музыку, чтобы озвучивать картины художников. В ходе тестирования нейросеть справилась практически со всеми изобразительными произведениями, подобрав максимально верные звуки для них.
Нейросеть, которая легла в основу программы, называется Soundnet. Она способна определить, что изображено на видео, и затем подобрать подходящую музыку для описания картины. Если, например, предложить нейросети для распознавания видео с изображением собак, то программа включит звук собачьего лая. Точно по такому же плану программа работает с изображением детей, взрослых людей, мотоциклов, спорта и музыкальных концертов, и прочими всевозможными объектами.
Для наполнения программы Нао Токуи использовал два источника. С сервиса Flickr он взял различные видеоролики, а звуки из бесплатного каталога Freesound. Все файлы были пропущены энтузиастом через Soundnet (это нейросеть, о которой идёт речь). Благодаря Нао Токуи для не новой нейросети было придумано совершенно новое увлекательное применение.