Две группы исследователей, независимо друг от друга, одновременно разработали технологии распознавания образов, которые способны описывать изображения на человеческом языке. Первая группа работала в Стэнфордском университете, а вторая — в компании Google.
Обе программы выполняют одинаковую задачу: распознавание объектов в кадре. После этого они составляют словесное описание кадра. Как показал эксперимент, в некоторых случаях это описание довольно точное и практически не отличается от описания человеком.
Ниже приведены примеры, как программное обеспечение распознаёт образы.
Человек: группа людей играет в Frisbee в парке.
Программа: группа молодых людей играет в игру Frisbee.
Человек: юный хоккеист играет на ледовом катке.
Программа: два хоккеиста сражаются за шайбу.
Работа исследователей из Стэнфордского университета опубликована на сайте университета, а доклад сотрудников Google — на arXiv.org.