Хакер #305. Многошаговые SQL-инъекции
Системы машинного зрения значительно усовершенствовались в последние годы. Особенно бурный прогресс — в распознавании лиц. Оно и понятно, ведь это самое коммерчески перспективное применение технологии. В идеальных условиях освещения, при одинаковом положении в кадре и одинаковом выражении лиц точность алгоритмов уже давно превосходит человеческую. Но реальный мир не идеален. Люди носят шляпы и очки, кривляются, меняют прически и отворачиваются от объектива. Поэтому разработчики упорно решают проблему распознавания лиц на произвольных фотографиях, хотя бы с той же точностью, что и человек.
В качестве тестовой базы для проверки новых алгоритмов в этой области стандартно используется база Labelled Faces in the Wild, состоящая из 13 000 фотографий почти 6000 известных людей, собранных по всему интернету. Сравнивая произвольные пары фотографий, люди легко находят соответствия или несоответствия и дают верный ответ, в среднем, в 97,53% случаев. Программы никогда не могли приблизиться к такому результату. До сегодняшнего дня.
Ученые из Китайского университета Гонконга утверждают, что их программа впервые превзошла этот показатель. Разработанный алгоритм GaussianFace нормализует все лица на фотографиях, преобразуя их во фронтальное изображение 150х120 пикселов, по пяти базовым опорным точкам: расположение обоих глаз, носа и уголков рта. Затем изображение разделяется на несколько перекрывающихся фрагментов 25х25 пикселов, которые сравниваются по отдельности. После тренировки на большом количестве картинок из четырех других баз данных, в том числе Multi-PIE и Life Photos, программа GaussianFace проходит тесты Labelled Faces in the Wild с показателем 98,52%.
Теперь перед разработчиками встают задачи по совершенствованию распознавания лиц в более сложных ситуациях. Люди могут использовать многочисленные подсказки, например, конфигурацию шеи и плеч. Программы тоже должны этому научиться.
Некоторые пары фотографий, на которых алгоритм распознал одинаковые лица