На хакерском форуме опубликована ссылка на скачивание дампа, полученного из внутреннего репозитория компании «Яндекс». Общий размер утечки составил 44,7 ГБ в сжатом виде, и дамп содержит исходники множества продуктов и сервисов компании, в том числе «Почты», «Такси», «Диска» и «Алисы». В «Яндексе» уже подтвердили факт утечки, а СМИ сообщают, что данные «слил» инсайдер.
Дамп распространяется через торренты и содержит отдельные архивы (.tar.bz2), по названиям которых можно идентифицировать многие сервисы «Яндекса». Так, по информации «Хабра», самые большие архивы, это frontend (18,26 ГБ), classfields (4,67 ГБ), market (4 ГБ), taxi (3,3 ГБ) и portal (2,35 ГБ). Все файлы утечки датированы 24 февраля 2022 года.
Почти полный список файлов (за исключением архивов frontend и classifieds) можно найти здесь.
«Хабр» сообщает, что в целом срезы Git-репозиториев «Яндекса» содержат исходные коды 79 сервисов и проектов компании, среди которых: поисковый движок (фронтенд и бэкенд), бот индексации страниц, платформа web-аналитики Yandex Metrika, картографическая система Yandex Maps, голосовой помощник «Алиса», информационная система службы поддержки, Yandex Phone, рекламная платформа Yandex Direct, почтовый сервис Yandex Mail, хранилище Yandex Disk, сеть доставки контента, торговая площадка Yandex Market, бизнес-сервисы Yandex360, облачная платформа Yandex Cloud, платежная система Yandex Pay, «Яндекс Поиск», «Яндекс Метрика», «Яндекс Такси», «Яндекс Путешествия», «Яндекс 360» и внутренняя система диагностики Solomon.
В пресс-службе «Яндекса» уже подтвердили факт утечки, подчеркнув, что взлома компании не было, а репозитории нужны лишь для работы с кодом и не предназначены для хранения персональных данных пользователей.
«Служба безопасности "Яндекса" обнаружила в открытом доступе фрагменты кода из внутреннего репозитория. Однако, их содержимое отличается от текущей версии репозитория, которая используется в сервисах "Яндекса". <...> Мы проводим внутреннее расследование, о причинах попадания фрагментов исходного кода в открытый доступ, но не видим какой-либо угрозы для данных наших пользователей или работоспособности платформы», — сообщили в компании.
Как сообщили «Хабру» собственные источники, фрагменты исходного кода попали в открытый доступ по вине одного из сотрудников компании.
Исследователи уже изучают дамп, и сообщают, что «пользовательских данных, в первом приближении, там нет». Другие интересные выводы и наблюдения исследователей таковы:
Очень много самописных внутренних инструментов, много документации. Интересно для изучения, чтобы понимать как работают большие компании и их IT-инфраструктура. Кажется, что в Яндексе есть сильный перевес в пользу «напишем сами» даже тогда, когда другие компании обошлись бы опенсорсом.
Яндекс массово использует Телеграм в качестве рабочего мессенджера. В файлах есть куча ссылок на чатики в телеграме, по которым можно было прийти и вступить. Сразу после новости о сливе большую часть из них подчистили, но не все.
В репозитории Алисы тоже много интересного. Именно самой говорящей модели Алисы вроде нет, но есть много разных скриптов для ее обучения, фрагментов обучающих данных и т.п. Есть выборки реальных (анонимных) запросов пользователей к Алисе, очень интересные.
В репозитории «Почты» есть код, который занимается разметкой данных из писем. В том числе анализируются письма с подписками на разные онлайн-сервисы, письма с чеками. Зачем именно - неясно, возможно Яндекс так мониторит конкурентов по рынку?
Разработчик Арсений Шестаков, так же изучающий этот «слив», пишет, что в дамп вошло только содержимое Git-репозиториев, тоже подтверждая, что личные данные в нем отсутствуют. Шестаков обнаружил несколько ключей API, но предполагает, что они использовались только для тестовых развертываний. Однако, по словам исследователя, некоторые из архивов наверняка содержат актуальный исходный код для некоторых сервисов компании, а также документацию, указывающую на реальные URL-адреса в интранете.