Nvidia рекомендует пользователям активировать System Level Error-Correcting Code (ECC), так как видеокарты с памятью GDDR6 уязвимы перед атакой Rowhammer.
«Риск успешной эксплуатации уязвимости Rowhammer зависит от модели DRAM, платформы, архитектурных особенностей и настроек системы», — сообщает производитель.
Напомним, что оригинальную атаку Rowhammer еще в 2014 году придумали эксперты из университета Карнеги-Меллона. Ее суть сводилась к тому, что интенсивное воздействие на одни ячейки памяти может вызвать изменение состояния битов в соседних ячейках.
Так, ячейки памяти хранят информацию в виде электрических зарядов, которые определяют значение битов внутри как 1 или 0. Из-за повышенной плотности ячеек повторяющиеся «удары молотком» (когда приложение тысячи раз за доли секунды обращается к одним и тем же участкам) могут изменять состояние заряда в соседних рядах, то есть вызывать «переворачивание битов». Отсюда и происходит название Rowhammer.
Такие умышленные перевороты битов могут использоваться злоумышленниками, которые в итоге получат доступ к конфиденциальным данным, смогут расшифровать и подменить их, а также эксплуатировать проблему удаленно, повысить привилегии и так далее.
Выпущенная Nvidia рекомендация связана с новым исследованием, опубликованным экспертами из Университета Торонто. Специалисты продемонстрировали, что Rowhammer можно адаптировать для атаки на Nvidia A6000. Атака получила название GPUHammer.
Хотя проводить Rowhammer-атаку на GDDR6 сложнее — из-за большей задержки и более быстрого обновления по сравнению с DDR4 в обычной оперативной памяти, — исследователи доказали, что такие атаки на GPU в целом возможны.
«Мы запустили GPUHammer на Nvidia RTX A6000 (48 ГБ GDDR6), протестировали четыре банка памяти (DRAM) и зафиксировали восемь разных переворотов отдельных битов (сбои произошли во всех проверенных банках), — пишут специалисты. — Минимальное количество активаций (TRH), необходимое для возникновения переворота, составило около 12 000 — это соответствует прежним наблюдениям для DDR4. Используя эти перевороты, мы впервые провели атаку Rowhammer на GPU, которая снижает точность работы моделей машинного обучения».
Так, GPUHammer позволяет снизить точность ИИ-модели с 80% до 0,1% за счет всего одного переворота бита на GPU A6000.
Упомянутые выше коды коррекции ошибок (System Level Error-Correcting Codes, ECC) позволяют сохранять целостность данных, добавляя избыточные биты и исправляя единичные ошибки для поддержания надежности и точности данных.
Для видеокарт, предназначенных для рабочих станций и дата-центров, где VRAM работает с большими массивами данных и точными вычислениями, связанными с ИИ, System Level ECC должен быть включен, чтобы предотвратить критические ошибки.
В своем бюллетене безопасности Nvidia подчеркивает, что исследователи из Университета Торонто продемонстрировали «потенциальную атаку Rowhammer на Nvidia A6000 GPU с памятью GDDR6», где функция System Level ECC была отключена.
Помимо RTX A6000, Nvidia также рекомендует активировать System Level ECC для следующих продуктов.
Видеокарты для дата-центров:
- Ampere — A100, A40, A30, A16, A10, A2, A800;
- Ada — L40S, L40, L4;
- Hopper — H100, H200, GH200, H20, H800;
- Blackwell — GB200, B200, B100;
- Turing — T1000, T600, T400, T4;
- Volta — Tesla V100, Tesla V100S.
Видеокарты для рабочих станций:
- Ampere RTX — A6000, A5000, A4500, A4000, A2000, A1000, A400;
- Ada RTX — 6000, 5000, 4500, 4000, 4000 SFF, 2000;
- Blackwell RTX PRO;
- Turing RTX — 8000, 6000, 5000, 4000;
- Volta — Quadro GV100.
Встраиваемые и промышленные решения:
- Jetson AGX Orin Industrial;
- IGX Orin.
При этом в Nvidia отмечают, что более новые GPU, включая Blackwell RTX 50 Series (GeForce), Blackwell Data Center GB200, B200, B100 и Hopper Data Center H100, H200, H20 и GH200, оснащены встроенной ECC-защитой, которая не требует вмешательства со стороны пользователя.
Стоит отметить, что по оценке исследователей, включение System Level ECC может замедлить работу ИИ-моделей на 10%, а также снизить доступный объем памяти до 6,5% при любом типе нагрузки.