Разработчики AMD сообщили, что в процессорах AMD EPYC 7002 выявлена необычная ошибка. Баг приводит к тому, что после 1044 дней непрерывной работы (2 года и 10 месяцев) процессор может зависнуть, из-за чего сервер придется перезагрузить. В AMD предупредили, что не смогут устранить эту проблему.
Производитель сообщает, что проблема связана с тем, что ядру не удается выйти из энергосберегающего состояния CC6, если последняя перезагрузка системы была более 1044 дней назад. Причем время сбоя может варьироваться в зависимости от частоты REFCLK.
Пользователь Reddit под ником acid_migrain предполагает, что проблема на самом деле проявляется не через 1044 дня, а через 1042 дня и 12 часов. Согласно его теории, зависание происходит, когда TSC [Time Stamp Counter], отсчитывающий число рабочих циклов после сброса, достигает отметки 0x380000000000000, работая на частоте 2800 МГц (2800 * 10**6 * 1042,5).
В качестве решения проблемы AMD предлагает администраторам либо перезагружать сервер чаще, чем раз в 1044 дней, что «обнулит» ЦП и перезапустит 1044-дневный «таймер», либо отключать энергосберегающий режим CC6.