Упомянутая вами бумага CMU-Intel показывает (на странице 5), что частота ошибок в значительной степени зависит от номера детали / даты изготовления модуля DRAM и варьируется в 10-1000 раз. Есть также некоторые признаки того, что проблема гораздо менее выражена в недавно выпущенных (2014 г.) чипах.
Указанное вами число «9,4x10 ^ -14» использовалось в контексте предложенного теоретического механизма смягчения, называемого «PARA» (который может быть аналогичен существующему механизму смягчения pTRR (pseudo Target Row Refresh)) и не имеет отношения к вашему вопрос, потому что PARA не имеет ничего общего с ECC.
Во второй статье CMU-Intel (стр. 10) упоминается влияние различных алгоритмов ECC на уменьшение ошибок (в 10–10 - 5 раз, возможно, в гораздо большей степени благодаря сложным тестам памяти и «защитным полосам»).
ECC эффективно превращает Row Hammer в DOS-атаку. 1-битные ошибки будут исправлены ECC, и как только будет обнаружена неисправимая 2-битная ошибка, система остановится (при условии SECDED ECC).
Решение состоит в том, чтобы купить оборудование, поддерживающее pTRR или TRR. Смотрите текущее сообщение в блоге Cisco о Row Hammer . По крайней мере, у некоторых производителей, кажется, есть один из этих механизмов смягчения, встроенный в их модули DRAM, но держите его глубоко скрытым в своих спецификациях. Чтобы ответить на ваш вопрос: спросите продавца.
Более быстрая частота обновления (32 мс вместо 64 мс) и агрессивные интервалы Patrol Scrub также помогают, но могут оказать влияние на производительность. Но я не знаю серверного оборудования, которое бы позволяло точно настраивать эти параметры.
Я полагаю, что на стороне операционной системы мало что можно сделать, кроме как завершать подозрительные процессы с постоянным высоким использованием ЦП и большим количеством кеш-памяти.