Скажем, я выполняю вычисления на суперкомпьютере на 100 000 ядер в течение 4 часов на http://www.nersc.gov/users/computational-systems/edison/configuration , обмениваясь по сети примерно 4 ПБ данных и выполняя около 4 ТБ I / О. Все вычисления являются целочисленными, поэтому результаты либо правильные, либо неправильные (без промежуточных числовых ошибок).
Предполагая, что код правильный, я хотел бы оценить вероятность того, что вычисления неверны из-за аппаратного сбоя. Какой хороший способ пойти по этому поводу? Есть ли хорошие источники для чисел, необходимых для такой оценки?