Одиночные события больше не являются ни космическим, ни летательным аппаратом; мы наблюдаем, как они происходят на поверхности более десяти лет, а может быть, два.
Как уже упоминалось, по крайней мере, в космических приложениях мы имеем дело с расстройствами, используя тройное голосование (каждый бит на самом деле равен трем, и выигрывает две трети, поэтому, если есть один, который изменяет, другие два покроют его). И затем ECC или EDAC с очистителями , которые проходят через ОЗУ со скоростью, превышающей прогнозируемую частоту обновления одного события, чтобы убрать сбои одного события (те, которые фактически заставляют две трети голосовать неправильно).
Тогда есть общая доза; Со временем материал становится слишком радиоактивным, чтобы работать, поэтому вы используете достаточно материала, чтобы продлить срок службы автомобиля. Не то, о чем мы обычно беспокоимся на поверхности. (И защелка). Использование трех / нескольких наборов логики параллельно было / было способом попытаться не использовать традиционные радикальные технологии, и, ну, вы можете найти, насколько хорошо это работает.
Люди, которые раньше знали, как делать вещи для космоса, по большей части ушли на пенсию или переехали, поэтому у нас есть несколько программ, создающих космический мусор. Или рассматривая космос как земные продукты, вместо того, чтобы заставлять всех работать и иметь контролируемый повторный вход и выгорание, мы теперь ожидаем определенное количество космического мусора из каждого созвездия.
Мы видим расстраивания на поверхности. Любая карта памяти ( DRAM ), которую вы покупаете, имеет FIT, Failures In Time, и любой чип с ОЗУ (все процессоры, многие другие) также будет иметь спецификацию FIT (для блоков RAM (SRAM)). Оперативная память более плотная и использует меньшие транзисторы, поэтому она более восприимчива к расстройствам, внутренним или внешним. В большинстве случаев мы не замечаем и не заботимся о том, как память, которую мы используем для данных, просмотра видео и т. Д., Записывается, читается и не используется снова, пока она не отработала достаточно долго, чтобы расстроиться. Некоторая память, например, содержащая программу или ядро, более рискованна. Но мы давно привыкли к идее простой перезагрузки нашего компьютера или перезагрузки / перезагрузки нашего телефона (в некоторых телефонах / брендах вам придется периодически периодически вынимать аккумулятор). Были ли это расстроены или плохое программное обеспечение или комбинация?
Числа FIT для вашего отдельного продукта могут превышать срок службы этого продукта, но для большой фермы серверов вы учитываете все ОЗУ или микросхемы или что-то еще, а MTBF исчисляется годами или заказами после этого, днями или часами, где-то в ферма. И у вас есть ECC, чтобы покрыть то, что вы можете из них. А затем вы распределяете нагрузку обработки с помощью отказоустойчивости, чтобы охватить машины или программное обеспечение, которое не может выполнить задачу.
Стремление к твердотельному хранилищу и переход от вращающихся носителей создали проблему, связанную с этим. Хранилище, используемое для SSD (и других энергонезависимых хранилищ), чтобы получить его быстрее и дешевле, гораздо более волатильно, чем нам хотелось бы, и полагается на EDAC, потому что без него мы потеряли бы данные. Они добавляют много лишних битов и, в общем-то, все это делают, делая математику, чтобы сбалансировать скорость, стоимость и долговечность хранилища. Я не вижу, как мы возвращаемся; люди хотят больше энергонезависимого хранилища везде, которое помещается в крошечную упаковку и не доминирует в цене продукта.
Что касается нормальных цепей, с первых дней использования транзисторов для цифровых цепей до настоящего времени, мы проходим через линейную часть транзистора и используем его в качестве переключателя, мы ударяем его между рельсами с некоторым избытком, чтобы обеспечить его залипание , Как выключатель света на вашей стене, вы переворачиваете его более чем наполовину, а пружина помогает остальным и удерживает его там. Вот почему мы используем цифровой и не пытаемся жить в линейной области; они попробовали рано, но потерпели неудачу. Они не могли оставаться откалиброванными.
Поэтому мы просто вбиваем транзистор в его рельсы, и обе стороны сигнала установятся к следующему такту. Прилагаются большие усилия, и современные инструменты значительно лучше, чем они были при анализе конструкции микросхемы, чтобы увидеть, что по конструкции есть запас времени. Затем протестируйте каждый кристалл на каждой пластине (той и / или после упаковки), чтобы убедиться, что каждый чип хорош.
Технология чипов сильно зависит от статистики, основанной на экспериментах. Когда вы разгоняете свой ЦП, вы просто увеличиваете этот запас, оставаясь в пределах заявленной тактовой частоты, температуры и т. Д., И ваши шансы значительно ниже проблем. Процессор 3 ГГц xyz - это просто чип 4 ГГц, который вышел из строя на частоте 4 ГГц, но прошел на частоте 3 ГГц. Части оцениваются по скорости в основном с производственной линии.
Кроме того, существуют связи между микросхемами или платами, и они также подвержены проблемам, и много времени и усилий уходит на разработку стандартов, конструкций плат и т. Д., Чтобы уменьшить ошибки на этих интерфейсах. USB , клавиатура, мышь, HDMI , SATA и тд. Как и все следы на доске. На доске и за ее пределами возникают проблемы с перекрестными помехами; Опять же, многие инструменты доступны, если вы используете их, а также опыт во избежание проблем, во-первых, но еще один способ, при котором мы можем не видеть, что единицы и нули будут полностью задействованы.
Ни одна из технологий, даже космос, не идеальна. Оно должно быть достаточно хорошим, достаточный процент продукта должен покрывать достаточный ожидаемый срок службы продукта. Некоторый процент смартфонов должен сделать это как минимум два года, и все. У более старых литейных заводов или технологий больше экспериментальных данных, и они могут производить более надежный продукт, но он медленнее и не может быть новым дизайном, так что начните. Передовой край - это всего лишь азартная игра для всех.
К вашему конкретному вопросу, транзисторы на каждом конце сигнала быстро проталкиваются через их линейную область и наклоняются в одну из направляющих. Анализ выполняется на каждом комбинационном пути, чтобы определить, что он установится до того, как часы в конце пути зафиксируют его, так что он действительно будет равен нулю или единице. Анализ основан на экспериментах. Первые чипы продуктовой линейки вытесняются за пределы дизайна, графики Schmoo сделаны, чтобы определить, есть ли запас в дизайне. Изменения в процессе сделаны и / или найдены отдельные кандидаты, которые представляют медленные и быстрые фишки. Это сложный процесс, и у некоторых больше материала, у некоторых меньше, он работает быстрее, но использует больше энергии или работает медленнее и т. Д.
Вы также подталкиваете их к полям. И в основном получаю теплое нечеткое ощущение, что дизайн вполне подходит для запуска в производство. JTAG / сканирование границы используются для прогона случайных паттернов через микросхемы между каждым фиксированным состоянием, чтобы увидеть, что комбинационные пути являются надежными для проекта. И там, где есть проблемы, могут также проводиться некоторые направленные функциональные тесты. Дальнейшее тестирование первого кремния и, возможно, случайное тестирование, чтобы убедиться, что продукт хорош. Если / когда происходят сбои, это может подтолкнуть вас к более функциональным испытаниям на производственной линии. Это сильно зависит от статистики / процентов. 1/1000000 плохих выходить может быть в порядке или 1/1000 или что-то еще; это зависит от того, сколько вы думаете, вы будете производить из этого чипа.
Уязвимости, как упомянуто здесь и с другими. Во-первых, сам чип, насколько хорош дизайн и процесс, насколько близко к краю - самый слабый путь конкретного чипа в купленном вами продукте. Если слишком близко к краю, то изменение температуры или другое может вызвать проблемы синхронизации, и биты зафиксируют данные, которые не установились в единицу или ноль. Тогда есть одиночные события. И тогда есть шум. опять материал уже упоминался ...