Как мы знаем, процессор представляет собой миллиарды транзисторов на одной миниатюре, что если один из транзисторов сломается?
Есть ли у процессора механизм автоматического восстановления?
Как мы знаем, процессор представляет собой миллиарды транзисторов на одной миниатюре, что если один из транзисторов сломается?
Есть ли у процессора механизм автоматического восстановления?
Ответы:
Все просто, мы тестируем их перед тем, как продавать и выкидываем плохие.
Есть много способов сделать это - разные люди делают разные вещи, часто используют комбинацию:
некоторые тесты проводятся на скорости, чтобы убедиться, что они проходят достаточно быстро.
другие тесты включают режим, который превращает некоторые или все триггеры в чипе в гигантские регистры последовательного сдвига, мы синхронизируем известные данные в эти цепочки, затем запускаем чип на один такт, а затем сканируем новые результаты и проверяем их соответствие наши предсказанные результаты - инструменты автоматического тестирования генерируют минимальный набор «векторов сканирования», которые будут проверять каждый случайный вентиль или транзистор на чипе - другие векторы проводят специальные тесты блоков оперативной памяти,
другие проверяют, что все внешние провода правильно соединены
мы уверены, что это не тянет нездоровое количество тока
Тестирование времени стоит денег, мы иногда проводим простое тестирование на наличие очевидных мертвых чипов перед их упаковкой, чтобы отбросить плохие, а затем проводим дополнительное тестирование после завершения упаковки.
Чтобы немного рассказать о том, что говорили другие: существует проверка, а после нее - классификация чипов.
Транзисторы в процессорах имеют тенденцию показывать свои проблемы на более высоких частотах, поэтому обычно делают один процессор, а затем продают его как несколько различных продуктов. Более дешевые процессоры - фактически поврежденные версии дорогих процессоров. Другим вариантом является отключение определенных частей процессора. Например, AMD сделала процессоры с ядром BArton. Также были проданы процессоры с ядром Thorton. Тортон не был новым ядром. Вместо этого половина кэша L2 была повреждена и отключена. Таким образом, AMD произвела некоторое восстановление на процессорах, которые в противном случае были бы потрачены впустую.
То же самое произошло с 3-х ядерными процессорами AMD. Первоначально это были 4-ядерные процессоры, но одно из ядер было признано неисправным, поэтому оно было отключено.
Ответ на ваш вопрос: «Нет». В настоящее время нет никаких методов автоматического восстановления, для аппаратных сбоев.
Производители проектируют свои процессы, чтобы получить максимальную доходность (в долларах) от своих пластин. Сокращая транзисторы, они могут разместить больше функциональности в меньшей области. Это можно рассматривать как большее количество чипов (с одинаковой функциональностью) на одну пластину. По мере того как размер чипа уменьшается, вы можете получить больше их из пластины, но по мере того, как они уменьшаются, больше из них получается плохо. Производители принимают это и постоянно расширяют возможности технологий, чтобы уменьшить количество чипов. То, что говорит им, что они находятся на краю конверта, это плохие фишки.
Если компания может уменьшить размер компонента до 70% от старого размера, она может получить примерно в 2 раза больше чипов на пластине. Если их доходность по старому процессу составляла 95% (скажем, 95 хороших фишек из 100 на пластине), а их доходность по новому процессу составляла 75% (150 хороших фишек из 200 на пластине), они зарабатывали деньги, собираясь новый процесс.
В маленьких узлах каждый «транзистор» имеет 2 входа, если только у вас нет памяти, такой как SRAM. Если один не работает, у вас просто медленный водитель. Для SRAM, если он не пройдет, вы просто «взорвите» строку. Если оба полевых транзистора на транзисторе выйдут из строя, у вас будет очень дорогой кусок песка, но лично у меня такого никогда не было. Современные FinFET настолько малы, что из-за характера литографии и вероятности возникает куча производственных проблем (в основном, проблем). Вы обнаружите, что первым делом о новых процессах являются FPGA, потому что вы можете просто «взорвать» плохие ячейки и изменить график маршрутизации. Я не могу дать вам цифры, но вы можете догадаться, что, как мир x86 делает биннинг, дела редко идут идеально.
Вот иллюстрация макета ячейки XOR:
Зеленые полосы слева / справа - плавники, а красные - поли. Блюз - цветной металл на уровне 1.
Коммерческие процессоры не имеют механизма автоматического восстановления, но в академических кругах и специальных прикладных процессорах они существуют. Я создал несколько специализированных компонентов, которые используют асинхронную архитектуру для решения проблем с часами, которые возникают из-за плохих затворов при разрушении оксида дыры в качестве горячего носителя, когда вы просто получаете один действительно медленный транзистор.
Видимо времена изменились. Многие из пятилетних ответов на этот вопрос больше не отражают современное состояние, а некоторые не были точными тогда.
Транзисторы и другие устройства на кремнии достаточно стабильны после изготовления, при условии, что ИС не перегревается.
Вот что сейчас делается в современном процессе производства микросхем для минимизации дефектов:
Ошибки программирования в формальной спецификации процессора более вероятны, чем отказы конкретного транзистора.
В то время как обычные процессоры не имеют ничего общего с возможностью автоматического восстановления, также была работа над самовосстанавливающимися процессорами в качестве контрмеры для космических лучей. Космические лучи могут откладывать достаточно энергии в ЦП или ОЗУ, чтобы вызвать перевороты.
Как отмечается в комментариях, критически важные системы в течение длительного времени использовали несколько процессоров для проверки. Шаттл, в 1976 году , в качестве примера, использовал пять компьютеров, четыре из которых бежали ту же программу и «голосовали» по всем решениям управления полетом для обеспечения безопасности.
Большинство современных процессорных транзисторов представляют собой полевые транзисторы. Они имеют преимущество в получении сопротивления исток / сток при начале перегрузки. Это один из факторов, который позволяет создавать МОП-транзисторы высокой мощности, помещая их параллельно. Нагрузка распределяется автоматически. Это может быть фактором, помогающим распространять проблемы. Но я думаю, что это действительно проще, чем это.
Как и в случае с большинством электронных компонентов, если вы управляете ими в рамках спецификации, они прослужат довольно долго. Когда микропроцессор сделан, есть два фактора для стоимости. Просто пространство на кремнии и, из-за сложности, реальная доходность. Не все чипы работают после изготовления. Однако, как только он сделан и проходит проверку, вы знаете, что транзисторы хороши. Если их использовать в рамках спецификации, есть вероятность, что они останутся хорошими.
Вы когда-нибудь задумывались, почему один и тот же чип иногда продается с разной скоростью? А вы заметили, что иногда одна и та же архитектура чипа GPU продается с разным количеством внутренних блоков?
Нет способа исправить аппаратный дефект на уровне кремния, но со временем дизайнеры научились решать проблему увеличения производительности . Без предвидения, доход зависит исключительно от качества изготовления. Однако, если вы умны, вы можете восстановить некоторые плохие фишки.
Например, предположим, что у вас есть 18-ядерный чип, который работает более или менее независимо. Во время тестирования вы сортируете идеальные чипы и выпускаете их как модель A18. Большинство неисправных чипов имеют только одну ошибку, поэтому они будут работать нормально, пока неисправное ядро отключено. Вы продаете их как модель A17 по несколько более низкой цене, а те, которые имеют два плохих ядра, продаются как модель A16 по более низкой цене.
То же самое можно сказать и о скорости чипа. Идеально изготовленные микросхемы будут способны работать на скоростях, превышающих проектные характеристики, но микросхемы с проблемами могут этого не делать. Они продаются с более низкой скоростью.
Этот метод значительно увеличит общую урожайность и поэтому довольно часто встречается. Например, PlayStation 3 имеет 8 аппаратных блоков SPE, но один из них всегда отключен для учета проблем с доходностью.
Есть ли у процессора механизм автоматического восстановления?
Нет, как объяснено выше. Однако их кэши, особенно L2 и L3, могут иметь дополнительную оперативную память. Когда деталь тестируется на заводе, неисправные блоки ОЗУ могут быть удалены, а дополнительные блоки ОЗУ использованы.
В общем, нет, вы покрываете плохие транзисторы через экран чипа, и вы ожидаете относительно небольшой процент потерь после этого. Чип-бизнес существует уже несколько десятилетий, и у него есть множество хитростей для управления этим (и да, иногда один из хитростей - просто выпустить плохие детали и заменить их бесплатно или позволить клиентам быть несчастными).
Для радиационно-стойких сред (космоса) вы, скорее всего, будете голосовать трижды, у каждого «бита» фактически есть три бита, которые голосуют за один. требуется только две трети голосов, чтобы определить настройку бита. таким образом, транзисторы в другой трети могут испортиться и в конечном итоге будут работать с полной дозой. но первоочередная задача - расстроить одно событие. Эти микросхемы и системы разработаны для этих сред сверху вниз, кремний, аппаратное обеспечение, программное обеспечение и т. Д. И они используют старые проверенные и настоящие технологии, а не ультрасовременные, так что количество транзисторов и размер транзисторов взяты из лет назад.
Ожидается, что COTS будет сбиваться и время от времени провалится.
Это может показаться чудом, но есть ряд механизмов, используемых для уменьшения количества отказов транзисторов. Однако, в зависимости от типа отказа, с которым сталкивается транзистор, и от того, где ЦП может работать, а может и не работать, иногда при определенных условиях.
В настоящее время часто не существует встроенного механизма автоматического восстановления, но проводится много исследований по реконфигурируемым вычислениям, резервированию и другим методам, чтобы минимизировать эту проблему.