Как процессоры могут быть стабильными, когда у них так много транзисторов?


10

Как мы знаем, процессор представляет собой миллиарды транзисторов на одной миниатюре, что если один из транзисторов сломается?

Есть ли у процессора механизм автоматического восстановления?


6
На самом деле более крупные в настоящее время содержат миллиарды транзисторов.
звездно-голубой

6
«стабильный», вероятно, не то слово, так как это больше указывает на такие вопросы, как метастабильность. Лучшим выбором для этой темы были бы слова типа «без дефектов» или «доходность». Или вы могли бы спросить о стабильности производственного процесса, а не о полученных чипах.
Крис Страттон

2
@ChrisStratton, я думаю, что OP может спрашивать больше о надежности, чем доходности.
Фотон

1
Если один из транзисторов сломается, вы выбросите чип. Там нет избыточности (за исключением некоторых конкретных приложений) и нет вариантов ремонта.
Дмитрий Григорьев

Ответы:


18

Все просто, мы тестируем их перед тем, как продавать и выкидываем плохие.

Есть много способов сделать это - разные люди делают разные вещи, часто используют комбинацию:

  • некоторые тесты проводятся на скорости, чтобы убедиться, что они проходят достаточно быстро.

  • другие тесты включают режим, который превращает некоторые или все триггеры в чипе в гигантские регистры последовательного сдвига, мы синхронизируем известные данные в эти цепочки, затем запускаем чип на один такт, а затем сканируем новые результаты и проверяем их соответствие наши предсказанные результаты - инструменты автоматического тестирования генерируют минимальный набор «векторов сканирования», которые будут проверять каждый случайный вентиль или транзистор на чипе - другие векторы проводят специальные тесты блоков оперативной памяти,

  • другие проверяют, что все внешние провода правильно соединены

  • мы уверены, что это не тянет нездоровое количество тока

Тестирование времени стоит денег, мы иногда проводим простое тестирование на наличие очевидных мертвых чипов перед их упаковкой, чтобы отбросить плохие, а затем проводим дополнительное тестирование после завершения упаковки.


1
«Это просто, мы проверяем их, прежде чем продать их, и выбрасываем плохие». Если бы это была единственная система качества, вы, вероятно, имели бы доходность 0,00000000001% с 1 миллиардом транзисторных устройств
Федерико Руссо

2
Это действительно так просто; Хитрость заключается в том, что заранее требуется очень большое количество симуляций и правил, чтобы убедиться, что ваша доходность приемлема. В самой логике процессора редко бывает избыточность; иногда вы получаете немного избыточности в оперативной памяти на кристалле.
pjc50

Если конструкция верна, ваши индивидуальные сбои происходят из-за дефектов материала, загрязнения, технологических ошибок и т. Д. Хотя используются только несколько размеров пластин, более крупные ИС стоят дороже, чем их пропорциональный размер, потому что вероятность дефекта увеличивается с ростом площадь. В некоторых случаях у вас может быть чип с большим количеством функциональных единиц, чем он иногда продается, так что он все еще может быть товарным, если он плохой, но это ограничено. Иногда вы можете купить FPGA со скидкой, которые тестируются только на работу, используемую определенным файлом конфигурации, а не на работу с произвольным файлом.
Крис Страттон

2
Я думаю, вы забыли упомянуть таких производителей, как AMD, продающих процессоры с плохими ядрами, как другую модель с заблокированным плохим ядром. Это своего рода избыточность или, возможно, умный маркетинг.
akaltar

Если кто-то когда-нибудь задумывался о том, как поставляются запчасти для серого рынка, он должен знать, что больше нет. Я работал над программным обеспечением для чип-потрясающих систем, и автоматическое тестирование, как описано здесь, - это огромная часть затрат времени и денег для заводов.

12

Чтобы немного рассказать о том, что говорили другие: существует проверка, а после нее - классификация чипов.

Транзисторы в процессорах имеют тенденцию показывать свои проблемы на более высоких частотах, поэтому обычно делают один процессор, а затем продают его как несколько различных продуктов. Более дешевые процессоры - фактически поврежденные версии дорогих процессоров. Другим вариантом является отключение определенных частей процессора. Например, AMD сделала процессоры с ядром BArton. Также были проданы процессоры с ядром Thorton. Тортон не был новым ядром. Вместо этого половина кэша L2 была повреждена и отключена. Таким образом, AMD произвела некоторое восстановление на процессорах, которые в противном случае были бы потрачены впустую.

То же самое произошло с 3-х ядерными процессорами AMD. Первоначально это были 4-ядерные процессоры, но одно из ядер было признано неисправным, поэтому оно было отключено.


2
Весьма распространено создание микросхемы с функциями, которые можно отключить с помощью плавких предохранителей. Простая экономия выхода чипа: если мы сможем спасти весь или часть чипа, запустив его медленнее или отключив функцию, которая не прошла тестирование, мы сможем возместить часть стоимости этой части, а не бросить ее целиком. Вы также можете вернуться к Intel 386 SX и DX в качестве примеров. и почти каждый процессор оценивается по скорости. более медленные - это детали, которые выходили из строя на более высоких скоростях.
old_timer

2
Нет, не 386SX / 386DX. Эти чипы имеют совершенно другой интерфейс шины. Вы не просто отключаете часть 386DX, чтобы получить 386SX. То, что вы говорите, верно для 486DX / 486SX, последний отключен FPU.
Майкл Керхер

6

Ответ на ваш вопрос: «Нет». В настоящее время нет никаких методов автоматического восстановления, для аппаратных сбоев.

Производители проектируют свои процессы, чтобы получить максимальную доходность (в долларах) от своих пластин. Сокращая транзисторы, они могут разместить больше функциональности в меньшей области. Это можно рассматривать как большее количество чипов (с одинаковой функциональностью) на одну пластину. По мере того как размер чипа уменьшается, вы можете получить больше их из пластины, но по мере того, как они уменьшаются, больше из них получается плохо. Производители принимают это и постоянно расширяют возможности технологий, чтобы уменьшить количество чипов. То, что говорит им, что они находятся на краю конверта, это плохие фишки.

Если компания может уменьшить размер компонента до 70% от старого размера, она может получить примерно в 2 раза больше чипов на пластине. Если их доходность по старому процессу составляла 95% (скажем, 95 хороших фишек из 100 на пластине), а их доходность по новому процессу составляла 75% (150 хороших фишек из 200 на пластине), они зарабатывали деньги, собираясь новый процесс.


5
Для некоторых типов микросхем, таких как флэш-память NAND, производители обычно выдвигают огибающую за пределы точки, в которой микросхемы с нулевым дефектом будут нормой, но большинство сбоев будут иметь несколько предсказуемые характеристики, и ожидается, что устройства, использующие микросхемы обойти их.
суперкат

3

В маленьких узлах каждый «транзистор» имеет 2 входа, если только у вас нет памяти, такой как SRAM. Если один не работает, у вас просто медленный водитель. Для SRAM, если он не пройдет, вы просто «взорвите» строку. Если оба полевых транзистора на транзисторе выйдут из строя, у вас будет очень дорогой кусок песка, но лично у меня такого никогда не было. Современные FinFET настолько малы, что из-за характера литографии и вероятности возникает куча производственных проблем (в основном, проблем). Вы обнаружите, что первым делом о новых процессах являются FPGA, потому что вы можете просто «взорвать» плохие ячейки и изменить график маршрутизации. Я не могу дать вам цифры, но вы можете догадаться, что, как мир x86 делает биннинг, дела редко идут идеально.

Вот иллюстрация макета ячейки XOR: XOR

Зеленые полосы слева / справа - плавники, а красные - поли. Блюз - цветной металл на уровне 1.

Коммерческие процессоры не имеют механизма автоматического восстановления, но в академических кругах и специальных прикладных процессорах они существуют. Я создал несколько специализированных компонентов, которые используют асинхронную архитектуру для решения проблем с часами, которые возникают из-за плохих затворов при разрушении оксида дыры в качестве горячего носителя, когда вы просто получаете один действительно медленный транзистор.


3

Видимо времена изменились. Многие из пятилетних ответов на этот вопрос больше не отражают современное состояние, а некоторые не были точными тогда.

Транзисторы и другие устройства на кремнии достаточно стабильны после изготовления, при условии, что ИС не перегревается.

Вот что сейчас делается в современном процессе производства микросхем для минимизации дефектов:

  • Микросхемы тщательно тестируются как на уровне валидации и верификации конструкции, так и на отдельных образцах. В этом документе описываются некоторые процедуры тестирования для Pentium 4.
  • общий дизайн микросхем сейчас слишком сложен, чтобы полностью его проверить
  • Микросхемы имеют программируемый микрокод, который допускает ограниченную степень перепрограммируемости, если дефекты обнаружены после изготовления
  • современные микросхемы содержат избыточные кремниевые слои, позволяющие исправлять дефекты, обнаруженные в процессе производства
  • многие ЦП имеют избыточные аппаратные модули, будь то ядра ЦП, кэш-память или другие IP; если не все устройства функционируют, некоторые из них можно отключить и «связать» как части с более низкой стоимостью. Одним из примеров является то, что многоядерная ИС PS4 включает одно избыточное ядро , которое отключено для достижения более высокой производительности.
  • некоторые процессоры будут работать, но не на максимальной скорости; они могут быть проданы как более низкие, более дешевые процессоры
  • многие ЦП и ОЗУ используют память кодирования с исправлением ошибок (ECC) или выполняют исправление ошибок проверки сообщений на различных этапах передачи данных для обеспечения целостности
  • иногда процессоры выходят из строя таким образом, что это приводит к сбою системы, но не препятствует работе системы при перезагрузке (CMOS latchup)

Ошибки программирования в формальной спецификации процессора более вероятны, чем отказы конкретного транзистора.

В то время как обычные процессоры не имеют ничего общего с возможностью автоматического восстановления, также была работа над самовосстанавливающимися процессорами в качестве контрмеры для космических лучей. Космические лучи могут откладывать достаточно энергии в ЦП или ОЗУ, чтобы вызвать перевороты.

Как отмечается в комментариях, критически важные системы в течение длительного времени использовали несколько процессоров для проверки. Шаттл, в 1976 году , в качестве примера, использовал пять компьютеров, четыре из которых бежали ту же программу и «голосовали» по всем решениям управления полетом для обеспечения безопасности.


ECC и обнаружение ошибок использовались в течение достаточно долгого времени (для памяти и связи, для арифметических и подобных логических функций некоторые системы более высокого уровня обнаруживали ошибки в течение многих лет). Точно так же избыточное выполнение (пространственное или временное) использовалось для обнаружения ошибок в течение довольно продолжительного времени в системах, где стоимость оборудования / времени выполнения представляется оправданной.
Пол А. Клейтон,

@ PaulA.Clayton, если вы сделаете пост об Itanium, а затем о возможностях Xeon RAS, я бы с удовольствием проголосовал за это.
Александр Р.

2

Большинство современных процессорных транзисторов представляют собой полевые транзисторы. Они имеют преимущество в получении сопротивления исток / сток при начале перегрузки. Это один из факторов, который позволяет создавать МОП-транзисторы высокой мощности, помещая их параллельно. Нагрузка распределяется автоматически. Это может быть фактором, помогающим распространять проблемы. Но я думаю, что это действительно проще, чем это.

Как и в случае с большинством электронных компонентов, если вы управляете ими в рамках спецификации, они прослужат довольно долго. Когда микропроцессор сделан, есть два фактора для стоимости. Просто пространство на кремнии и, из-за сложности, реальная доходность. Не все чипы работают после изготовления. Однако, как только он сделан и проходит проверку, вы знаете, что транзисторы хороши. Если их использовать в рамках спецификации, есть вероятность, что они останутся хорошими.


2

Вы когда-нибудь задумывались, почему один и тот же чип иногда продается с разной скоростью? А вы заметили, что иногда одна и та же архитектура чипа GPU продается с разным количеством внутренних блоков?

Нет способа исправить аппаратный дефект на уровне кремния, но со временем дизайнеры научились решать проблему увеличения производительности . Без предвидения, доход зависит исключительно от качества изготовления. Однако, если вы умны, вы можете восстановить некоторые плохие фишки.

Например, предположим, что у вас есть 18-ядерный чип, который работает более или менее независимо. Во время тестирования вы сортируете идеальные чипы и выпускаете их как модель A18. Большинство неисправных чипов имеют только одну ошибку, поэтому они будут работать нормально, пока неисправное ядро ​​отключено. Вы продаете их как модель A17 по несколько более низкой цене, а те, которые имеют два плохих ядра, продаются как модель A16 по более низкой цене.

То же самое можно сказать и о скорости чипа. Идеально изготовленные микросхемы будут способны работать на скоростях, превышающих проектные характеристики, но микросхемы с проблемами могут этого не делать. Они продаются с более низкой скоростью.

Этот метод значительно увеличит общую урожайность и поэтому довольно часто встречается. Например, PlayStation 3 имеет 8 аппаратных блоков SPE, но один из них всегда отключен для учета проблем с доходностью.


1

Есть ли у процессора механизм автоматического восстановления?

Нет, как объяснено выше. Однако их кэши, особенно L2 и L3, могут иметь дополнительную оперативную память. Когда деталь тестируется на заводе, неисправные блоки ОЗУ могут быть удалены, а дополнительные блоки ОЗУ использованы.


1

В общем, нет, вы покрываете плохие транзисторы через экран чипа, и вы ожидаете относительно небольшой процент потерь после этого. Чип-бизнес существует уже несколько десятилетий, и у него есть множество хитростей для управления этим (и да, иногда один из хитростей - просто выпустить плохие детали и заменить их бесплатно или позволить клиентам быть несчастными).

Для радиационно-стойких сред (космоса) вы, скорее всего, будете голосовать трижды, у каждого «бита» фактически есть три бита, которые голосуют за один. требуется только две трети голосов, чтобы определить настройку бита. таким образом, транзисторы в другой трети могут испортиться и в конечном итоге будут работать с полной дозой. но первоочередная задача - расстроить одно событие. Эти микросхемы и системы разработаны для этих сред сверху вниз, кремний, аппаратное обеспечение, программное обеспечение и т. Д. И они используют старые проверенные и настоящие технологии, а не ультрасовременные, так что количество транзисторов и размер транзисторов взяты из лет назад.

Ожидается, что COTS будет сбиваться и время от времени провалится.


-1

Это может показаться чудом, но есть ряд механизмов, используемых для уменьшения количества отказов транзисторов. Однако, в зависимости от типа отказа, с которым сталкивается транзистор, и от того, где ЦП может работать, а может и не работать, иногда при определенных условиях.

В настоящее время часто не существует встроенного механизма автоматического восстановления, но проводится много исследований по реконфигурируемым вычислениям, резервированию и другим методам, чтобы минимизировать эту проблему.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.