Почему именно чипы начинают работать со сбоями после перегрева?


26

Как только микросхема перегревается, она может начать работать со сбоями - например, многие программы могут начать выходить из строя при перегреве некоторых или всех частей компьютера.

Что именно происходит, что делает чипы неисправными при перегреве?

Ответы:


26

Расширить другие ответы.

  1. Более высокие токи утечки: это может привести к большему количеству проблем с нагревом и может легко привести к тепловому разбегу.
  2. Соотношение сигнал / шум будет уменьшаться по мере увеличения теплового шума : это может привести к более высокой частоте появления ошибок по битам, это приведет к неправильному чтению программы и неверному толкованию команд. Это может вызвать «случайную» операцию.
  3. Присадки становятся более мобильными при нагревании. Когда у вас полностью перегретый чип, транзистор может перестать быть транзистором. Это необратимо
  4. Неравномерный нагрев может привести к разрушению кристаллической структуры Si. Нормальный человек может испытать, подвергая стекло через температурный шок. Это будет круто, немного экстремально, но это иллюстрирует суть. Это необратимо
  5. Память ПЗУ, которая зависит от заряженной изолированной пластины, может потерять память при повышении температуры. Тепловая энергия, если она достаточно высока, может позволить электронике покинуть заряженный проводник. Это может повредить память программы. Это регулярно случается со мной во время пайки микросхем, которые уже запрограммированы, когда кто-то перегревает чип.
  6. Потеря транзисторного контроля: при достаточном количестве тепловой энергии ваши электроны могут преодолеть запрещенную зону. Полупроводник - это материал, который имеет небольшую запрещенную зону, так что он легко соединяется с легирующими примесями, но достаточно большой, чтобы требуемая рабочая температура не превращала его в проводник, где зазор меньше, чем тепловая энергия материала. Это упрощение и является основой другого поста, но я хотел добавить его и выразить своими словами.

Есть больше причин, но они делают несколько важных.


Кажется вероятным, что отказы синхронизации будут одной из «дополнительных причин» (сопротивление провода имеет тенденцию увеличиваться с температурой, поэтому пути синхронизации с ограничением сопротивления и емкости могут нарушать их гарантированное время наихудшего случая). Конечно, DRAM также ускоряет утечку заряда (например, флэш-память) при более высоких температурах; без компенсации частоты обновления данные могут быть потеряны.
Пол А. Клейтон

13

Основная проблема, связанная с работой микросхемы при высоких температурах, заключается в значительном увеличении тока утечки отдельных транзисторов. Ток утечки может увеличиваться до такой степени, что это влияет на уровни напряжения переключения устройств, так что сигналы не могут правильно распространяться в микросхеме и перестают функционировать. Обычно они выздоравливают, когда им дают остыть, но это не всегда так.

В производственных процессах для высокотемпературной работы (до 300 ° C) используется технология CMOS с кремнием на изоляторе из-за малой утечки в очень широком температурном диапазоне.


9

Только одно дополнение к некоторым отличным ответам: Технически это не легирующие вещества, которые становятся более мобильными, это увеличение внутренней концентрации носителей. Если что-то допанты / носители становятся менее мобильными, так как кристаллическая решетка кремния начинает «вибрировать» из-за увеличения тепловой энергии, затрудняющей прохождение электронов и дырок через устройство - оптическое рассеяние фононов, я полагаю, физики называют это, но я могу быть неправым.

Когда внутренняя концентрация носителей возрастает выше уровня легирования, вы теряете электрический контроль над устройством. Собственные носители - это те, которые существуют до того, как мы легируем кремний, идея полупроводников состоит в том, что мы добавляем наши собственные носители для генерации pn-переходов и других интересных вещей, которые делают транзисторы. Кремний вырабатывает около 150 градусов Цельсия, так что радиатор и высокоскоростные процессоры, работающие на тепло, очень важны, так как 150 градусов Цельсия не так сложно достичь на практике. Существует прямая связь между собственной концентрацией носителей и током утечки устройства.

Как показали другие главы, это лишь одна из причин, по которой чипы выходят из строя - это может даже привести к чему-то такому простому, как проволочная сетка, слишком горячая и отрывающаяся от ее площадки, есть огромный список вещей.


Когда я говорю, что легирующие примеси становятся более подвижными, я имею в виду физические атомы, а не носители. Соединение PN может дрейфовать и перестать быть диодом со временем и теплом. Во-вторых, когда вы получаете достаточно высокую временную температуру, ваша тепловая энергия, которая создает как фононы высокой энергии, которые взаимодействуют с электронами, так и намного более высокие уровни ИК-излучения внутри структуры, может дать электронам достаточно высокую энергию, чтобы прыгнуть в запрещенную зону между проводящим и валентным слоями. , Si достигает максимума, потому что его запрещенная зона такова, что 150degC даст электронам возможность прыгать.
Кортук

Да, я думаю, что мы говорим одно и то же только с другой отправной точки.
SimonBarker

1
То, как вы объясняете это, звучит точно так же, как и я, после изучения физики устройств, после применения некоторых квантовых и твердотельных устройств, я говорю это немного по-разному, но мы оба знаем, насколько упрощены эти объяснения. Я добавил немного об этом влиянии в свой ответ, так как считаю, что это очень важно, я дал вам ваш первый +1, который вы заслужили. Это важный эффект, так как он очень быстро приводит к тепловому убеганию.
Кортук

8

Хотя токи утечки увеличиваются, я ожидаю, что большая проблема для многих устройств на базе MOS состоит в том, что величина тока, проходящего через MOS-транзистор в состоянии «включено», будет уменьшаться по мере нагрева устройства. Для правильной работы устройства транзистор, который переключает узел, должен иметь возможность заряжать или разряжать любую скрытую емкость в этой части схемы, прежде чем что-либо еще будет зависеть от того, что этот узел был переключен. Снижение пропускной способности транзисторов снизит скорость, с которой они могут заряжать или разряжать узлы. Если транзистор не может заряжать или разряжать узел в достаточной степени, прежде чем другая часть схемы будет полагаться на то, что этот узел был переключен, схема будет работать со сбоями.

Обратите внимание, что для NMOS-устройств был задан компромисс при расчете размеров пассивных транзисторов с подтягиванием; чем больше пассивное подтягивание, тем быстрее узел может переключаться с низкого уровня на высокий, но тем больше энергии будет тратиться впустую, когда узел находится на низком уровне. Поэтому многие такие устройства работали несколько ближе к границе правильной работы, и неисправности, вызванные теплом, были (и для винтажной электроники остаются) довольно распространенными. Для обычной электроники CMOS такие проблемы, как правило, менее серьезны; На практике я понятия не имею, в какой степени они играют роль в таких процессорах, как multi-GHZ.


2
Это очень важный эффект, я собирался попросить Кортука добавить его в свой ответ. Одним из факторов, определяющих спецификацию максимального Tj для процессора, является то, что выше Tj процессор может не работать на номинальной скорости. Это также, почему лучшее охлаждение помогает в разгоне.
Энди

Первый абзац - почему ваш компьютер перестает работать, когда он нагревается - он слишком сильно тормозит, чтобы идти в ногу с тактовой частотой.
W5VO

На самом деле, есть еще один фактор, который, возможно, играл роль в устройствах NMOS, хотя я не ожидал бы этого в большинстве типичных конструкций: многие устройства NMOS имели минимальные тактовые частоты, навязанные требованием использовать или обновлять данные в узлах динамического хранения до того, как это было истощено утечкой. Если токи утечки возрастают с ростом температуры, минимальная тактовая частота также увеличивается. Я подозреваю, что большинство устройств работали достаточно выше минимальной тактовой частоты, что увеличение минимальной скорости не было бы проблемой, но я не уверен.
Суперкат

@ Энди, @ W5VO, я писал свой ответ вчера вечером и забыл, что на полпути. Ночная смена наносит вред вашему мозгу.
Кортук

2

В дополнение к существующим ответам, сегодняшние схемы чувствительны к следующим двум эффектам старения (не только этим, но и основными в процессах <150 нм):

Поскольку температура увеличивает подвижность носителей, она увеличивает эффекты HCI и NBTI, но температура не является основной причиной для NBTI и HCI:

  • HCI вызван высокой частотой
  • НБТИ высоким напряжением

Эти два эффекта старения кремния приводят как к обратимым, так и к необратимым повреждениям транзисторов (влияя / разрушая подложки изолятора), которые увеличивают порог напряжения транзистора (Vt). В результате деталь будет нуждаться в более высоком напряжении для поддержания того же уровня производительности, что подразумевает повышение рабочей температуры и, как сказано в других сообщениях, последующая повышенная утечка на затворе транзистора.

Подводя итог, можно сказать, что температура на самом деле не будет ускорять процесс старения детали, а повышение частоты и напряжения (т.е. разгон) приведет к старению детали. Но старение транзисторов потребует более высокого рабочего напряжения, которое заставит деталь нагреваться больше.

Corolary: следствием разгона является повышение температуры и необходимого напряжения.


1

Основная причина, по которой микросхемы выходят из строя необратимо, заключается в том, что металлический алюминий внутри них, который используется для создания межсоединений между различными элементами, плавит и открывает или замыкает устройства.

Да, токи утечки будут увеличиваться, но обычно проблема заключается не в самом токе утечки, а в нагреве, которое это вызывает, и последующем повреждении металла внутри ИС.

Цепи питания (например, источники питания, драйверы с высоким током и т. Д.) Могут быть повреждены, потому что при высоких напряжениях, когда драйверы транзисторов быстро отключаются, генерируются внутренние токи, которые вызывают защелкивание устройства, или неравномерное распределение энергии внутри него, которое вызывает локальное нагрев и последующее разрушение металла.

Большое (1000 с) число повторяющихся тепловых циклов может привести к отказу из-за несоответствия между механическим расширением ИС и упаковки, что в конечном итоге приведет к разрыву соединительных проводов или разделению материала пластиковой упаковки и последующему механическому повреждению.

Конечно, большое количество параметрических характеристик микросхем задано только в заданном температурном диапазоне, и они могут не соответствовать спецификации за пределами этого. В зависимости от конструкции это может вызвать сбой или недопустимый параметрический сдвиг (в то время как ИС находится за пределами температурного диапазона) - это может происходить при экстремально высоких или низких температурах.


Алюминий плавится при 660 ° C (1220 ° F). Микросхемы умирают задолго до достижения этой температуры.
Дмитрий Григорьев

Принципиально нет. При температурах ниже этого, вы, безусловно, можете получить нежелательное электрическое поведение; чрезмерный нагрев и термический разгон, но на самом деле это не вызывает постоянного сбоя, пока некоторая часть цепи не достигнет температуры, при которой Al (или другой металл) диффундирует в кремний. Это (эвтектическая точка) составляет около 500-600 C. Большинство других сбоев можно исправить. Дополнительные сбои могут быть вызваны электрическими неисправностями, позволяющими приложить чрезмерное напряжение к затворам транзистора или тепловым циклам (которые вызывают механические сбои).
jp314

У меня все еще есть сомнения. Например, микросхемы обычно указывают максимальную температуру пайки около 300 ° C, поэтому кажется, что превышение этого предела достаточно, чтобы нанести непоправимый урон.
Дмитрий Григорьев
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.