В Prime95, почему маленькие БПФ генерируют наибольшее количество тепла, несмотря на то, что процессор на 100% для всех вариантов?

Я только что построил новый ПК Skylake , и я собираюсь увидеть небольшой разгон с Prime95 в качестве стресс-тестера.

Он работает нормально при обычном использовании, но с Prime95 я заметил небольшое удушение процессора при определенных нагрузках.

Если все 4 ядра (8 нитей) застряли на 100% независимо, почему настройка Small FFT в Prime95 достигает более высокой температуры, чем опция «Смешивание»?

— Хриза
источник

Векторизованный код, особенно AVX, естественно увеличивает тепловую мощность процессора, поскольку процессор должен работать при более высоком напряжении для выполнения этих инструкций. Маленькие БПФ требуют меньше памяти, чем режим наложения, поэтому процессор тратит больше времени на обработку данных и меньше времени на ожидание данных.

Архитектура x86-64 обеспечивает широкие возможности векторной обработки , особенно на новейших процессорах. Векторная обработка позволяет приложениям выполнять математические операции над несколькими элементами данных одновременно и используется многими новыми приложениями, требующими большого объема вычислений, для увеличения производительности обработки.
Векторизованный код, особенно инструкции AVX, используемые Prime95, требует, чтобы процессор работал при более высоком напряжении, чем обычно. Это приводит к тому, что энергопотребление и тепловая мощность выше, чем при обычных рабочих нагрузках. По этой причине Intel предупреждает, что высокие нагрузки AVX могут привести к замедлению процессора или его неполной тактовой частоте Turbo Boost (сноска 1):

Intel® Advanced Vector Extensions (Intel® AVX) предназначены для достижения более высокой пропускной способности для определенных целочисленных операций и операций с плавающей запятой. Из-за различий в характеристиках мощности процессора использование инструкций AVX может привести к тому, что а) некоторые детали будут работать с частотой ниже номинальной частоты, и б) некоторые детали с технологией Intel® Turbo Boost 2.0 не смогут достичь какой-либо или максимальной частоты турбо.

Intel объясняет это более подробно в этом документе . В частности, он отмечает:

Intel AVX предназначен для достижения более высокой пропускной способности для определенных целочисленных операций и операций с плавающей запятой. Использование этих инструкций может привести к тому, что процессоры будут работать с частотой, меньшей отмеченной частоты TDP. Это снижение частоты происходит из-за того, что для мощных инструкций Intel AVX требуется дополнительное напряжение и электрический ток.
- Я предполагаю, почему усиление V- _ядра необходимо для инструкций AVX, заключается в том, что исполнительные блоки AVX более сложны, чем другие части процессора, что приводит к соответствующим этапам конвейера, выполнение которых занимает больше времени ( дополнительную информацию по конвейерам см. В этом ответе). и другие аспекты дизайна процессора). Если конкретный этап конвейера является медленным, максимальная тактовая частота всего процессора ограничена, так как каждый этап в конвейере должен завершаться в течение каждого тактового цикла.
- По той же причине более высокие напряжения увеличивают максимально достижимые частоты при разгоне (транзисторы могут переключаться быстрее при более высоких напряжениях), а увеличение напряжения помогает обеспечить своевременное завершение более длинных каскадов трубопровода.
В режиме Small FFT используются только меньшие элементы данных, которые могут помещаться в кэш-память ЦП , в отличие от режима смешивания, который работает как с небольшими, так и с большими значениями, которые могут не помещаться в кэш-память. Поскольку доступ к памяти медленный по сравнению с простой обработкой данных, процессор будет тратить меньше времени на фактическую обработку данных в режиме смешивания, что снижает тепловую мощность. Небольшие БПФ не влекут за собой столько же обращений к памяти, что приводит к более реальной работе ЦП, что увеличивает энергопотребление и тепловыделение.

— bwDraco
источник

Благодаря @DragonLord, это делает различные режимы Prime95 очень понятными. Не могли бы вы пояснить свой ответ, чтобы объяснить, почему монитор ресурсов показывает 100% в обоих случаях? Почему он не читает менее 100% в режиме смешивания, например, если он ожидает данных чаще, чем в режиме малого FFT?

— Крис

Процессор занят, ожидание памяти все еще сообщается как занятый ОС, насколько я понимаю.

— bwDraco