Для проекта у нас есть 50 серверов, оснащенных (как правило) одним и тем же оборудованием. У нас здесь очень серьезная проблема, которая возникает на всех машинах. Несмотря на большие усилия и контакты с производителями и разработчиками программного обеспечения, все указывают друг на друга и даже отказываются дать мне подсказку о том, что происходит.
Сначала позвольте мне описать установку. Это серверное оборудование. Для моего первого опыта, servergrade - самое большое разочарование в моей жизни.
- SuperMicro X10SDV-8C + -LN2F
- Intel Xeon D-1540 (встроен в материнскую плату)
- Индивидуально разработанный чехол 1U или оригинальный чехол SuperMicro
- Серверный блок питания на 480 Вт или оригинальный блок питания SuperMicro на 200 Вт
- Samsung Evo 850 500 ГБ SSD
- 32 ГБ DDR4-2133 ECC или NON-ECC (но не смешанные на одном сервере)
- Asus GT730 4GB DDR3 GPU
- Графический процессор установлен с переходной платой PCIe (не ленточной), безымянной из Китая или оригинальной SuperMicro
Работа в системе - Windows Server 2012 R2 Enterprise - VMWare Workstation 12 - ВМ выполняет задачи, интенсивно использующие графические процессоры - Эта система стандартная, нет разгона вообще
Симптомы - случайный BSOD 0x09c (aka Machine_Check_Exception): иногда система работает без проблем в течение недели, иногда в сбоях через 10 минут, но в большинстве случаев она работает в течение нескольких часов.
Уже пробовал / проверял:
- BIOS обновлен до последней версии (теперь я думаю, что это улучшило время стабильности системы, но это могло быть случайным).
- Windows обновлена до последней версии.
- VMWare обновлен до последней версии.
- Поменялись местами все компоненты и перепробовали разные варианты, даже попробовали настольный блок питания ATX и M.2 SSD.
- Установлены все системы с нуля с Ubuntu. Я не знаком с Linux и никогда не видел Linux BSOD, и я все еще не видел, так как серверные системы безголовые, и я попробовал это в DC. РЕЗУЛЬТАТ: система зависает и после перезагрузки Linux сообщает о сбое XORG (связанном с GPU).
- Изменил настройку графического процессора в BIOS на «выше 4G», остальная часть BIOS - заводская настройка по умолчанию.
Также информативно:
- Системы расположены в центре обработки данных. Температура, воздух, мощность и сеть оптимальны.
- Температура значительно ниже заводского максимума
- У нас точно такая же настройка программного обеспечения , которая работает на настольных компьютерах (с настольным оборудованием). Эти системы могут нормально работать при сбое 1 из 100 наших ПК каждый месяц.
- Я связался с VMWare, скажем, это проблема с оборудованием
- Я связался с SuperMicro, они ничего не говорят, кроме некоторых вещей, и уже пытались, а также, что это все еще может быть проблемой программного обеспечения.
Мы в отчаянии здесь. К счастью, приложение, которое мы запускаем, является излишним. Если сервер и его виртуальная машина на нем сбрасываются, это не такая проблема, нагрузка на другие серверы наступает в течение 5 минут, но с такой скоростью я должен быть в сети весь день, чтобы перезапустить серверы.
У меня есть большие знания в области аппаратного обеспечения, но это выходит за рамки этого, я искал это целый день более месяца, пробуя все виды разных вещей. Тот факт, что эти материнские платы используются с хостинг-провайдерами в большом масштабе, заставляет меня подозревать, что плата сама по себе в порядке. Это определенно не специфическая аппаратная проблема для RMA, поскольку все 50 плат имеют одинаковые симптомы. Единственное, что отличается от нас - это графический процессор. Это в сочетании с экспериментом с Linux заставляет меня подозревать, что это определенно что-то на линии PCIe. Сам графический процессор стабилен на настольных компьютерах. Несмотря на большой объем памяти, это небольшой графический процессор, который не потребляет много энергии. Я бы заподозрил китайские карты райзеров, но опять же мы также используем сертифицированные райзеры SuperMicro, и они вообще не показывают улучшения.
Я очень отчаянно пытаюсь найти решение здесь. Это начнется с определения точной причины. Мы готовы выплатить хорошую награду эксперту, который может проанализировать некоторые свалки и предоставить нам более подробную информацию (или, что еще лучше, решение).
С уважением,
Саймон