Безопасно ли использовать потребительские SSD MLC на сервере?


44

Мы (и мы имеем в виду Джеффа) изучаем возможность использования жестких дисков Consumer MLC в нашем резервном центре обработки данных.

Мы стремимся снизить расходы и увеличить используемое пространство - поэтому Intel X25-E стоит примерно 700 долларов каждая и 64 ГБ емкости.

Мы думаем о том, чтобы купить некоторые из более дешевых твердотельных накопителей, которые предлагают большую емкость по более низкой цене. Мой начальник не считает, что потратить около 5 КБ на диски на серверах, на которых не работает резервный центр обработки данных, стоит инвестиций.

Эти диски будут использоваться в RAID-массиве на 6 дисков на Lenovo RD120. Контроллер RAID представляет собой Adaptec 8k (ребрендинг Lenovo).

Насколько опасен такой подход и что можно сделать, чтобы смягчить эти опасности?


4
Каково обоснование для использования SSD вместо счетчиков? Народная мудрость в отношении производительности SSD - «плати или не беспокойся», но, безусловно, есть и другие аспекты, которые могут быть преимуществом.
peterchen

Мне любопытно о проблеме, которую вы пытаетесь решить здесь. Если это просто одна из затрат, почему SSD рассматриваются вместо обычных накопителей?
Джон Гарденер

@peterchen, вы можете использовать пару SSD или пятьдесят 15K шпинделей.
Мирча Chirea

@iconiK - ты имеешь в виду "для сервера, ты все равно должен тратить много денег"? Если так - да, вот почему мне тоже интересно.
peterchen

Ответы:


61

Несколько мыслей;

  • Твердотельные накопители имеют избыточную память. Это память, используемая вместо ячеек, «поврежденных» при записи. Низкочастотные твердотельные накопители могут занимать только 7% избыточного пространства; средний диапазон около 28%; и корпоративные диски целых 400%. Учитывайте этот фактор.
  • Сколько вы будете писать им в день? Даже твердотельные накопители среднего класса, такие как те, которые основаны на чипах Sandforce 1200, редко оценивают более 35 ГБ операций записи в день, прежде чем серьезно урезать перегруженную память.
  • Обычно первый день нового SSD полон записи, будь то ОС или данные. Если в первый день у вас значительно больше 35 ГБ записей, рассмотрите возможность их копирования в пакетном режиме, чтобы дать SSD некоторое «время наведения в порядок» между пакетами.
  • Без поддержки TRIM производительность произвольной записи может снизиться на 75% в течение нескольких недель, если в этот период много записи - если вы можете, используйте ОС, которая поддерживает TRIM
  • Внутренние процессы сбора мусора, которые выполняются современными твердотельными накопителями, очень точно выполняются в периоды бездействия и прекращаются. Это не проблема для настольного ПК, где диск может быть тихим в течение 60% от его обычного 8-часового рабочего цикла, но вы запускаете круглосуточную службу ... когда этот процесс получит возможность запустить?
  • Обычно он скрыт в спецификациях, но, как и дешевые «обычные» диски, недорогие твердотельные накопители также должны иметь рабочий цикл около 30%. Вы будете использовать их почти 100% времени - это повлияет на ваш показатель MTBF.
  • Хотя твердотельные накопители не испытывают тех же механических проблем, что и обычные диски, они имеют одно- и многобитовые ошибки - поэтому настоятельно рекомендуем использовать RAID-массив, даже если инстинкт отсутствует. Очевидно, это повлияет на всю эту прекрасную скорость произвольной записи, которую вы только что купили, но все равно учтите это.
  • Это по-прежнему SATA, а не SAS, поэтому управление вашей очередью не будет столь же хорошим в серверной среде, но опять же дополнительное повышение производительности будет весьма значительным.

Удачи - просто не жарьте их с записками :)


2
Вы имеете в виду 400% за дополнительное пространство или 40%? Я собирался отредактировать ваш ответ, но не смог найти цитату, поэтому я думаю, что это может быть 400%. (Кстати, это очень хороший момент)
ChrisInEdmonton

9
Также не всегда понятно, поддерживается ли TRIM в конфигурации RAID. Помните, что SSD отвлечены от ОС с RAID. Обязательно уточните у продавца RAID.
Мэтт Шерман

5
Я имел в виду 400 Крис, особенно те, которые используются в ФК САН, очень дорогой, но очень.
Chopper3

5
Один из способов получить больше свободного места на диске - выполнить безопасное удаление, а затем разбить его на большую часть неиспользованного. Это свободное пространство увеличит производительность и срок службы SSD.
Zan Lynx

1
Просто хочу +1 с @ZanLynx .. Обычно я использую только 80% диска, когда использую SSD + Raid.
Tracker1

12

Я нашел эту ссылку, которая содержит интересный и тщательный анализ SSD-дисков MLC и SLC на серверах.

На мой взгляд, использование флэш-массива SSD MLC для корпоративных приложений без, по крайней мере, использования (заявленных) смягчающих эффектов, связанных с износом, таких как технология Easyco MFT, подобна выпрыгиванию из самолета без парашюта.

Обратите внимание, что некоторые производители твердотельных накопителей MLC утверждают, что их накопители достаточно «корпоративные», чтобы выдержать записи:

SandForce стремится стать первой компанией с контроллером, поддерживающим многоуровневые микросхемы флэш-памяти для твердотельных накопителей, используемых в серверах. Благодаря использованию микросхем MLC, SF-1500 прокладывает путь к снижению затрат и увеличению плотности дисков, которые хотят производители. На сегодняшний день флеш-накопители для серверов используют одноуровневые ячейки флеш-чипов. Это связано с тем, что долговечность и надежность микросхем MLC обычно не соответствуют требованиям серверов.

Дальнейший анализ этих претензий в AnandTech .

Кроме того, теперь Intel официально заявляет, что SLC может быть избыточным на серверах в 90% случаев :

«Мы полагали, что SLC [одноуровневая ячейка] требовалась, но мы обнаружили, что в ходе исследований с Microsoft и даже Seagate эти приложения с высокой вычислительной нагрузкой действительно не пишут так много, как они думали», - сказал Уинслоу. «Девяносто процентов приложений центров обработки данных могут использовать этот MLC-накопитель».

... за последний год поставщики осознали, что, используя специальное программное обеспечение в контроллерах накопителей, они могут повысить надежность и отказоустойчивость своих твердотельных накопителей MLC потребительского класса до такой степени, что предприятия используют их для высокопроизводительные серверы центров обработки данных и массивы хранения. Поставщики твердотельных накопителей начали использовать термин NAND flash eMLC (enterprise MLC) для описания этих твердотельных накопителей.

«С точки зрения объема мы видим действительно высокопроизводительные вычислительные среды с высокой интенсивностью записи, которые могут по-прежнему нуждаться в SLC, но это входит в топ-10% даже требований корпоративного центра обработки данных», - сказал Уинслоу.

Intel обеспечивает эти 10% рынка корпоративных центров обработки данных через свое совместное предприятие с Hitachi Global Storage Technologies. Hitachi выпускает линейку SSD SSD SSD400S с последовательным подключением, скорость которой составляет 6 Гбит / с. Пропускная способность - вдвое больше, чем у его основанных на MLC SATA SSD.

Intel, даже для своих серверно-ориентированных SSD-накопителей, перешла с SLC на MLC с очень большим пространством «избыточного выделения ресурсов» с новой серией Intel SSD 710 . Эти диски выделяют до 20% общего хранилища для внутренней избыточности:

Производительность не является главным приоритетом для SSD 710. Вместо этого Intel стремится обеспечить устойчивость уровня SLC по разумной цене, используя более дешевый eMLC HET NAND. SSD 710 также поддерживает настраиваемую пользователем избыточную пропускную способность (20%), что значительно увеличивает срок службы диска. Гарантия на SSD 710 составляет 3 года или до тех пор, пока индикатор износа не достигнет определенного уровня, в зависимости от того, что наступит раньше. Это первый раз, когда мы видим ограничение SSD таким образом.


7

Всегда основывайте такие вещи на фактах, а не на предположениях. В этом случае собрать факты очень просто: запишите долгосрочные профили IOPS для чтения / записи ваших производственных систем, а затем выясните, с чем вы можете жить в сценарии аварийного восстановления. Вы должны использовать что-то вроде 99-го процентиля в качестве измерения. Как не использовать средние значения при измерении IOPS cpacity - пики все , что дело! Затем вам нужно купить необходимую емкость и IOPS, необходимые для вашего сайта DR. SSD может быть лучшим способом сделать это, а может и нет.

Так, например, если вашим рабочим приложениям требуется 7500 IOPS на 99-м процентиле, вы можете решить, что в случае аварии вы можете жить с 5000 IOPS. Но это как минимум 25 дисков 15K, необходимых прямо на вашем сайте DR, поэтому SSD может быть лучшим выбором, если ваши потребности в емкости невелики (звучит так, как они). Но если вы измеряете только то, что производите 400 операций ввода-вывода в секунду, просто купите 6 дисков SATA, сэкономьте немного денег и используйте дополнительное место для хранения дополнительных снимков резервных копий на сайте DR. Вы также можете разделить операции чтения и записи в своей коллекции данных, чтобы определить, как долго будут работать твердотельные накопители не-предприятия для вашей рабочей нагрузки, основываясь на их спецификациях.

Также помните, что системы DR могут иметь меньшую память, чем производственная, что означает, что требуется больше операций ввода-вывода в секунду (больше подкачки и меньше кеша файловой системы).


5

Даже если MLS SSD прослужит всего один год, через несколько лет замена будет намного дешевле. Так что вы можете справиться с необходимостью заменить SSD MLS, когда они, где?


хороший момент, особенно если учесть, что они будут в RAID-массиве ... до тех пор, пока «слишком много» из них не выйдут из строя сразу, это на самом деле правдоподобно.
Джефф Этвуд

@ Джефф, если вы можете поменять некоторые из них на своих настольных ПК, так что не все получат какой-то шаблон использования, это сделает его менее аккуратным, и все они потерпят неудачу одновременно.
Ян Рингроз

@ Джефф, я думаю, что в значительной степени, Fail == «начать делать очень медленные права», а не «не читать данные»
Ян Рингроз


3

Если мы отложим проблему количества записи (или докажем, что твердотельные накопители потребительского уровня могут ее решить), я думаю, что твердотельные накопители - это хорошая вещь для добавления в среды уровня предприятия. Вы, вероятно, будете использовать твердотельные накопители в массиве RAID. RAID5 или RAID6. И проблема в том, что после отказа одного диска массив становится все более уязвимым для отказа. И время на его восстановление сильно зависит от объема массива. Для восстановления массива в несколько ТБ могут потребоваться дни, при этом к нему постоянно обращаются. В случае твердотельных накопителей RAID-массивы а) будут неизбежно меньше б) время восстановления значительно сокращается.


3

В техническом документе о различиях между SLC и MLC от SuperTalent говорится о стойкости MLC и 10-й степени надежности SSD-накопителя SLC, но есть вероятность, что SSD-накопители MLS переживут аппаратное обеспечение, в которое вы их устанавливаете. Я не уверен, насколько надежны эти статистические данные / факты от SuperTalent.

Если вы получаете аналогичный уровень поддержки от поставщика твердотельных накопителей MLC, то более низкая цена делает его достойным внимания.


1
Срок службы 5 лет при обычном использовании настольных компьютеров уже упоминался. Если это точная оценка, то они не смогут пережить сервер в среде центра обработки данных!
JamesRyan

@JamesRyan: Хотя это не показано в большинстве расчетов, время жизни очень зависит от доли свободного пространства.
Бен Фойгт

1
В организациях, в которых я работал, мы всегда ставим обновление серверного оборудования на 3 года. У меня сложилось впечатление, что это общепринятая лучшая практика, но поправьте меня, если я ошибаюсь.
chunkyb2002

3

Вы должны просто рассчитать количество ежедневных записей, которые у вас есть, с вашей текущей настройкой и сравнить это с тем, что производитель гарантирует, что их SSD-накопители могут выдержать. Intel, кажется, наиболее откровенна в этом вопросе - например, взгляните на их основные спецификации дисков SSD: http://www.intel.com/design/flash/nand/mainstream/technicaldocuments.htm

В разделе 3.5 (в частности, 3.5.4) документа с техническими характеристиками говорится, что ваш накопитель будет работать как минимум 5 лет при 20 ГБ операций записи в день. Я предполагаю, что это рассчитывается при использовании всей емкости диска и не выделении свободного места для записи самостоятельно.

Также интересна таблица данных об использовании основных твердотельных накопителей в корпоративной среде.


К сожалению, это не так просто, потому что выравнивание износа усиливает записи (помните, что оно предназначено для распространения записей, а не для их уменьшения) таким образом, что оно является запатентованным и может сильно различаться по своей эффективности в зависимости от модели использования.
JamesRyan

Хм, очень хорошая мысль. Кроме того, потеря команды TRIM при использовании дисков в настройке RAID также должна увеличить усиление записи. Я предполагаю, что все сводится к идее каждого производителя типичной модели использования.
Cearny

2

Пару лет назад я развернул пару дисков SLC 32 ГБ в качестве буфера для какого-то ужасно плохо спроектированного приложения, которое мы использовали.

Приложение было на 90% с небольшими записями (<4 КБ) и работало последовательно (24/7) со скоростью 14 КБ / с один раз на дисках SSD. На них был настроен RAID 1, все было радужно, задержка была низкой!

Несмотря на то, что прошел примерно один месяц, и первая поездка собралась, буквально через 3 часа, вторая поездка также умерла. RAID 1 не такой хороший план в конце концов :)

Я бы согласился с другими постерами о каком-то RAID 6, если бы он не распространил эти записи на большее количество дисков.

Теперь имейте в виду, что это было пару лет назад, и теперь эти вещи намного надежнее, и у вас может не быть аналогичного профиля ввода / вывода.

Приложение было переработано, однако в качестве временного промежутка, который может или не может помочь вам, мы создали большой оперативный диск, создали несколько сценариев для перестройки / резервного копирования оперативного диска и потеряли около часа потери данных /время восстановления.

Опять же, ваш жизненный цикл ваших данных может отличаться.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.