Я много работаю с консалтингом VMware и скажу, что проценты ближе к 80% установленной базы используют общее хранилище высокой доступности (FC, iSCSI или high-end NAS), и многие из моих клиентов - МСП. Ключевой фактор, который я обнаружил, заключается в том, рассматривает ли компания время работы своего сервера как критическое или нет, для большинства компаний сегодня это так.
Вы, безусловно, можете запускать очень высокопроизводительные виртуальные машины из хранилища с прямым подключением (HP DL380 G6 с 16 внутренними дисками в массиве RAID 10 будет иметь довольно быстрый дисковый ввод-вывод), но если вы создаете VMware или любую другую виртуализированную среду, чтобы заменить десятки, сотни или тысячи серверов, вы безумны, если не вкладываете много сил (и, возможно, денег) в надежную архитектуру хранения.
Вам не нужно покупать высокопроизводительное SAN для функций кластеризации - вы можете реализовать их с помощью довольно дешевого NAS (или виртуального SAN, такого как HP \ Lefthand VSA) и при этом использовать сертифицированное хранилище. Однако, если вы используете общее хранилище, и оно не имеет избыточности во всех точках инфраструктуры SAN \ NAS, тогда вам не следует использовать его для гораздо большего, чем для тестирования. И резервирование - это (как минимум) двойные (независимые) сетевые адаптеры HBA \ хранилища на ваших серверах, двойные независимые матрицы, резервированные контроллеры в сети SAN, резервное копирование кэш-памяти с резервным питанием от батареи, резервные вентиляторы с горячей заменой, блоки питания и т. Д., RAID 5 \ 6 \ 10 \ 50 и соответствующее количество горячих резервов.
Реальная разница между вашими системами заключается в том, что если одна из ваших автономных систем дает сбой, у вас есть много работы, чтобы восстановить ее, и вы будете вынуждены делать простои, просто исправляя ее. В кластерных системах, подключенных к SAN, исправление гипервизоров или даже обновление оборудования гипервизора должно привести к нулевому времени простоя. Катастрофический сбой сервера просто приводит к остановке службы на время, необходимое для перезагрузки виртуальной машины на отдельном узле (в худшем случае), или если у вас есть отказоустойчивость, покрывающая эти виртуальные машины, то у вас вообще нет простоев.