Ответы:
Проверьте lessFS, файловую систему с дедупликацией данных, для Linux. Это все еще в бета-версии, но вы можете попробовать это:
С Уважением,
М.В.
Дедупликация поступает в ZFS на OpenSolaris, но эта функциональность в настоящее время недоступна.
Он был прототипирован Джеффом Бонвиком и Биллом Муром прошлой зимой, и они работают над его интеграцией этим летом. Так что он должен быть доступен в следующей версии OpenSolaris или раньше, если вы хотите поиграть с веткой разработки.
Для людей, которые могут быть незнакомы с дедупликацией данных, это метод, при котором данные анализируются на уровне файлов (или блоков, я полагаю), и где идентичные файлы / блоки в файловой системе заменяются меньшим токеном. Это приводит к значительному уменьшению эффективного размера диска. Это можно считать формой копирования при записи . Прочитайте вики-страницу об этом.
В Linux не существует файловой системы, которая могла бы выполнять дедупликацию, файловый или блочный уровень. Такой зверь был бы полезен, хотя и довольно интенсивно занимал процессор.
Год спустя, но вот решение для OpenBSD под названием Epitome: http://www.peereboom.us/epitome/ . При условии, что это либеральное лицензирование, оно вполне может превратиться в ядро Linux.
Я только что опубликовал проект, над которым я работаю, который выполняет встроенную дедупликацию. Вы можете посмотреть на это здесь, если вы заинтересованы. Он основан на предохранителе и работает на Linux.
Я не знаю ни одной бесплатной реализации дедупликации для Linux. Я видел, как некоторые поставщики хранилищ рекомендовали использовать систему HSM (иерархическое управление хранилищем) с VTL (библиотека виртуальных хранилищ), которая выполняет дедупликацию.
Вы также можете рассмотреть систему, подобную Occarina, которая не прозрачна, но может обеспечить лучшие результаты, чем дедупликация.
так что ... нет новостей о дедупликации в Linux? opendedup может быть выбором, но, давая платформу Java, на которой он работает, я не хочу получать головную боль. Я попробовал это да, но эта машина Java и остальные не очень хорошо справляются с моими потребностями времени отклика хранилища и безопасности.
Опция дедупликации доступна в Linux, в файловых системах BTRFS и ZFS. BTRFS изначально разрабатывается под Linux и имеет автономный инструмент дедупликации. Я не думаю, что в автономном режиме, вы должны размонтировать фс. Оффлайн означает, что активные данные не дедуплицированы. Но позже вы запустите инструмент для дедупликации мыслей, хранящихся сейчас. На самом деле, вероятно, инструмент находится в бета-версии. Другой способ - внутри ZFS. Доступно как FUSE и изначально: http://zfsonlinux.org/ , Это делает дедупликацию онлайн, к сожалению, это замедляет запись, потому что все должно быть рассчитано на лету. Вы можете онлайн и на это поведение. После выключения дедупликации все дедуплицированные данные будут по-прежнему сохраняться как дедуплицированные. Новые записи будут сохранены как «дублированные». Если вы хотите дедуплицировать эти данные в будущем, вы должны включить дедупликацию и перезаписать все «дублированные» файлы.
Смотрите документ, доступный на странице. Для ускорения записи и чтения вы можете добавить более быстрые устройства в пул хранения (особенно SDD-диски или, возможно, более быструю флеш-память USB, обратите внимание на надежность устройства).
DRBD делает именно это и делает это очень хорошо! Может сделать Master / Slave или Master / Master :-)