Дедупликация на уровне блоков в Linux


10

NetApp обеспечивает дедупликацию на уровне блоков (ASIS). Знаете ли вы какую-либо файловую систему (даже основанную на FUSE) в Linux (или OpenSolaris, * BSD), которая обеспечивает такую ​​же функциональность?

(Меня не интересует ложная дедупликация, такая как жесткие ссылки).

Ответы:


6

Проверьте lessFS, файловую систему с дедупликацией данных, для Linux. Это все еще в бета-версии, но вы можете попробовать это:

http://www.lessfs.com/

С Уважением,

М.В.


Превосходно ! Это все еще бета, но это определенно что-то для начала.
Бенуа

7

Дедупликация поступает в ZFS на OpenSolaris, но эта функциональность в настоящее время недоступна.

Он был прототипирован Джеффом Бонвиком и Биллом Муром прошлой зимой, и они работают над его интеграцией этим летом. Так что он должен быть доступен в следующей версии OpenSolaris или раньше, если вы хотите поиграть с веткой разработки.


Смотрите ответ @ jlliagre - он доступен сейчас.
Джеймс Мур

4

Для людей, которые могут быть незнакомы с дедупликацией данных, это метод, при котором данные анализируются на уровне файлов (или блоков, я полагаю), и где идентичные файлы / блоки в файловой системе заменяются меньшим токеном. Это приводит к значительному уменьшению эффективного размера диска. Это можно считать формой копирования при записи . Прочитайте вики-страницу об этом.

В Linux не существует файловой системы, которая могла бы выполнять дедупликацию, файловый или блочный уровень. Такой зверь был бы полезен, хотя и довольно интенсивно занимал процессор.


4

Дедупликация теперь доступна с ZFS на OpenSolaris (сборка 128a и новее).


2

Год спустя, но вот решение для OpenBSD под названием Epitome: http://www.peereboom.us/epitome/ . При условии, что это либеральное лицензирование, оно вполне может превратиться в ядро ​​Linux.


1

Я только что опубликовал проект, над которым я работаю, который выполняет встроенную дедупликацию. Вы можете посмотреть на это здесь, если вы заинтересованы. Он основан на предохранителе и работает на Linux.


0

Я не знаю ни одной бесплатной реализации дедупликации для Linux. Я видел, как некоторые поставщики хранилищ рекомендовали использовать систему HSM (иерархическое управление хранилищем) с VTL (библиотека виртуальных хранилищ), которая выполняет дедупликацию.

Вы также можете рассмотреть систему, подобную Occarina, которая не прозрачна, но может обеспечить лучшие результаты, чем дедупликация.


0

так что ... нет новостей о дедупликации в Linux? opendedup может быть выбором, но, давая платформу Java, на которой он работает, я не хочу получать головную боль. Я попробовал это да, но эта машина Java и остальные не очень хорошо справляются с моими потребностями времени отклика хранилища и безопасности.


0

Опция дедупликации доступна в Linux, в файловых системах BTRFS и ZFS. BTRFS изначально разрабатывается под Linux и имеет автономный инструмент дедупликации. Я не думаю, что в автономном режиме, вы должны размонтировать фс. Оффлайн означает, что активные данные не дедуплицированы. Но позже вы запустите инструмент для дедупликации мыслей, хранящихся сейчас. На самом деле, вероятно, инструмент находится в бета-версии. Другой способ - внутри ZFS. Доступно как FUSE и изначально: http://zfsonlinux.org/ , Это делает дедупликацию онлайн, к сожалению, это замедляет запись, потому что все должно быть рассчитано на лету. Вы можете онлайн и на это поведение. После выключения дедупликации все дедуплицированные данные будут по-прежнему сохраняться как дедуплицированные. Новые записи будут сохранены как «дублированные». Если вы хотите дедуплицировать эти данные в будущем, вы должны включить дедупликацию и перезаписать все «дублированные» файлы.

Смотрите документ, доступный на странице. Для ускорения записи и чтения вы можете добавить более быстрые устройства в пул хранения (особенно SDD-диски или, возможно, более быструю флеш-память USB, обратите внимание на надежность устройства).


-2

DRBD делает именно это и делает это очень хорошо! Может сделать Master / Slave или Master / Master :-)


Не могли бы вы указать мне на документ по дедупликации? Я не могу найти его на drbd.org/home/feature-list .
Бенуа

Я думаю, что Антуан имел в виду «дублирование», что не совсем то, что вы искали, я знаю
Мэтт Симмонс

Боже мой, в чем разница между дублированием и дедупликацией?
Антуан Бенкемун

В своем комментарии я приведу краткое объяснение, но по сути дублирование отправляет данные на другой хост, где дедупликация удаляет идентичную информацию по всей файловой системе, увеличивая эффективное свободное пространство
Мэтт Симмонс
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.