Сканер дубликатов файлов

У меня есть сеть хранения 15 ТБ, и сейчас у меня осталось около 2,5 ТБ (из-за большого количества дубликатов). Я пробовал много сканеров, но у меня был небольшой успех, в конце концов они все терпят крах из-за огромного количества данных. Есть ли какая-нибудь известная вам программа, которая сможет справиться с такими большими нагрузками? Меня не волнует платформа, на которой он работает.

Спасибо.

software-rec duplicate deduplication

— Reid
источник

По-разному. Например, если у вас есть копия Windows Server 2008 R2 (я забыл, нужен ли вам конкретный SKU, извините!), То в ней есть некоторые средства управления файлами, которые могут генерировать именно такие отчеты. Если бы мне приходилось собирать один из них вместе, я бы, вероятно, сделал что-то ужасное с Perl и хэшем, сериализовав хэши в файлы, основываясь на том, что я не знаю букв алфавита или чего-то еще. Было бы весело.

— Марк Аллен

У меня есть Windows Server 2008 R2, однако я не использовал его некоторое время после того, как мы переключились на серверы Linux. Вы проходите через это?

— Рейд

Что программа должна делать с дубликатами?

— Der Hochstapler

Я бы сказал, давайте начнем с их поиска. После этого мне нужно будет найти какой-то способ (самостоятельно написанный сценарий), чтобы сравнить все метаданные, а затем сделать резервную копию файлов на некоторых резервных HD-дисках и затем удалить их с серверов.

— Рейд

Какие программы вы пробовали без успеха?

— Скотт МакКленнинг

Ответы:

Если вы еще этого не сделали, вы можете обойти свою проблему, втиснув больше оперативной памяти в машину, на которой работает детектор дубликатов (при условии, что она еще не исчерпана). Вы также можете обойти свою проблему, разделив оставшиеся файлы на подмножества и сканируя пары этих подмножеств, пока не попробуете каждую комбинацию. Однако, в долгосрочной перспективе, это не может быть проблемой, лучше всего решаемой с помощью программы обнаружения дубликатов, которую вы должны периодически запускать.

Вы должны посмотреть на файловый сервер с дедупликацией данных . В двух словах, это будет автоматически хранить только 1 физическую копию каждого файла, при этом каждая «копия» будет жестко связана с одним физическим файлом. (Некоторые системы фактически используют дедупликацию на уровне блоков, а не дедупликацию на уровне файлов, но концепция та же.)

Более современные файловые системы, такие как ZFS , BTRFS и lessfs , поддерживают дедупликацию, как и ОС устройства OpenDedup fileserver. Одна или несколько из этих файловых систем уже могут быть доступны на ваших серверах Linux. Windows Storage Server также имеет дедупликацию. Если у вас есть деньги для решения этой проблемы, некоторые коммерческие решения SAN / NAS имеют возможность дедупликации.

Имейте в виду, однако, что дедупликация не обязательно поможет с небольшими, слегка измененными версиями тех же файлов. Если люди засоряют ваши серверы несколькими версиями своих файлов повсюду, вы должны попытаться заставить их лучше организовать свои файлы и использовать систему контроля версий - которая сохраняет только исходный файл и цепочку инкрементных различий.

Обновить:

64 ГБ должно быть достаточно для кэширования не менее 1 миллиарда записей пути файла контрольной суммы в физической памяти, при условии, что 128-разрядные контрольные суммы и средние метаданные (путь файловой системы, размер файла, дата и т. Д.) Не превышают 52 байта. Конечно, ОС начнет пейджинг в какой-то момент, но программа не должна аварийно завершить работу, то есть, если сам механизм поиска дубликатов файлов является 64-битным приложением.

Если средство поиска дубликатов файлов является только 32-разрядной программой (или если это сценарий, работающий на 32-разрядном интерпретаторе), количество файлов, которые вы можете обработать, может быть значительно меньше, если PAE не включен: больше порядка 63 миллионов (4 ГБ / (128 бит + 52 байта)) при тех же предположениях, что и раньше. Если у вас более 63 миллионов файлов, вы используете контрольную сумму большего размера или если средние метаданные, кэшируемые программой, превышают 52 байта, то вам, вероятно, просто нужно найти 64-битный искатель дубликатов файлов. В дополнение к программам, предложенным mgorven (которые, как я полагаю, доступны в 64-разрядной версии или, по крайней мере, их можно легко перекомпилировать), существует 64-разрядная версия DupFiles для Windows.

— грабить
источник

Я бы подумал, что 64 ГБ памяти DDR3 было достаточно хорошо ... У нас действительно есть зеркальные серверы хранения, поэтому другой сайт, использующий RSync. Моя проблема в основном в том, что другие люди делают копии больших презентаций или других файлов для резервного копирования или иным способом. После того, как пространство стало ограниченным, мы научили наших сотрудников «лучше убирать», но в то же время ущерб уже нанесен.

— Рейд

Спасибо за информацию. Настройка файлового сервера с поддержкой дедупликации и простая передача файлов на него позволят эффективно объединить все дубликаты и автоматически разрешат случаи, когда пользователи делают копии своих файлов. Сейчас это может быть непрактичным, но вы должны учитывать это при следующем расширении хранилища. Я подумал о другой проблеме, которая может иметь отношение к сбоям поиска дубликатов файлов, а может и нет, и добавил ее в свой ответ.

— ограбить

Вы пробовали rdfind , fdupes и findup из fslint ?

— mgorven
источник

Findup - единственный из вашего списка, который я пробовал, но я дам ему попытку с легкой установкой Linux на виртуальном кластере. Спасибо.

— Рейд

Это древний пост, но, пожалуйста, подумайте над расширением ответа. Просто указание на продукт не считается ответом по нынешним стандартам, потому что оно ничего не говорит о том, почему это хорошее решение или как его решить. Хорошее руководство по рекомендации программного обеспечения здесь . Благодарю.

— fixer1234