Вопросы с тегом «deduplication»

19
Есть ли простой способ заменить дубликаты файлов жесткими ссылками?
Я ищу простой способ (команда или серия команд, возможно, с участием find), чтобы найти дубликаты файлов в двух каталогах и заменить файлы в одном каталоге с жесткими ссылками файлов в другом каталоге. Вот ситуация: это файловый сервер, на котором несколько человек хранят аудиофайлы, каждый из которых имеет свою собственную папку. …

1
Как скопировать файл без копирования его данных с помощью btrfs?
У меня нет опыта работы с btrfs, но он рекламирует возможность дублирования файлов. В моем приложении мне нужно будет дублировать целые деревья каталогов. Из того, что я узнал, btrfs только дедуплицирует в некоторых пост-сканированиях, а не сразу. cpКажется, даже простое использование не вызывает дедупликации (по крайней мере, dfпоказывает увеличенное использование …

2
Существуют ли сценарии дедупликации, которые используют btrfs CoW для дедупликации?
В Linux существует множество инструментов для дедупликации, см., Например, эту вики-страницу . Практически все сценарии выполняют только обнаружение, распечатку дубликатов имен файлов или удаление дубликатов файлов путем привязки их к одной копии. С появлением btrfs появится еще один вариант: создание копии файла (например, копирование при записи) в формате CoW cp …

4
Как найти повторяющиеся строки во многих больших файлах?
У меня есть ~ 30 тыс. Файлов. Каждый файл содержит ~ 100 тыс. Строк. Строка не содержит пробелов. Строки в отдельном файле сортируются и дублируются бесплатно. Моя цель: я хочу , чтобы найти все все повторяющиеся строки через два или более файлов , а также имена файлов, содержащие дублированные записи. …

1
Сделать tar (или другой) архив с выравниванием блоков данных, как в исходных файлах для лучшей дедупликации на уровне блоков?
Как можно создать tar-файл, чтобы содержимое tar-файлов было выровнено по блокам, как в исходных файлах, чтобы можно было извлечь выгоду из дедупликации на уровне блоков ( https://unix.stackexchange.com/a/208847/9689 ) ? (Правильно ли я понимаю, что ничто не свойственно формату tar, который мешает нам получить такую ​​выгоду? В противном случае, если не …

5
Удалить повторяющиеся строки из файла, который содержит метку времени
Этот вопрос / ответ имеет несколько хороших решений для удаления идентичных строк в файле, но не будет работать в моем случае, так как в противном случае дублирующиеся строки имеют временную метку. Можно ли сказать awk игнорировать первые 26 символов строки при определении дубликатов? Пример: [Fri Oct 31 20:27:05 2014] The …

2
Дедупликация на уровне раздела
Какие существуют решения для блочного уровня или более детальной дедупликации? Существуют файловые - с подходом «Копирование при записи». Я ищу на уровне блоков «копирование при записи», чтобы я мог периодически искать общие блоки или - предпочтительно - части файлов, объединять их и помечать для использования CoW. Есть ли что-то подобное …
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.