Редактировать 2015
начиная с util-linux 2.25, fallocate
утилита для Linux имеет параметр -d
/ --dig-hole
для этого.
fallocate -d the-file
Выкопал бы дыру для каждого блока, полного нулей в файле
В старых системах вы можете сделать это вручную:
У Linux есть FALLOC_FL_PUNCH_HOLE
опция, fallocate
которая может это сделать. Я нашел скрипт на github с примером:
Использование FALLOC_FL_PUNCH_HOLE из Python
Я немного изменил его, чтобы сделать то, что вы просили - пробивать дыры в областях файлов, заполненных нулями. Вот:
Использование FALLOC_FL_PUNCH_HOLE из Python для пробивания дырок в файлах
usage: punch.py [-h] [-v VERBOSE] FILE [FILE ...]
Punch out the empty areas in a file, making it sparse
positional arguments:
FILE file(s) to modify in-place
optional arguments:
-h, --help show this help message and exit
-v VERBOSE, --verbose VERBOSE
be verbose
Пример:
# create a file with some data, a hole, and some more data
$ dd if=/dev/urandom of=test1 bs=4096 count=1 seek=0
$ dd if=/dev/urandom of=test1 bs=4096 count=1 seek=2
# see that it has holes
$ du --block-size=1 --apparent-size test1
12288 test1
$ du --block-size=1 test1
8192 test1
# copy it, ignoring the hole
$ cat test1 > test2
$ du --block-size=1 --apparent-size test2
12288 test2
$ du --block-size=1 test2
12288 test2
# punch holes again
$ ./punch.py test2
$ du --block-size=1 --apparent-size test2
12288 test2
$ du --block-size=1 test2
8192 test2
# verify
$ cmp test1 test2 && echo "files are the same"
files are the same
Обратите внимание, что punch.py
для поиска могут быть найдены только блоки по 4096 байт, поэтому он может сделать файл не таким редким, каким был при запуске. Конечно, это можно сделать умнее. Кроме того, это только слегка проверено , поэтому будьте осторожны и делайте резервные копии, прежде чем доверять ему!