Если вы запрашиваете содержимое gzip (используя заголовок accept-encoding: gzip, что правильно), то, насколько я понимаю, wget не сможет затем прочитать содержимое. Таким образом, вы получите один сжатый файл на диске для первой попавшейся страницы, но без другого контента.
То есть вы не можете использовать wget для запроса содержимого в формате gzip и одновременного просмотра всего сайта.
Я думаю, что есть патч, который позволяет wget поддерживать эту функцию, но его нет в версии по умолчанию.
Если вы включите флаг -S, вы сможете определить, отвечает ли веб-сервер правильным типом контента. Например,
wget -S --header="accept-encoding: gzip" wordpress.com
--2011-06-17 16:06:46-- http://wordpress.com/
Resolving wordpress.com (wordpress.com)... 72.233.104.124, 74.200.247.60, 76.74.254.126
Connecting to wordpress.com (wordpress.com)|72.233.104.124|:80... connected.
HTTP request sent, awaiting response...
HTTP/1.1 200 OK
Server: nginx
Date: Fri, 17 Jun 2011 15:06:47 GMT
Content-Type: text/html; charset=UTF-8
Connection: close
Vary: Accept-Encoding
Last-Modified: Fri, 17 Jun 2011 15:04:57 +0000
Cache-Control: max-age=190, must-revalidate
Vary: Cookie
X-hacker: If you're reading this, you should visit automattic.com/jobs and apply to join the fun, mention this header.
X-Pingback: http://wordpress.com/xmlrpc.php
Link: <http://wp.me/1>; rel=shortlink
X-nananana: Batcache
Content-Encoding: gzip
Length: unspecified [text/html]
Кодировка содержимого четко гласит gzip, однако для linux.about.com (в настоящее время),
wget -S --header="accept-encoding: gzip" linux.about.com
--2011-06-17 16:12:55-- http://linux.about.com/
Resolving linux.about.com (linux.about.com)... 207.241.148.80
Connecting to linux.about.com (linux.about.com)|207.241.148.80|:80... connected.
HTTP request sent, awaiting response...
HTTP/1.1 200 OK
Date: Fri, 17 Jun 2011 15:12:56 GMT
Server: Apache
Set-Cookie: TMog=B6HFCs2H20kA1I4N; domain=.about.com; path=/; expires=Sat, 22-Sep-12 14:19:35 GMT
Set-Cookie: Mint=B6HFCs2H20kA1I4N; domain=.about.com; path=/
Set-Cookie: zBT=1; domain=.about.com; path=/
Vary: *
PRAGMA: no-cache
P3P: CP="IDC DSP COR DEVa TAIa OUR BUS UNI"
Cache-Control: max-age=-3600
Expires: Fri, 17 Jun 2011 14:12:56 GMT
Connection: close
Content-Type: text/html
Length: unspecified [text/html]
Это возвращает текст / HTML.
Поскольку некоторые старые браузеры по-прежнему имеют проблемы с содержимым в кодировке gzip, многие сайты включают его только на основании идентификации браузера. Они часто выключают его по умолчанию и включают его только тогда, когда знают, что браузер может его поддерживать - и обычно они не включают wget в этот список. Это означает, что вы можете обнаружить, что wget никогда не возвращает содержимое gzip, даже если сайт, похоже, делает это для вашего браузера.