หากคุณขอเนื้อหา gzip'ed (ใช้ส่วนหัว accept-encoding: gzip ซึ่งถูกต้อง) นั่นเป็นความเข้าใจของฉันที่ wget ไม่สามารถอ่านเนื้อหาได้ ดังนั้นคุณจะจบลงด้วยไฟล์ gzipped ไฟล์เดียวบนดิสก์สำหรับหน้าแรกที่คุณกด แต่ไม่มีเนื้อหาอื่น
นั่นคือคุณไม่สามารถใช้ wget เพื่อร้องขอเนื้อหา gzipped และเรียกคืนทั้งไซต์ได้ในเวลาเดียวกัน
ฉันคิดว่ามีแพทช์ที่อนุญาตให้ wget สนับสนุนฟังก์ชั่นนี้ แต่ไม่ได้อยู่ในรุ่นการแจกจ่ายเริ่มต้น
หากคุณรวมการตั้งค่าสถานะ -S คุณสามารถทราบได้ว่าเว็บเซิร์ฟเวอร์ตอบสนองด้วยเนื้อหาประเภทที่ถูกต้องหรือไม่ ตัวอย่างเช่น,
wget -S --header="accept-encoding: gzip" wordpress.com
--2011-06-17 16:06:46-- http://wordpress.com/
Resolving wordpress.com (wordpress.com)... 72.233.104.124, 74.200.247.60, 76.74.254.126
Connecting to wordpress.com (wordpress.com)|72.233.104.124|:80... connected.
HTTP request sent, awaiting response...
HTTP/1.1 200 OK
Server: nginx
Date: Fri, 17 Jun 2011 15:06:47 GMT
Content-Type: text/html; charset=UTF-8
Connection: close
Vary: Accept-Encoding
Last-Modified: Fri, 17 Jun 2011 15:04:57 +0000
Cache-Control: max-age=190, must-revalidate
Vary: Cookie
X-hacker: If you're reading this, you should visit automattic.com/jobs and apply to join the fun, mention this header.
X-Pingback: http://wordpress.com/xmlrpc.php
Link: <http://wp.me/1>; rel=shortlink
X-nananana: Batcache
Content-Encoding: gzip
Length: unspecified [text/html]
การเข้ารหัสเนื้อหาระบุ gzip ไว้อย่างชัดเจนอย่างไรก็ตามสำหรับ linux.about.com (ปัจจุบัน)
wget -S --header="accept-encoding: gzip" linux.about.com
--2011-06-17 16:12:55-- http://linux.about.com/
Resolving linux.about.com (linux.about.com)... 207.241.148.80
Connecting to linux.about.com (linux.about.com)|207.241.148.80|:80... connected.
HTTP request sent, awaiting response...
HTTP/1.1 200 OK
Date: Fri, 17 Jun 2011 15:12:56 GMT
Server: Apache
Set-Cookie: TMog=B6HFCs2H20kA1I4N; domain=.about.com; path=/; expires=Sat, 22-Sep-12 14:19:35 GMT
Set-Cookie: Mint=B6HFCs2H20kA1I4N; domain=.about.com; path=/
Set-Cookie: zBT=1; domain=.about.com; path=/
Vary: *
PRAGMA: no-cache
P3P: CP="IDC DSP COR DEVa TAIa OUR BUS UNI"
Cache-Control: max-age=-3600
Expires: Fri, 17 Jun 2011 14:12:56 GMT
Connection: close
Content-Type: text/html
Length: unspecified [text/html]
มันกลับมาเป็นข้อความ / html
เนื่องจากเบราว์เซอร์รุ่นเก่าบางรุ่นยังคงมีปัญหาเกี่ยวกับเนื้อหาที่เข้ารหัส gzip เว็บไซต์จำนวนมากจึงเปิดใช้งานได้ตามการระบุเบราว์เซอร์เท่านั้น พวกเขามักจะปิดใช้งานโดยค่าเริ่มต้นและเปิดหนึ่งเมื่อพวกเขารู้ว่าเบราว์เซอร์สามารถรองรับได้ - และพวกเขามักจะไม่รวม wget ในรายการนั้น ซึ่งหมายความว่าคุณอาจพบว่า wget จะไม่ส่งคืนเนื้อหา gzip แม้ว่าไซต์นั้นจะปรากฏในเบราว์เซอร์ของคุณก็ตาม