ฉันจะคลายการบีบอัดสตรีม gzip ด้วย zlib ได้อย่างไร


108

ไฟล์รูปแบบ Gzip (ที่สร้างด้วยgzipโปรแกรมเป็นต้น) ใช้อัลกอริทึมการบีบอัด "deflate" ซึ่งเป็นอัลกอริธึมการบีบอัดแบบเดียวกับที่zlibใช้ อย่างไรก็ตามเมื่อใช้ zlib เพื่อขยายไฟล์บีบอัด gzip ไลบรารีจะส่งคืนไฟล์Z_DATA_ERROR.

ฉันจะใช้ zlib เพื่อขยายขนาดไฟล์ gzip ได้อย่างไร

คำตอบ:


118

ในการขยายไฟล์รูปแบบ gzip ด้วย zlib ให้เรียกinflateInit2ด้วยwindowBitsพารามิเตอร์16+MAX_WBITSดังนี้:

inflateInit2(&stream, 16+MAX_WBITS);

หากคุณไม่ทำเช่นนี้ zlib จะบ่นเกี่ยวกับรูปแบบสตรีมที่ไม่ดี โดยค่าเริ่มต้น zlib จะสร้างสตรีมที่มีส่วนหัว zlib และเมื่อขยายจะไม่รู้จักส่วนหัว gzip ที่แตกต่างกันเว้นแต่คุณจะบอกเช่นนั้น แม้ว่านี่จะเป็นเอกสารที่เริ่มต้นในรุ่น 1.2.1 ของzlib.hไฟล์ส่วนหัวก็ไม่ได้อยู่ในคู่มือ zlib จากไฟล์ส่วนหัว:

windowBitsนอกจากนี้ยังสามารถมากกว่า 15 สำหรับการถอดรหัส gzip ที่เป็นทางเลือก เพิ่ม 32 เพื่อwindowBitsเปิดใช้งานการถอดรหัส zlib และ gzip ด้วยการตรวจจับส่วนหัวอัตโนมัติหรือเพิ่ม 16 เพื่อถอดรหัสเฉพาะรูปแบบ gzip (รูปแบบ zlib จะส่งคืน a Z_DATA_ERROR) หากกำลังถอดรหัสสตรีม gzip strm->adlerจะเป็น crc32 แทน adler32


35
ใน python:zlib.decompress(data, 15 + 32)
Roman Starkov

3
ขอบคุณนี่เป็นเรื่องที่น่าหงุดหงิดมากจนกระทั่งฉันพบโพสต์นี้
Alex

ว้าวนี่คือคำถามของปี 2009 ขอบคุณ @Greg Hewgill
YuAn Shaolin Maculelê Lai

บางทีคุณอาจให้แนวทางบางประการสำหรับการคลายการบีบอัด gzip แบบวนซ้ำได้ ในการคลายการบีบอัด gzip แบบ one-shot ซึ่งควรกำหนดขนาดและขนาดของเอาต์พุตสตรีมและเพียงพอสำหรับการจัดเก็บเอาต์พุตที่คลายการบีบอัดทั้งหมด ค่านี้ขึ้นอยู่กับประสิทธิภาพในการคลายการบีบอัด gzip ที่อาจแตกต่างกันไปตามเอนโทรปีของข้อมูล มีวิธีจัดสรรพื้นที่เพิ่มเติมให้กับบัฟเฟอร์เอาต์พุตแบบไดนามิกเมื่อจำเป็นหรือไม่? ขอบคุณ
Zohar81

104

หลาม

zlibห้องสมุดรองรับ :

  • RFC 1950 ( zlibรูปแบบบีบอัด)
  • RFC 1951 ( deflateรูปแบบบีบอัด)
  • RFC 1952 ( gzipรูปแบบบีบอัด)

zlibโมดูลpython จะรองรับสิ่งเหล่านี้เช่นกัน

เลือก windowBits

แต่zlibสามารถขยายขนาดรูปแบบเหล่านั้นทั้งหมด:

  • เป็น (de-) บีบอัดรูปdeflateแบบให้ใช้wbits = -zlib.MAX_WBITS
  • เป็น (de-) บีบอัดรูปzlibแบบให้ใช้wbits = zlib.MAX_WBITS
  • เป็น (de-) บีบอัดรูปgzipแบบให้ใช้wbits = zlib.MAX_WBITS | 16

ดูเอกสารในhttp://www.zlib.net/manual.html#Advanced (ส่วนinflateInit2)

ตัวอย่าง

ข้อมูลการทดสอบ:

>>> deflate_compress = zlib.compressobj(9, zlib.DEFLATED, -zlib.MAX_WBITS)
>>> zlib_compress = zlib.compressobj(9, zlib.DEFLATED, zlib.MAX_WBITS)
>>> gzip_compress = zlib.compressobj(9, zlib.DEFLATED, zlib.MAX_WBITS | 16)
>>> 
>>> text = '''test'''
>>> deflate_data = deflate_compress.compress(text) + deflate_compress.flush()
>>> zlib_data = zlib_compress.compress(text) + zlib_compress.flush()
>>> gzip_data = gzip_compress.compress(text) + gzip_compress.flush()
>>> 

การทดสอบที่ชัดเจนสำหรับzlib:

>>> zlib.decompress(zlib_data)
'test'

ทดสอบสำหรับdeflate:

>>> zlib.decompress(deflate_data)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
zlib.error: Error -3 while decompressing data: incorrect header check
>>> zlib.decompress(deflate_data, -zlib.MAX_WBITS)
'test'

ทดสอบสำหรับgzip:

>>> zlib.decompress(gzip_data)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
zlib.error: Error -3 while decompressing data: incorrect header check
>>> zlib.decompress(gzip_data, zlib.MAX_WBITS|16)
'test'

ข้อมูลยังเข้ากันได้กับgzipโมดูล:

>>> import gzip
>>> import StringIO
>>> fio = StringIO.StringIO(gzip_data)
>>> f = gzip.GzipFile(fileobj=fio)
>>> f.read()
'test'
>>> f.close()

การตรวจจับส่วนหัวอัตโนมัติ (zlib หรือ gzip)

เพิ่ม32เพื่อwindowBitsประสงค์การตรวจสอบส่วนหัวของทริกเกอร์

>>> zlib.decompress(gzip_data, zlib.MAX_WBITS|32)
'test'
>>> zlib.decompress(zlib_data, zlib.MAX_WBITS|32)
'test'

ใช้gzipแทน

สำหรับgzipข้อมูลที่มีส่วนหัว gzip คุณสามารถใช้gzipโมดูลได้โดยตรง แต่โปรดจำไว้ว่าภายใต้เครื่องดูดควัน , การใช้งานgzipzlib

fh = gzip.open('abc.gz', 'rb')
cdata = fh.read()
fh.close()

3
ทำไมทองชิ้นนี้ถึงไม่อยู่ในเอกสารในรูปแบบนี้?
Ramon Moraes

โปรดอย่าลังเลที่จะส่งคำขอดึง / แก้ไขกับ cpython โดยใช้คำตอบนี้
dnozay

คำตอบที่ดีสำหรับสตริงมีความคิดอย่างไรกับสตรีมโดยไม่ต้องอ่านไฟล์ทั้งหมดลงในหน่วยความจำ
Josh J

ขอบคุณ. ฉันสามารถแก้ปัญหาการคลายการบีบอัดในซอร์สโค้ดด้วยคำตอบของคุณ
Bethlee

เหลือเชื่อนี่คือนักเก็ตทองคำ .. แต่ฉันอดไม่ได้ที่จะรู้สึกว่านี่มันช่างเหมือนกับ 'เลขวิเศษ'? ในเอกสารนี้กล่าวถึงที่ไหน ฉันดู แต่ต้องตรวจสอบไม่ยากพอ .. นอกจากนี้สัญกรณ์ที่ฉันไม่ปฏิบัติตามอย่างสมบูรณ์ | หมายความว่าเป็นทางเลือกหรือไม่? แล้วทำไมค่าลบลบ .. MAX_WBITS เป็นค่าคงที่ .. 🙁
m1nkeh

3

โครงสร้างของ zlib และ gzip นั้นแตกต่างกัน zlib ใช้RFC 1950และ gzip ใช้RFC 1952เพื่อให้มีส่วนหัวที่แตกต่างกัน แต่ส่วนที่เหลือมีโครงสร้างเดียวกันและเป็นไปตามRFC 1951

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.