คุณสมบัติใดที่ทำให้เวฟเล็ตบางตัว“ ดีขึ้น” กว่าแบบอื่นในการบีบอัดภาพ


39

ฉันพยายามสอนตัวเองเกี่ยวกับการบีบอัดภาพโดยใช้วิธีการแปลงเวฟเล็ต คำถามของฉันคืออะไรเกี่ยวกับเวฟเล็ตบางตัวที่ทำให้พวกมันเป็นที่นิยมเมื่อทำการบีบอัดภาพ? ง่ายต่อการคำนวณหรือไม่ พวกเขาผลิตภาพที่นุ่มนวลขึ้นหรือไม่? ฯลฯ ...

ตัวอย่าง: JPEG 2000ใช้เวฟเล็ตCohen-Daubechies-Feauveau 9/7 ... ทำไมจึงเป็นเช่นนี้


เท่าที่ฉันรู้เวฟ Daubechies ให้พื้นฐานที่ราบรื่นดังนั้นภาพที่มีการบีบอัดสูงจะ "เบลอ" ตัวอย่างเช่นเวฟ Haar จะสร้างสิ่งประดิษฐ์บล็อก ตั้งแต่ที่คุณพูดถึง JPEG 2000 ฉันอยากจะทราบด้วยว่ารูปแบบการเข้ารหัสของค่าสัมประสิทธิ์เวฟเล็ตที่ไม่เป็นศูนย์ก็มีผลกับภาพที่ถอดรหัส (EZW, SPIHT, ... )
Libor

คำถามของคุณได้รับคำตอบแล้ว อย่าลังเลที่จะลงคะแนนให้กับผู้ที่มีประโยชน์และยอมรับสิ่งที่เหมาะสมที่สุด
Laurent Duval

คำตอบ:


26

ภาพรวม

คำตอบสั้น ๆ คือพวกเขามีจำนวนสูงสุดvanishing momentsสำหรับการกำหนดsupport(เช่นจำนวนสัมประสิทธิ์ตัวกรอง) นั่นคือคุณสมบัติ "ส่วนใหญ่" ซึ่งจำแนกเวฟเล็ต Daubechiesโดยทั่วไป ช่วงเวลาที่หายไปมากขึ้นหมายถึงการบีบอัดที่ดีขึ้นและการสนับสนุนที่มีขนาดเล็กก็หมายถึงการคำนวณที่น้อยลง ในความเป็นจริงการแลกเปลี่ยนระหว่างช่วงเวลาที่หายไปและขนาดของตัวกรองเป็นสิ่งสำคัญมาก ตัวอย่างเช่นคุณมักจะเห็นD4เวฟเรียกว่าไม่ว่าจะเป็นหรือD4 หมายถึงจำนวนของสัมประสิทธิ์และdb242หมายถึงจำนวนช่วงเวลาที่หายไป ทั้งสองอ้างถึงวัตถุทางคณิตศาสตร์เดียวกัน ด้านล่างฉันจะอธิบายเพิ่มเติมเกี่ยวกับช่วงเวลา (และสาเหตุที่เราต้องการทำให้หายไป) แต่สำหรับตอนนี้เพียงแค่เข้าใจว่าเกี่ยวข้องกับวิธีที่เราสามารถ "พับ" ข้อมูลส่วนใหญ่ในสัญญาณให้เล็กลง จำนวนค่า การบีบอัดแบบ Lossy ทำได้โดยการรักษาค่าเหล่านั้นและทิ้งส่วนอื่น ๆ

ตอนนี้คุณอาจสังเกตเห็นว่าCDF 9/7มีการใช้ชื่อในJPEG 2000ตัวเลขสองตัวแทนที่จะเป็นหนึ่ง bior 4.4ในความเป็นจริงก็ยังเรียกว่า นั่นเป็นเพราะมันไม่ใช่เวฟเล็ตแบบ "มาตรฐาน" เลย ในความเป็นจริงมันไม่ได้เก็บพลังงานในทางเทคนิคและทรัพย์สินนั้นเป็นเหตุผลทั้งหมดที่ผู้คนตื่นเต้นกับ DWT ตั้งแต่แรก! ตัวเลข9/7และ4.4ยังคงอ้างถึงช่วงเวลาการสนับสนุนและการหายตัวไปตามลำดับ แต่ตอนนี้มีค่าสัมประสิทธิ์สองชุดที่กำหนดเวฟเล็ต ศัพท์เทคนิคก็คือแทนที่จะเป็นorthogonalพวกbiorthogonalมัน แทนที่จะลึกลงไปในสิ่งที่หมายถึงทางคณิตศาสตร์ฉัน

JPEG 2000

รายละเอียดเพิ่มเติมเกี่ยวกับการตัดสินใจเกี่ยวกับการออกแบบโดยรอบเวฟเล็ต CDF 9/7 สามารถดูได้จากเอกสารต่อไปนี้:

Usevitch ไบรอันอีสอนเกี่ยวกับโมเดิร์น Lossy เวฟภาพการบีบอัด: ฐานรากของ JPEG ที่ 2000

ฉันจะตรวจสอบประเด็นหลักที่นี่

  1. บ่อยครั้งที่คลื่น Daubechies แบบมุมฉากสามารถส่งผลให้เกิดการเพิ่มจำนวนของค่าที่ต้องการเพื่อเป็นตัวแทนของสัญญาณ coefficient expansionผลที่ได้คือที่เรียกว่า หากเราทำการบีบอัดแบบ lossy ที่อาจจะหรืออาจจะไม่สำคัญ (เนื่องจากเรากำลังทิ้งค่าในตอนท้าย) อย่างไรก็ตามมันดูเหมือนจะต่อต้านในบริบทของการบีบอัดแน่นอน วิธีหนึ่งในการแก้ปัญหาคือการรักษาสัญญาณอินพุตเป็นระยะ

  2. [0,1,2,3][...0,1,2,3,0,1,2,3,...][0,1,2,3][...,0,1,2,3,3,2,1,0,0,1...]

  3. น่าเสียดายที่เวฟเล็ตแบบมุมฉากเพียงอันเดียวที่มีคุณสมบัติที่ต้องการคือเวฟ Haar (หรือ D2, db1) ซึ่งเป็นช่วงเวลาเดียวที่หายไป ฮึ. นั่นนำเราไปสู่เวฟเล็ต bioglogal ซึ่งเป็นการนำเสนอซ้ำซ้อนจริง ๆ และดังนั้นจึงไม่อนุรักษ์พลังงาน เหตุผลที่ใช้เวฟเล็ต CDF 9/7 ในทางปฏิบัติก็เพราะพวกมันถูกออกแบบมาให้ใกล้เคียงกับการอนุรักษ์พลังงาน พวกเขายังได้ทดสอบอย่างดีในทางปฏิบัติ

มีวิธีอื่นในการแก้ปัญหาต่าง ๆ (กล่าวถึงสั้น ๆ ในกระดาษ) แต่สิ่งเหล่านี้เป็นจังหวะที่กว้างของปัจจัยที่เกี่ยวข้อง

ช่วงเวลาที่หายไป

ดังนั้นอะไรคือช่วงเวลาและทำไมเราถึงสนใจพวกเขา? สัญญาณที่ราบเรียบสามารถประมาณได้ดีโดยชื่อพหุนามเช่นฟังก์ชันของรูปแบบ:

a+bx+cx2+dx3+...

ช่วงเวลาของฟังก์ชั่น (เช่นสัญญาณ) เป็นการวัดความคล้ายคลึงกันของกำลัง x ที่กำหนด ในทางคณิตศาสตร์นี่แสดงเป็นผลคูณภายในระหว่างฟังก์ชันและกำลังของ x ช่วงเวลาที่หายไปหมายถึงผลิตภัณฑ์ภายในเป็นศูนย์และดังนั้นฟังก์ชั่นจะไม่ "คล้าย" พลังของ x ดังต่อไปนี้ (สำหรับกรณีต่อเนื่อง):

xnf(x)dx=0

ϕψ. คำศัพท์นั้นดูเหมือนจะแตกต่างกันบ้าง แต่เป็นสิ่งที่ฉันจะใช้ที่นี่ ในแต่ละขั้นตอนของ DWT ตัวกรอง highpass ถูกใช้เพื่อ "ลอกออก" ชั้นของรายละเอียดและตัวกรอง lowpass จะให้สัญญาณที่นุ่มนวลโดยไม่มีรายละเอียดนั้น หากตัวกรอง highpass มีช่วงเวลาที่หายไปช่วงเวลาเหล่านั้น (เช่นคุณสมบัติพหุนามต่ำ) จะถูกยัดลงในสัญญาณที่ราบเรียบเสริมมากกว่าสัญญาณรายละเอียด ในกรณีของการบีบอัดข้อมูลแบบสูญเสียหวังว่าสัญญาณรายละเอียดจะไม่มีข้อมูลมากนักและเราสามารถละทิ้งข้อมูลส่วนใหญ่ไปได้

1/2

ϕ=[1,1]ψ=[1,1]

x0=1[2,2,2,2]

[2,2,2,2]ψϕ{[2+2,2+2]=[4,4][22,22]=[0,0]

และเกิดอะไรขึ้นกับรอบที่สองซึ่งทำงานบนสัญญาณที่ราบเรียบ:

[4,4]ψϕ{[4+4]=[8][44]=[0]

288

อ่านเพิ่มเติม

ฉันคัดสรรรายละเอียดมากมายเพื่อให้สามารถเข้าถึงการรักษาดังกล่าวได้ บทความต่อไปนี้มีการวิเคราะห์ที่ลึกกว่ามาก:

M. Unser และ T. Blu คุณสมบัติทางคณิตศาสตร์ของตัวกรองเวฟเล็ต JPEG2000คือ IEEE Trans Image Proc., vol. 12 หมายเลข 9, ก.ย. 2003, หน้า 1080-1090

เชิงอรรถ

กระดาษด้านบนดูเหมือนว่าแนะนำเวฟ JPEG2000 เรียกว่า Daubechies 9/7 และแตกต่างจากเวฟเล็ต CDF 9/7

Daubechies8

[11] A. Cohen, I. Daubechies และ JC Feauveau, "ฐาน biorthogonal ของคลื่นที่รองรับการบีบอัดอย่างแน่นหนา" Comm แอปบริสุทธิ์ คณิตศาสตร์ฉบับที่ 45, ไม่ 5, pp. 485–560, 1992

ร่างของมาตรฐาน JPEG2000 ( ลิงก์ pdf ) ที่ฉันเรียกดูยังเรียก Daubechies ตัวกรองอย่างเป็นทางการ 9/7 มันอ้างอิงกระดาษนี้:

M. Antonini, M. Barlaud, P. Mathieu และ I. Daubechies,“ Image coding โดยใช้การแปลงเวฟเล็ต” IEEE Trans รูปภาพ Proc 1, pp. 205-220, เมษายน 2535

ฉันไม่ได้อ่านแหล่งที่มาเหล่านั้นดังนั้นฉันจึงไม่สามารถพูดได้อย่างแน่นอนว่าทำไมวิกิพีเดียจึงเรียกใช้ JPEG2000 wavelet CDF 9/7 ดูเหมือนว่าอาจมีความแตกต่างระหว่างทั้งสอง แต่ผู้คนเรียกอย่างเป็นทางการว่า JPEG2000 เวฟเล็ต CDF 9/7 ต่อไป (เพราะมันเป็นพื้นฐานเดียวกันหรือไม่) โดยไม่คำนึงถึงชื่อกระดาษโดย Usevitch อธิบายถึงสิ่งที่ใช้ในมาตรฐาน


@datageist คำตอบที่ยอดเยี่ยม! นอกจากนี้เหตุผลที่ 9/7 มาอยู่ในสถานที่แรกอีกเพราะมันเป็นทางเลือกในการฟื้นฟูปัจจัยพหุนามกับข้อ จำกัด ที่ฟิลเตอร์เป็นสมมาตร ด้วยวิธีนี้การตอบสนองเฟสยังคงเป็นแบบเชิงเส้น (ตรงกันข้ามเวฟ daub4 ในขณะที่ FIR นั้นไม่สมมาตรและเหนี่ยวนำเฟสที่ไม่เป็นเชิงเส้นในสัญญาณที่ประมวลผลแล้ว) 9/7 ถูกใช้ใน JPEG เนื่องจากความโน้มเอียงส่วนตัวทำให้เราชอบที่จะเป็นเส้นตรงมากกว่าการบิดเบือนที่ไม่เป็นเชิงเส้นในภาพ
Spacey

1
บทความที่ดี ข้อมูลในบทความ wikipedia สอดคล้องกับแหล่งข้อมูลที่อ้างถึงโดยหลักแล้ว Daubechies "10 Lectures" ดังนั้นมันอาจล้าสมัยเมื่อเทียบกับ JPEG2000 การแก้ไขเดียว: biorthogonal ไม่ซ้ำซ้อน เงื่อนไข biorthogonality กำหนดธนาคารกรองตรงกันข้าม หม้อแปลงไฟฟ้าสำรองเริ่มต้นด้วย framelets
ดร. Lutz Lehmann

10

ความดีของการแปลงสัญญาณจะถูกประเมินบนสองเมทริกที่แตกต่างกัน: การบีบอัดและในกรณีของการบีบอัดข้อมูลคุณภาพ การบีบอัดถูกกำหนดโดยการบีบอัดพลังงาน แต่คุณภาพนั้นยากกว่า

คุณภาพดั้งเดิมนั้นวัดจากความคลาดเคลื่อนกำลังสองหรือ SNR เฉลี่ยต่อพิกเซล อย่างไรก็ตามมนุษย์ไม่มีแนวโน้มที่จะประเมินสัญญาณด้วย MSE หรือ SNR มนุษย์มีความอ่อนไหวต่อเสียงที่มีโครงสร้างซึ่ง MSE ไม่น่าจะเป็น การพัฒนาอัลกอริธึมที่นำเสนอตัวชี้วัดคุณภาพเหมือนมนุษย์เป็นส่วนสำคัญของการวิจัย ดัชนี SIMULARITY (SSIM) ของ Bovik เป็นจุดเริ่มต้นที่ดี


6

เป็นคำตอบสั้น ๆ - การแปลงใด ๆ จะดีกว่าการแปลงแบบอื่นเมื่อมีสิ่งที่เรียกว่า "คุณสมบัติการอัดพลังงาน" ซึ่งอธิบายไว้ด้านล่าง:

"เมื่อมีค่าสัมประสิทธิ์การแปลงเพียงส่วนน้อยเท่านั้นที่มีขนาดใหญ่อย่างเช่นการรักษาประสิทธิภาพร่วมเพียงเล็กน้อยและการละทิ้งหรือการหาปริมาณอื่น ๆ ยังช่วยให้การก่อสร้างใกล้จะสมบูรณ์แบบ" คุณสมบัติดังกล่าวเกี่ยวข้องกับความสามารถในการตกแต่งที่เป็นเอกเทศของการเปลี่ยนแปลงแบบรวม "

การแปลงรูปด้วยคุณสมบัติการอัดพลังงานที่น้อยกว่านั้นเป็นสิ่งที่ต้องการสัญลักษณ์จำนวนน้อยที่สุดและบิตที่น้อยลง

การแปลงสภาพที่มีคุณสมบัติการอัดพลังงานสูงสุดคือ DCT

Dipan


1
DCT มีการบีบอัดพลังงานสูงสุดสำหรับคลาสสัญญาณที่ไม่รู้จัก หากคุณสามารถระบุลักษณะโดเมนสัญญาณของคุณคุณสามารถทำได้ดีกว่า
totowtwo

ฉันเห็นด้วย @totowtwo ประเด็นของฉันคือ "คุณสมบัติความกะทัดรัดของพลังงาน" คือสิ่งที่ทำให้การแปลงสภาพเป็นสิ่งที่ทำให้เครื่องยนต์โคเดกดีกว่า
Dipan Mehta

5

ภาพที่เป็นธรรมชาติประกอบด้วยคุณสมบัติภาพที่แตกต่างกันเราสามารถจัดหมวดหมู่ให้กว้างในลักษณะพื้นผิวและขอบที่ราบรื่นหรือช้า วิธีการบีบอัดที่ดีคือวิธีที่เปลี่ยนรูปไปเป็นโดเมนซึ่งพลังงานของสัญญาณทั้งหมดได้รับการอนุรักษ์ในค่าสัมประสิทธิ์เพียงไม่กี่

การแปลงฟูริเยร์พยายามประมาณภาพโดยใช้ไซน์และโคไซน์ ตอนนี้ไซน์และโคไซน์สามารถประมาณสัญญาณที่ค่อนข้างราบเรียบได้ค่อนข้างรัดกุม แต่ไม่ดีพอที่จะประเมินความไม่ต่อเนื่อง หากคุณคุ้นเคยกับปรากฏการณ์ของกิ๊บส์คุณจะรู้ว่าต้องมีค่าสัมประสิทธิ์ฟูริเยร์จำนวนมากเพื่อหลีกเลี่ยงสิ่งประดิษฐ์ในการประมาณความไม่ต่อเนื่องในเวลา อย่างไรก็ตามยิ่งมีค่าสัมประสิทธิ์จำนวนน้อยเท่าใดการบีบอัดก็จะยิ่งดีขึ้น ดังนั้นจึงมีการแลกเปลี่ยนกันโดยธรรมชาติระหว่างจำนวนค่าสัมประสิทธิ์และการสูญเสียของวิธีการบีบอัดซึ่งเรามักจะเรียกว่าการแลกเปลี่ยนอัตราการบิดเบือน

k2/3k1ตามลำดับ สำหรับคำศัพท์จำนวนเดียวกันข้อผิดพลาดจะสลายตัวเร็วขึ้นสำหรับเวฟเล็ต ซึ่งหมายความว่าเวฟเล็ตมีการบีบอัดพลังงานที่ดีขึ้นเมื่อภาพไม่ราบรื่นอย่างสมบูรณ์ (เปลี่ยนแปลงช้า) และมีความแปลกประหลาด

อย่างไรก็ตามเราในขณะนี้ยังไม่มีพื้นฐานหรือการแปลงที่สามารถประมาณคุณสมบัติที่ราบเรียบจุดเอกฐานขอบและพื้นผิว


4

DCT นั้นมีการบีบอัดพลังงานที่ดีมากสำหรับสัญญาณทั่วไปจำนวนมากและมันก็ค่อนข้างดีกับวิธีการเลี้ยวเบน (กระบวนการทางกายภาพพื้นฐานในการถ่ายภาพ) ทำงานได้ดีเนื่องจากการเลี้ยวเบนสามารถแสดงเป็นเคอร์เนลฟูริเยร์ สิ่งเหล่านี้ให้ประโยชน์มากมาย

ปัญหาคือว่าค่าสัมประสิทธิ์ DCT จำเป็นต้องมีการ delocalized ทั่วพื้นที่การแปลงทั้งหมด สิ่งนี้ต้องการให้มีการสร้างพื้นที่แปลง (บล็อก) ขนาดเล็กจำนวนมากเพื่อให้พลังงานในพื้นที่หนึ่งไม่กระจายไปเป็นพื้นที่อื่นเมื่อทำการแปลง ทั้งสองนี้จะจำกัดความสามารถของการแปลงเป็นพลังงานขนาดกะทัดรัดและยังแนะนำสิ่งประดิษฐ์ที่ขอบเขตบล็อกจำนวนมาก

ฉันไม่ได้ทำเวฟเล็ตมากนักดังนั้นฉันจึงผิด แต่พวกมันมีความละเอียดมากกว่าโดยมีค่าสัมประสิทธิ์ต่างกันซึ่งแสดงถึงการแลกเปลี่ยนพื้นที่ / ความถี่ที่แตกต่างกัน สิ่งนี้ทำให้ขนาดบล็อกใหญ่ขึ้นโดยมีสิ่งประดิษฐ์น้อยลง ไม่แน่ใจในทางปฏิบัติว่ามีความแตกต่างกันมากเพียงใด


0

เมื่อพูดถึงเวฟเล็ตที่ดีกว่าเราควรพิจารณาว่าพวกมันมีเอนโค้ดเดอร์ตัวเดียวกันอยู่ด้านหลังประสิทธิภาพของการแปลงนั้นมีความสัมพันธ์กันอย่างมากกับการหาปริมาณและการเข้ารหัส ประสิทธิภาพโดยทั่วไปคือ: การบีบอัดที่ดีกว่าสำหรับคุณภาพเดียวกันหรือคุณภาพที่ดีขึ้นสำหรับการบีบอัดเดียวกัน การบีบอัดเป็นการวัดที่ง่ายคุณภาพไม่ได้ แต่สมมติว่าเรามี

×124×4

ในที่สุดนี้ขึ้นอยู่กับคลาสของรูปภาพที่คุณต้องการบีบอัด: จุดประสงค์หรือโฟกัสเช่นเดียวกับภาพทางการแพทย์หรือการบีบอัดข้อมูลแผ่นดินไหวด้วยข้อมูล จำกัด ประเภทใด ที่นี่อีกครั้งเวฟเล็ตอาจแตกต่างกัน

ทีนี้องค์ประกอบทางสัณฐานวิทยาหลักของภาพคืออะไรและเวฟเล็ตจัดการกับมันอย่างไร:

  • แนวโน้มที่ช้า, ภูมิหลังที่กำลังพัฒนา: ช่วงเวลาที่หายไป, ซึ่งกำจัดพหุนามในเวฟเล็ตย่อย
  • การกระแทก: ตกลงด้วยฟังก์ชั่นการปรับขนาด
  • edge: จับได้ด้วยอนุพันธ์ของเวฟเล็ต
  • พื้นผิว: ความผันผวนที่ถูกจับโดยลักษณะการสั่นของคลื่น
  • ส่วนที่เหลือสิ่งที่มีเสียงดังไม่มีรูปแบบ: จัดการโดย orthogonality (หรือปิดเกินไป)

ดังนั้นในด้านการวิเคราะห์เวฟเล็ตที่ดีที่สุดนั้นดีการบีบอัดคุณสมบัติข้างต้นให้เป็นไปอย่างทั่วโลก ในด้านการสังเคราะห์เวฟเล็ตที่ดีที่สุดจะช่วยลดเอฟเฟกต์การบีบอัดเช่นการหาปริมาณเพื่อให้มุมมองที่น่าพอใจ คุณสมบัติที่ต้องการในการวิเคราะห์ / การสังเคราะห์นั้นแตกต่างกันเล็กน้อยนี่คือสาเหตุที่เวฟ biorthogonal นั้นดี: คุณสามารถแยกการวิเคราะห์ (ช่วงเวลาที่หายไป) / การสังเคราะห์ (ความนุ่มนวล) ซึ่งคุณไม่สามารถทำได้กับออร์โธกอนอล ค่อนข้างเป็นอันตรายต่อประสิทธิภาพการคำนวณ เพิ่มเติมคลื่น biorthogonal สามารถสมมาตรดีสำหรับขอบ

ในที่สุดคุณต้องการบีบอัด lossless บ้างไหม? จากนั้นคุณต้องมีเวฟเล็ต (หรือ binlets) ที่มีลักษณะเหมือน "จำนวนเต็ม"

และทุกอย่างที่กล่าวมาข้างต้นผสมกับประเด็นการคำนวณ: เวฟเล็ตที่แยกกันไม่ได้ไม่นาน และกระบวนการมาตรฐานในคณะกรรมการ JPEG

ในที่สุด 5/3 ค่อนข้างดีสำหรับ lossless สั้นพอ บางส่วนของ 9/7 ก็ดีเช่นกัน ดีกว่าเวฟเล็ต 13/7ไหม ไม่จริงและแม้ว่าจะอยู่ใน PSNR ไม่ใช่คุณภาพของภาพที่ดีที่สุด

ดังนั้นเวฟเล็ตที่ดีที่สุดอยู่ห่างออกไปเพื่อภาพลักษณ์ดั้งเดิมและการสื่อสารส่วนตัวกับนักเขียน

M. Unser และ T. Blu คุณสมบัติทางคณิตศาสตร์ของตัวกรองเวฟเล็ต JPEG2000คือ IEEE Trans Image Proc., vol. 12 หมายเลข 9, ก.ย. 2003, หน้า 1080-1090

ทำให้ฉันเชื่อว่าส่วนที่ "ดีที่สุด" ของ 9/7 ไม่ได้อธิบายอย่างเต็มที่และไม่มั่นใจ

M

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.