“ อะไรคือวิธีที่ถูกต้องที่สุดในการคำนวณเอนโทรปีของภาพ?
คำถามที่ยอดเยี่ยมและทันเวลา
ตรงกันข้ามกับความเชื่อที่ได้รับความนิยมมันเป็นไปได้จริง ๆ ที่จะกำหนดสัญชาตญาณ (และในทางทฤษฎี) ข้อมูลข่าวสารธรรมชาติ - ภาพเอนโทรปีของภาพ
พิจารณารูปต่อไปนี้:
เราจะเห็นได้ว่าภาพที่แตกต่างนั้นมีฮิสโตแกรมที่มีขนาดกะทัดรัดกว่าดังนั้นข้อมูลเอนโทรปีของแชนนอนจึงต่ำกว่า ดังนั้นเราสามารถลดความซ้ำซ้อนได้โดยใช้ลำดับที่สองแชนนอนเอนโทรปี (เช่นเอนโทรปีที่ได้จากข้อมูลส่วนต่าง) หากเราสามารถขยายความคิดนี้ให้อยู่ในรูปแบบ 2D ได้เราอาจคาดหวังการประมาณค่าที่ดีสำหรับข้อมูลสารสนเทศ
ฮิสโตแกรมสองมิติของการไล่ระดับสีอนุญาตให้มีการขยาย 2D
เราสามารถทำข้อโต้แย้งให้เป็นระเบียบและแน่นอนว่าเรื่องนี้เสร็จสมบูรณ์เมื่อเร็ว ๆ นี้ Recapping สั้น ๆ :
การสังเกตว่าคำจำกัดความง่ายๆ (ดูตัวอย่างคำจำกัดความของภาพเอนโทรปีของ MATLAB) ละเว้นโครงสร้างเชิงพื้นที่เป็นสิ่งสำคัญ เพื่อให้เข้าใจถึงสิ่งที่เกิดขึ้นมันคุ้มค่าที่จะกลับไปที่เคส 1D สั้น ๆ เป็นที่ทราบกันมานานแล้วว่าการใช้ฮิสโตแกรมของสัญญาณเพื่อคำนวณข้อมูล / เอนโทรปีของแชนนอนนั้นไม่สนใจโครงสร้างทางโลกหรืออวกาศและให้การประมาณที่ไม่ดีของการบีบอัดโดยธรรมชาติหรือความซ้ำซ้อน การแก้ปัญหานั้นมีอยู่ในข้อความคลาสสิกของแชนนอนแล้ว ใช้คุณสมบัติลำดับที่สองของสัญญาณเช่นความน่าจะเป็นในการเปลี่ยนแปลง การสังเกตในปี 1971 (ข้าว & Plaunt) ตัวทำนายที่ดีที่สุดของค่าพิกเซลในการสแกนแบบแรสเตอร์คือค่าของพิกเซลก่อนหน้านี้จะนำไปสู่การทำนายผลทันทีและลำดับที่สองแชนนอนเอนโทรปีที่สอดคล้องกับแนวคิดการบีบอัดอย่างง่ายเช่นการเข้ารหัสระยะยาว ความคิดเหล่านี้ได้รับการปรับปรุงในช่วงปลายยุค 80 ทำให้เกิดเทคนิคการเข้ารหัสภาพแบบ lossless (ความแตกต่าง) แบบคลาสสิกที่ยังคงใช้งานอยู่ (PNG, lossless JPG, GIF, lossless JPG2000) ในขณะที่เวฟเล็ตและ DCTs ใช้สำหรับการเข้ารหัสแบบสูญเสียเท่านั้น
ย้ายตอนนี้เป็น 2D; นักวิจัยพบว่ามันยากมากที่จะขยายความคิดของแชนนอนไปสู่มิติที่สูงขึ้นโดยไม่ต้องพึ่งพาการปฐมนิเทศ เราอาจคาดหวังว่าข้อมูลจากเอนโทรปีของภาพแชนนอนนั้นเป็นอิสระจากการปฐมนิเทศ นอกจากนี้เรายังคาดว่าภาพที่มีโครงสร้างเชิงพื้นที่ที่ซับซ้อน (เช่นตัวอย่างเสียงรบกวนของผู้ถาม) จะมีข้อมูลข่าวสารสูงกว่าภาพที่มีโครงสร้างเชิงพื้นที่ที่เรียบง่าย (เช่นตัวอย่างระดับสีเทาเรียบของผู้ถาม) ปรากฎว่าเหตุผลที่มันยากที่จะขยายความคิดของแชนนอนจาก 1D เป็น 2D คือมีความไม่สมดุล (ด้านเดียว) ในสูตรดั้งเดิมของแชนนอนที่ป้องกันไม่ให้สูตรสมมาตร (isotropic) ในแบบ 2D เมื่อแก้ไขความไม่สมดุลของ 1D ส่วนขยายแบบ 2D สามารถดำเนินการได้อย่างง่ายดายและเป็นธรรมชาติ
ตัดไปที่การไล่ล่า (ผู้อ่านที่สนใจสามารถตรวจสอบรายละเอียดการแสดงออกในการพิมพ์ arXiv ที่https://arxiv.org/abs/1609.01117 ) ซึ่งการคำนวณเอนโทรปีของภาพนั้นคำนวณจากฮิสโตแกรม 2 มิติของการไล่ระดับสี
ก่อนอื่นคำนวณ 2D pdf โดยการประมาณค่า binning ของรูปภาพ x และ y อนุพันธ์ สิ่งนี้คล้ายกับการดำเนินการ binning ที่ใช้ในการสร้างฮิสโตแกรมความเข้มที่พบบ่อยใน 1D อนุพันธ์สามารถประมาณได้ด้วยความแตกต่างอัน จำกัด 2 พิกเซลที่คำนวณในทิศทางแนวนอนและแนวตั้ง สำหรับรูปภาพสี่เหลี่ยมจัตุรัส NxN f (x, y) เราคำนวณค่า NxN ของอนุพันธ์อนุพันธ์บางส่วนและค่า NxN ของ fy เราสแกนภาพที่แตกต่างกันและสำหรับทุกพิกเซลที่เราใช้ (fx, fy) เพื่อค้นหา bin ที่ไม่ต่อเนื่องในอาร์เรย์ปลายทาง (PDF pdf) ที่เพิ่มขึ้นทีละหนึ่ง เราทำซ้ำพิกเซล NxN ทั้งหมด PDF แบบ 2D ที่ได้จะต้องเป็นมาตรฐานเพื่อให้มีความน่าจะเป็นโดยรวมของหน่วย (เพียงแค่หารด้วย NxN ก็จะทำให้ได้) PDF แบบ 2D พร้อมแล้วสำหรับขั้นตอนต่อไป
การคำนวณเอนโทรปีของข้อมูลแชนนอน 2D จากการไล่ระดับสีแบบ pdf เป็นเรื่องง่าย สูตรสรุปรวมแบบลอการิทึมแบบลอการิทึมของแชนนอนนั้นใช้โดยตรงยกเว้นปัจจัยที่สำคัญของครึ่งหนึ่งซึ่งมีต้นกำเนิดมาจากการพิจารณาการสุ่มตัวอย่างแบบไม่ จำกัด แบนด์แบบพิเศษสำหรับภาพการไล่ระดับสี (ดูรายละเอียด arXiv paper) ปัจจัยครึ่งทำให้เอนโทรปี 2D ที่คำนวณได้ต่ำกว่าเมื่อเปรียบเทียบกับวิธีอื่น ๆ (ซ้ำซ้อนมากขึ้น) สำหรับการประมาณค่าเอนโทรปี 2D หรือการบีบอัดแบบไม่สูญเสีย
ฉันขอโทษฉันยังไม่ได้เขียนสมการที่จำเป็นลงที่นี่ แต่ทุกอย่างมีอยู่ในข้อความที่พิมพ์ล่วงหน้า การคำนวณเป็นแบบตรง (ไม่ใช่แบบวนซ้ำ) และความซับซ้อนในการคำนวณนั้นเป็นไปตามลำดับ (จำนวนพิกเซล) NxN ข้อมูลที่ได้จากการคำนวณขั้นสุดท้ายของแชนนอนนั้นเป็นอิสระจากการหมุนและสอดคล้องกับจำนวนบิตที่จำเป็นในการเข้ารหัสภาพในรูปแบบการไล่ระดับสีที่ไม่ซ้ำซ้อน
โดยวิธีการวัดเอนโทรปี 2D ใหม่คาดการณ์เอนโทรปี (ที่ชื่นชอบ) 8 บิตต่อพิกเซลสำหรับภาพแบบสุ่มและ 0.000 บิตต่อพิกเซลสำหรับภาพการไล่ระดับสีเรียบในคำถามเดิม