เอนโทรปีของภาพ


21

ข้อมูล / ฟิสิกส์ - ทฤษฎีที่ถูกต้องที่สุดในการคำนวณเอนโทรปีของภาพคืออะไร? ตอนนี้ฉันไม่สนใจประสิทธิภาพการคำนวณฉันต้องการให้มันถูกต้องตามหลักเหตุผลเท่าที่จะทำได้

ให้เริ่มต้นด้วยภาพระดับสีเทา วิธีการหนึ่งที่ใช้งานง่ายคือการพิจารณาภาพเป็นถุงพิกเซลและคำนวณ ที่คือจำนวนของระดับสีเทาและเป็นความน่าจะเป็นที่เกี่ยวข้องกับระดับสีเทาkK p k k

H=kpklog2(pk)
Kpkk

มีสองปัญหาเกี่ยวกับคำนิยามนี้:

  1. มันใช้งานได้กับวงดนตรีหนึ่งวง (เช่นระดับสีเทา) แต่จะขยายวงกว้างอย่างไรในวิธีที่ถูกต้องทางสถิติไปยังวงดนตรีหลายวง? ตัวอย่างเช่นสำหรับ 2 แบนด์ควรมีหนึ่งฐานตั้งอยู่บนและทำให้ PMF ใช้หรือไม่ หากมีวงดนตรีหลายวง( >> 2) ดังนั้นซึ่งดูเหมือนว่าผิดP ( X 1 = x 1 , X 2 = x 2 ) B P ( X 1 = x 1 , . . . , X B = x B ) ~ 1 / N BH M X(X1,X2)P(X1=x1,X2=x2)BP(X1=x1,...,XB=xB)~1/ยังไม่มีข้อความBHMAX
  2. ข้อมูลเชิงพื้นที่จะไม่นำมาพิจารณา ตัวอย่างเช่นภาพด้านล่าง (อารักขาของจอห์นโลมิส ) มีเหมือนกันแม้ว่าจะชัดเจนว่าพวกเขาไม่ได้นำเสนอข้อมูลเดียวกันH

ป้อนคำอธิบายรูปภาพที่นี่ป้อนคำอธิบายรูปภาพที่นี่

ใครสนใจที่จะอธิบายหรือให้คำแนะนำหรือแนะนำให้ฉันไปที่เนื้อหาอ้างอิงที่ดีเกี่ยวกับเรื่อง? ฉันสนใจในแนวทางที่ถูกต้องตามหลักวิชาของปัญหาที่สอง (เช่นข้อมูลเชิงพื้นที่)


2
ฉันคิดว่าคุณควรดูที่ฟิลด์สุ่มของมาร์คอฟเช่นfiles.is.tue.mpg.de/chwang/papers/CVIU2013_MRFSurvey.pdf
seanv507

1
นอกจากนี้ยังมีการฝึกอบรมร่วมสีเทาระดับ
seanv507

@ seanv507 ใช่แน่นอน แบบจำลองกราฟิกที่ไม่มีทิศทางหรือเขตข้อมูลสุ่มของมาร์คอฟคือสิ่งที่ฉันกำลังศึกษา จะโพสต์กลับเมื่อฉันรู้มากขึ้น
Davor Josipovic

คำตอบ:


17

“ อะไรคือวิธีที่ถูกต้องที่สุดในการคำนวณเอนโทรปีของภาพ?

คำถามที่ยอดเยี่ยมและทันเวลา

ตรงกันข้ามกับความเชื่อที่ได้รับความนิยมมันเป็นไปได้จริง ๆ ที่จะกำหนดสัญชาตญาณ (และในทางทฤษฎี) ข้อมูลข่าวสารธรรมชาติ - ภาพเอนโทรปีของภาพ

พิจารณารูปต่อไปนี้:

ป้อนคำอธิบายรูปภาพที่นี่

เราจะเห็นได้ว่าภาพที่แตกต่างนั้นมีฮิสโตแกรมที่มีขนาดกะทัดรัดกว่าดังนั้นข้อมูลเอนโทรปีของแชนนอนจึงต่ำกว่า ดังนั้นเราสามารถลดความซ้ำซ้อนได้โดยใช้ลำดับที่สองแชนนอนเอนโทรปี (เช่นเอนโทรปีที่ได้จากข้อมูลส่วนต่าง) หากเราสามารถขยายความคิดนี้ให้อยู่ในรูปแบบ 2D ได้เราอาจคาดหวังการประมาณค่าที่ดีสำหรับข้อมูลสารสนเทศ

ฮิสโตแกรมสองมิติของการไล่ระดับสีอนุญาตให้มีการขยาย 2D

เราสามารถทำข้อโต้แย้งให้เป็นระเบียบและแน่นอนว่าเรื่องนี้เสร็จสมบูรณ์เมื่อเร็ว ๆ นี้ Recapping สั้น ๆ :

การสังเกตว่าคำจำกัดความง่ายๆ (ดูตัวอย่างคำจำกัดความของภาพเอนโทรปีของ MATLAB) ละเว้นโครงสร้างเชิงพื้นที่เป็นสิ่งสำคัญ เพื่อให้เข้าใจถึงสิ่งที่เกิดขึ้นมันคุ้มค่าที่จะกลับไปที่เคส 1D สั้น ๆ เป็นที่ทราบกันมานานแล้วว่าการใช้ฮิสโตแกรมของสัญญาณเพื่อคำนวณข้อมูล / เอนโทรปีของแชนนอนนั้นไม่สนใจโครงสร้างทางโลกหรืออวกาศและให้การประมาณที่ไม่ดีของการบีบอัดโดยธรรมชาติหรือความซ้ำซ้อน การแก้ปัญหานั้นมีอยู่ในข้อความคลาสสิกของแชนนอนแล้ว ใช้คุณสมบัติลำดับที่สองของสัญญาณเช่นความน่าจะเป็นในการเปลี่ยนแปลง การสังเกตในปี 1971 (ข้าว & Plaunt) ตัวทำนายที่ดีที่สุดของค่าพิกเซลในการสแกนแบบแรสเตอร์คือค่าของพิกเซลก่อนหน้านี้จะนำไปสู่การทำนายผลทันทีและลำดับที่สองแชนนอนเอนโทรปีที่สอดคล้องกับแนวคิดการบีบอัดอย่างง่ายเช่นการเข้ารหัสระยะยาว ความคิดเหล่านี้ได้รับการปรับปรุงในช่วงปลายยุค 80 ทำให้เกิดเทคนิคการเข้ารหัสภาพแบบ lossless (ความแตกต่าง) แบบคลาสสิกที่ยังคงใช้งานอยู่ (PNG, lossless JPG, GIF, lossless JPG2000) ในขณะที่เวฟเล็ตและ DCTs ใช้สำหรับการเข้ารหัสแบบสูญเสียเท่านั้น

ย้ายตอนนี้เป็น 2D; นักวิจัยพบว่ามันยากมากที่จะขยายความคิดของแชนนอนไปสู่มิติที่สูงขึ้นโดยไม่ต้องพึ่งพาการปฐมนิเทศ เราอาจคาดหวังว่าข้อมูลจากเอนโทรปีของภาพแชนนอนนั้นเป็นอิสระจากการปฐมนิเทศ นอกจากนี้เรายังคาดว่าภาพที่มีโครงสร้างเชิงพื้นที่ที่ซับซ้อน (เช่นตัวอย่างเสียงรบกวนของผู้ถาม) จะมีข้อมูลข่าวสารสูงกว่าภาพที่มีโครงสร้างเชิงพื้นที่ที่เรียบง่าย (เช่นตัวอย่างระดับสีเทาเรียบของผู้ถาม) ปรากฎว่าเหตุผลที่มันยากที่จะขยายความคิดของแชนนอนจาก 1D เป็น 2D คือมีความไม่สมดุล (ด้านเดียว) ในสูตรดั้งเดิมของแชนนอนที่ป้องกันไม่ให้สูตรสมมาตร (isotropic) ในแบบ 2D เมื่อแก้ไขความไม่สมดุลของ 1D ส่วนขยายแบบ 2D สามารถดำเนินการได้อย่างง่ายดายและเป็นธรรมชาติ

ตัดไปที่การไล่ล่า (ผู้อ่านที่สนใจสามารถตรวจสอบรายละเอียดการแสดงออกในการพิมพ์ arXiv ที่https://arxiv.org/abs/1609.01117 ) ซึ่งการคำนวณเอนโทรปีของภาพนั้นคำนวณจากฮิสโตแกรม 2 มิติของการไล่ระดับสี

ก่อนอื่นคำนวณ 2D pdf โดยการประมาณค่า binning ของรูปภาพ x และ y อนุพันธ์ สิ่งนี้คล้ายกับการดำเนินการ binning ที่ใช้ในการสร้างฮิสโตแกรมความเข้มที่พบบ่อยใน 1D อนุพันธ์สามารถประมาณได้ด้วยความแตกต่างอัน จำกัด 2 พิกเซลที่คำนวณในทิศทางแนวนอนและแนวตั้ง สำหรับรูปภาพสี่เหลี่ยมจัตุรัส NxN f (x, y) เราคำนวณค่า NxN ของอนุพันธ์อนุพันธ์บางส่วนและค่า NxN ของ fy เราสแกนภาพที่แตกต่างกันและสำหรับทุกพิกเซลที่เราใช้ (fx, fy) เพื่อค้นหา bin ที่ไม่ต่อเนื่องในอาร์เรย์ปลายทาง (PDF pdf) ที่เพิ่มขึ้นทีละหนึ่ง เราทำซ้ำพิกเซล NxN ทั้งหมด PDF แบบ 2D ที่ได้จะต้องเป็นมาตรฐานเพื่อให้มีความน่าจะเป็นโดยรวมของหน่วย (เพียงแค่หารด้วย NxN ก็จะทำให้ได้) PDF แบบ 2D พร้อมแล้วสำหรับขั้นตอนต่อไป

การคำนวณเอนโทรปีของข้อมูลแชนนอน 2D จากการไล่ระดับสีแบบ pdf เป็นเรื่องง่าย สูตรสรุปรวมแบบลอการิทึมแบบลอการิทึมของแชนนอนนั้นใช้โดยตรงยกเว้นปัจจัยที่สำคัญของครึ่งหนึ่งซึ่งมีต้นกำเนิดมาจากการพิจารณาการสุ่มตัวอย่างแบบไม่ จำกัด แบนด์แบบพิเศษสำหรับภาพการไล่ระดับสี (ดูรายละเอียด arXiv paper) ปัจจัยครึ่งทำให้เอนโทรปี 2D ที่คำนวณได้ต่ำกว่าเมื่อเปรียบเทียบกับวิธีอื่น ๆ (ซ้ำซ้อนมากขึ้น) สำหรับการประมาณค่าเอนโทรปี 2D หรือการบีบอัดแบบไม่สูญเสีย

ฉันขอโทษฉันยังไม่ได้เขียนสมการที่จำเป็นลงที่นี่ แต่ทุกอย่างมีอยู่ในข้อความที่พิมพ์ล่วงหน้า การคำนวณเป็นแบบตรง (ไม่ใช่แบบวนซ้ำ) และความซับซ้อนในการคำนวณนั้นเป็นไปตามลำดับ (จำนวนพิกเซล) NxN ข้อมูลที่ได้จากการคำนวณขั้นสุดท้ายของแชนนอนนั้นเป็นอิสระจากการหมุนและสอดคล้องกับจำนวนบิตที่จำเป็นในการเข้ารหัสภาพในรูปแบบการไล่ระดับสีที่ไม่ซ้ำซ้อน

โดยวิธีการวัดเอนโทรปี 2D ใหม่คาดการณ์เอนโทรปี (ที่ชื่นชอบ) 8 บิตต่อพิกเซลสำหรับภาพแบบสุ่มและ 0.000 บิตต่อพิกเซลสำหรับภาพการไล่ระดับสีเรียบในคำถามเดิม


1
งานที่น่าสนใจ ตอนนี้ Razlighi ได้ทำการเปรียบเทียบอัลกอริธึมเอนโทรปีหลายอย่างใน บทความนี้ ฉันสงสัยว่าคุณจะเปรียบเทียบอย่างไรโดยเฉพาะกับภาพสังเคราะห์ที่เขาใช้ที่นั่น อาจคุ้มค่าที่จะตรวจสอบ
Davor Josipovic

ขอบคุณที่กล่าวถึงกระดาษของ Razlighi ผลการทดสอบที่สำคัญแสดงในรูปที่ 2 ฉันเชื่อว่าการวัดปริมาณสองมิติแบบสองมิติของฉันจะมีค่าเอนโทรปีสำหรับค่าสหสัมพันธ์ 0.0 แล้ววางลงไปใกล้กับค่าเอนโทรปีปกติสำหรับค่าสหสัมพันธ์ 1.0 ฉันไม่ได้คำนวณค่าเหล่านี้จริง ๆ แต่มันปฏิบัติตามโดยตรงจากส่วน 3.2 ของคำนำหน้า arXiv ของฉันเพราะสหสัมพันธ์ที่สูงนั้นสอดคล้องกับแบนด์วิดท์สเปกตรัมต่ำดังนั้นจึงมีค่าเอนโทรปีต่ำ
Kieran Larkin

ฉันชอบวิธีนี้ ดูเหมือนง่ายสำหรับฉัน ขั้นตอนเพิ่มเติมของการคำนวณการไล่ระดับสีก่อนที่จะคำนวณเอนโทรปีดูเหมือนว่าจะเข้ารหัสข้อมูลเชิงพื้นที่อย่างสังหรณ์ใจ ผมพยายามที่จะเล่นไปรอบ ๆ และคำนวณกับงูหลามที่นี่ แต่ฉันพยายามที่จะทำซ้ำกัดกร่อนจากกระดาษของคุณ (ดูรหัสตัวอย่างสุดท้าย) ฉันสามารถทำซ้ำมันด้วยการลอย! นั่นเป็นเพราะด้วยจำนวนเต็มการไล่ระดับสีอยู่ใน [-6,6] สำหรับภาพทดสอบของฉันแม้ว่าจะใช้ 16 บิตส่งผลให้มีเพียง 49 ช่องที่ไม่ใช่ศูนย์สำหรับฮิสโตแกรม
mxmlnkn

กระดาษของคุณเคยตีพิมพ์บ้างไหม? คุณหรือคนอื่นทำงานต่อไปหรือไม่?
Andrei

รหัสตัวอย่าง Matlab นั้นยอดเยี่ยม
Pedro77

8

ไม่มีทั้งหมดขึ้นอยู่กับบริบทและข้อมูลก่อนหน้าของคุณ เอนโทรปีมีการตีความหลายอย่างเช่น "การวัดความเป็นระเบียบ" หรือ "การวัดข้อมูล" แต่แทนที่จะมองไปที่การตีความคุณสามารถดูได้ว่ามันคืออะไร เอนโทรปีเป็นเพียงวิธีการแสดงจำนวนสถานะของระบบ ระบบที่มีหลายรัฐมีพลังงานสูงและระบบที่มีไม่กี่รัฐมีพลังงานต่ำ

คุณและบทความที่คุณลิงก์ไป - ระบุว่าภาพสองภาพมีเอนโทรปีเดียวกัน สิ่งนี้ไม่ถูกต้อง (สำหรับฉัน)

บทความคำนวณเอนโทรปีได้อย่างถูกต้อง

H=-Σkพีkล.โอก.2(พีk)

พีk=1M=2-n

ดังนั้นเอนโทรปีคือ:

H=-Σkพีkล.โอก.2(พีk)=-Σk2-nล.โอก.2(2-n)=-ล.โอก.2(2-n)=n

อย่างไรก็ตามนี่ไม่ใช่กรณีสำหรับภาพที่สอง

เอนโทรปียังสามารถคำนวณเป็น:

H=-Σkพีkล.โอก.2(พีk)

พีk=1M=2-nพี1พี2,พี3,พี4...พีม.anY

ดังนั้นภาพสองภาพไม่มีเอนโทรปีเดียวกัน

มันอาจฟังดูเป็นเรื่องง่ายที่เอนโทรปีขึ้นอยู่กับว่าคุณมองปัญหาอย่างไร อย่างไรก็ตามคุณอาจรู้จากการบีบอัดข้อมูล การบีบอัดสูงสุดของไฟล์ถูกกำหนดโดยทฤษฎีการเข้ารหัสซอร์สของแชนนอนซึ่งตั้งค่าขีด จำกัด สูงสุดสำหรับอัลกอริทึมการบีบอัดที่สามารถบีบอัดไฟล์ได้ดีเพียงใด ขีด จำกัด นี้ขึ้นอยู่กับเอนโทรปีของไฟล์ คอมเพรสเซอร์ที่ทันสมัยทั้งหมดจะบีบอัดไฟล์ใกล้เคียงกับขีด จำกัด นี้

อย่างไรก็ตามหากคุณรู้ว่าไฟล์เป็นไฟล์เสียงคุณสามารถบีบอัดไฟล์ได้โดยใช้ FLACแทนที่จะเป็นไฟล์บีบอัดทั่วไป FLAC ไม่สูญหายดังนั้นข้อมูลทั้งหมดจะถูกเก็บไว้ FLAC ไม่สามารถเข้าใจทฤษฎีการเข้ารหัสซอร์สของแชนนอนนั่นคือคณิตศาสตร์ แต่สามารถดูไฟล์ในลักษณะที่ช่วยลดการเอนโทรปีของไฟล์จึงทำการบีบอัดที่ดีขึ้น

เมื่อฉันมองคุณภาพที่สองฉันเห็นว่าพิกเซลเรียงตามค่าสีเทาและดังนั้นจึงไม่มีเอนโทรปีเดียวกันกับฉันเป็นภาพที่มีสัญญาณรบกวนแบบสุ่ม


ฉันคิดว่า OP ตระหนักดีว่าสิ่งนี้ - เขากำลังขอแบบจำลองความน่าจะเป็นที่มีข้อมูลเชิงพื้นที่
seanv507

@ seanv507 ฉันอ่านคำถามอีกครั้ง ฉันไม่แน่ใจถ้าฉันเห็นด้วยกับคุณหรือไม่ ฉันเชื่อว่า OP กำลังมองหาบางอย่างที่ไม่มีอยู่
bottiger

H

@bottiger FLAC ไม่สามารถลดเอนโทรปีของไฟล์เสียงได้ตามที่นิยามโดยการบีบอัดแบบ lossy การบีบอัดทำได้โดยการขจัดความซ้ำซ้อน
Paul Uszak

อาจจะถูกต้องหรือไม่ที่จะบอกว่าสูตรเอนโทรปีแบบดั้งเดิมนั้นถูกต้องเฉพาะในกรณีที่ค่าพิกเซลมีความเป็นอิสระอย่างมาก?
volperossa

2

โดยพื้นฐานแล้วความคิดเรื่องเอนโทรปีคือ "จำนวนไมโครฯ ที่สอดคล้องกับแมคโครสเตท"

พี[ผม,ชั่วโมง]ผมพี[ชั่วโมง|ผม]

ชั่วโมงผม


1

H=-Σkพีkล.โอก.2(พีk)

ใช้งานไม่ได้ในทางปฏิบัติด้วยเหตุผลง่ายๆที่เป็นไปไม่ได้ที่จะกำหนด Pk คุณคิดว่าคุณสามารถทำได้ตามที่คุณทำโดยพิจารณาจากจำนวนระดับสีเทา Pk ไม่ใช่อย่างนั้น Pk เป็นการผสมผสานที่เป็นไปได้ของระดับสีเทา คุณต้องสร้างทรีความน่าจะเป็นหลายมิติโดยพิจารณาจากการรวมกันของพิกเซล 1, 2, 3 ... ถ้าคุณอ่านงานของแชนนอนคุณจะเห็นเขาทำการคำนวณนี้สำหรับภาษาอังกฤษธรรมดาโดยพิจารณาจากความลึกของต้นไม้ 3 ตัวอักษร จากนั้นจะได้รับเทอะทะโดยไม่ใช้คอมพิวเตอร์

คุณพิสูจน์ด้วยตัวคุณเองด้วยคำแถลงที่ 2 นั่นเป็นเหตุผลที่การคำนวณเอนโทรปีของคุณส่งคืนเอนโทรปีในระดับเดียวกันสำหรับสองภาพ

นอกจากนี้ยังไม่มีแนวคิดเรื่องการกระจายตัวแบบพิเศษในการคำนวณเอนโทรปี หากมีคุณต้องคำนวณเอนโทรปีต่างกันสำหรับตัวอย่างที่กระจายชั่วคราว แล้วคุณจะทำอะไรกับอาร์เรย์ข้อมูล 11 มิติ? สำหรับข่าวสารเอนโทรปี มันวัดเป็นไบต์

เพียงแค่บีบอัดภาพโดยใช้อัลกอริทึมการบีบอัด มันจะส่งออกประมาณของเอนโทรปีเป็นไบต์ มันจะทำสิ่งนี้เพื่อภาพใด ๆ หรือสิ่งอื่นใดที่สามารถแปลงเป็นดิจิทัลได้เช่นดนตรีหรือบทละครของเช็คสเปียร์

ดังนั้น. ภาพสุ่มของคุณมีประมาณ 114 KBytes และภาพที่คุณสั่งซื้อมีประมาณ 2.2 KBytes นี่คือสิ่งที่คุณคาดหวัง แต่คุณรู้ชนิดนี้แล้วเพราะคุณเห็นว่าขนาดไฟล์ภาพมีขนาดเท่านี้ ฉันลดขนาดการบีบอัดลง 33% เพื่อให้สามารถปรับปรุงอัลกอริทึมการบีบอัดในอนาคตได้ ฉันไม่สามารถเห็นพวกเขาพัฒนาเกินกว่านี้ได้เนื่องจากเส้นโค้งการปรับปรุงกำลังกลายเป็นสิ่งที่แสดงถึงคุณค่าที่แท้จริง

PS เพื่อความสนใจเชคสเปียร์ผลิตเอนโทรปีเพียง 1 MByte ในงานของเขาตลอดชีวิตซึ่งคำนวณโดยเทคนิคนี้ ส่วนใหญ่มันค่อนข้างดีแม้ว่า

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.