เปรียบเทียบฮิสโตแกรมสองภาพโดยใช้ระยะทาง Chi-Square


18

ฉันต้องการเปรียบเทียบภาพใบหน้าสองภาพ ฉันคำนวณ LBP-histograms ของพวกเขา ดังนั้นตอนนี้ฉันต้องเปรียบเทียบฮิสโตแกรมสองตัวนี้และรับบางสิ่งที่จะบอกว่าฮิสโทแกรมเหล่านี้เท่ากัน (0 - 100%)

มีหลายวิธีในการแก้ปัญหานี้ แต่ผู้เขียนของวิธี LBP เน้น (คำอธิบายใบหน้าด้วยรูปแบบไบนารีท้องถิ่น: การประยุกต์ใช้การจดจำใบหน้า 2004) ที่ Chi-Square ระยะทางดีกว่าการแยกฮิสโทแกรมและสถิติความน่าจะเป็น

ผู้เขียนยังแสดงสูตรของระยะทาง Chi-Square:

i=1n(xiyi)2(xi+yi)

โดยที่คือจำนวนของถังขยะคือค่าของถังขยะแรกคือค่าของถังขยะที่สองx i y i inxiyi

ในงานวิจัยบางชิ้น (ตัวอย่างเช่นตระกูลระยะทางฮิสโตแกรม Quadratic-Chi) ฉันเห็นว่าสูตรของระยะทาง Chi-Square คือ:

12i=1n(xiyi)2(xi+yi)

และมีhttp://www.itl.nist.gov/div898/handbook/eda/section3/eda35f.htmฉันเห็นสูตรของระยะทาง Chi-Square นั่นคือ:

i=1n(xiyi)2yi

ฉันติดอยู่กับมัน ฉันมีคำถามหลายข้อ:

  1. ฉันควรใช้นิพจน์ใด
  2. ฉันจะตีความผลลัพธ์ของความแตกต่างได้อย่างไร ฉันรู้ว่าความแตกต่างที่เท่ากับ 0 หมายความว่าฮิสโทแกรมทั้งสองเท่ากัน แต่ฉันจะรู้ได้อย่างไรเมื่อฮิสโทแกรมทั้งสองนั้นแตกต่างกันโดยสิ้นเชิง ฉันจำเป็นต้องใช้ตาราง Chi-Square สำหรับมันหรือไม่? หรือฉันจะต้องใช้เกณฑ์? โดยทั่วไปฉันต้องการทำแผนที่ความแตกต่างกับร้อยละ
  3. เหตุใดนิพจน์ทั้งสามนี้จึงแตกต่างกัน

yi ไม่ใช่ค่าของ bin เดียวกันกับ xi แต่อยู่ในการกระจายการเปรียบเทียบแทนที่จะเป็น bin ที่สองใช่ไหม
ReneBt

คำตอบ:


7

@Silverfish ขอขยายคำตอบโดย PolatAlemdar ซึ่งไม่ได้รับดังนั้นฉันจะพยายามขยายที่นี่

ทำไมระยะทางชื่อ chisquare? การทดสอบ chisquare สำหรับตารางฉุกเฉินขึ้นอยู่กับ ดังนั้นแนวคิดก็คือเก็บฟอร์มนี้และใช้เป็น วัดระยะทาง นี่เป็นสูตรที่สามของ OP โดยที่ตีความว่าเป็นการสังเกตและเป็นความคาดหมายซึ่งอธิบายความคิดเห็นของ PolatAlemdar "มันถูกใช้ในการแจกแจงความน่าจะเป็นแบบแยกส่วน" เช่นในการทดสอบแบบพอดี รูปแบบที่สามนี้เป็นไม่ได้ฟังก์ชั่นระยะตามที่มันเป็นแบบอสมมาตรในตัวแปรและy ที่สำหรับการเปรียบเทียบฮิสโตแกรมเราจะต้องการฟังก์ชันระยะทางซึ่งมีความสมมาตร xฉันYฉันxYxy ที่1

χ2=cells(OiEi)2Ei
xiyixyxและyและสองรูปแรกให้สิ่งนี้ ความแตกต่างระหว่างพวกเขาเป็นเพียงปัจจัยคงที่ซึ่งไม่สำคัญตราบใดที่คุณเพียงเลือกรูปแบบเดียวอย่างสม่ำเสมอ (แม้ว่ารุ่นที่มีปัจจัยพิเศษจะดีกว่าถ้าคุณต้องการเปรียบเทียบกับรูปแบบไม่สมมาตร) โปรดสังเกตความคล้ายคลึงกันในสูตรเหล่านี้ด้วยระยะทางแบบยุคลิดแบบสแควร์นั่นไม่ใช่เรื่องบังเอิญระยะทาง chisquare เป็นน้ำหนักแบบเดียวกัน 11212ยุคลิดแบบหนึ่ง สำหรับเหตุผลที่สูตรใน OP ที่มักจะวางภายใต้การเข้าสู่ระบบรากที่จะได้รับในระยะทาง ในต่อไปนี้เราทำตามนี้

ระยะทาง Chisquare ยังใช้ในการวิเคราะห์การโต้ตอบ หากต้องการดูความสัมพันธ์กับแบบฟอร์มที่ใช้ให้เป็นเซลล์ของตารางฉุกเฉินที่มีแถวและคอลัมน์แสดงว่าผลรวมเป็นแถวและผลรวมคอลัมน์{IJ} ระยะห่างระหว่างแถว chisquareถูกกำหนดโดย xijRCx+j=ixijxi+=jxijl,k

χ2(l,k)=j1x+j(xljxl+xkjxk+)2
สำหรับกรณีที่มีเพียงสองแถว (ฮิสโทแกรมสองอัน) เหล่านี้จะกู้คืนสูตรแรกของ OP (โมดูโลเครื่องหมายราก)
EDIT

การตอบคำถามในความคิดเห็นด้านล่าง: หนังสือที่มีการพูดคุยกันเป็นระยะเวลานานในระยะทาง chisquare คือ "การวิเคราะห์ CORRESPONDENCE ANALYSIS ในภาคปฏิบัติ (ฉบับที่สอง)" โดย Michael Greenacre (Chapman & Hall) มันเป็นชื่อที่รู้จักกันดีมาจากความคล้ายคลึงกับ chisquare เช่นเดียวกับที่ใช้กับตารางฉุกเฉิน มีการกระจายแบบใด ฉันไม่เคยศึกษาเรื่องนี้ แต่อาจ (ภายใต้เงื่อนไขบางอย่าง ... ) มันจะมีการกระจาย chisquare ประมาณ หลักฐานควรคล้ายกับสิ่งที่ทำกับตารางฉุกเฉินวรรณกรรมส่วนใหญ่เกี่ยวกับการวิเคราะห์การติดต่อไม่ได้เข้าสู่ทฤษฎีการกระจาย กระดาษที่มีบางทฤษฎีที่เกี่ยวข้องอาจจะเป็น http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0101-74382016000100023 ยังดู/stats//search?q=%22chisquare+distance%22สำหรับโพสต์ที่เกี่ยวข้องอื่น ๆ ในเว็บไซต์นี้


ฉันขอถามได้ไหมว่าทำไมสมการสุดท้ายของคุณเรียกว่าระยะทาง chisquare มันกระจายเช่นนี้หรือไม่? คุณสามารถให้แหล่งที่มาโปรดหรือลิงค์ไปยังได้หรือไม่ ฉันไม่สามารถหามันเจอ
LeastSquaresWonderer

1
ดูการแก้ไขของฉันด้านบน
kjetil b halvorsen

3

ฉันพบว่าลิงก์นี้มีประโยชน์มาก: http://docs.opencv.org/2.4/doc/tutorials/imgproc/histograms/histogram_comparison/histogram_comparison.html

ฉันไม่แน่ใจว่าทำไม แต่ OpenCV ใช้สูตร 3 ที่คุณแสดงรายการสำหรับการเปรียบเทียบฮิสโตแกรม Chi-Square

ในความหมายฉันไม่แน่ใจว่าอัลกอริธึมการวัดใดจะให้ขอบเขตที่ จำกัด เช่น 0% ถึง 100% คุณสามารถบอกได้ว่าภาพสองภาพเหมือนกัน: ค่าสหสัมพันธ์ 1.0 หรือค่าไคสแควร์ 0.0 แต่มันยากที่จะกำหนดขีด จำกัด ว่าภาพทั้งสองแตกต่างกันอย่างไร: จินตนาการเปรียบเทียบภาพสีขาวสนิทกับภาพสีดำสนิทค่าตัวเลขอาจเป็นแบบ Infinity หรือ Not-a-Number


2

ในความเป็นจริงคุณสามารถใช้สิ่งที่คุณเชื่อว่าถูกต้องสำหรับกรณีของคุณ อันสุดท้ายแตกต่างกัน มันถูกใช้ในการกระจายความน่าจะเป็นที่ไม่ต่อเนื่องเป็นคนสุดท้ายที่จะได้ส่วนถ้าคุณสลับและy ที่xy

ส่วนอีกสองจะใช้ในการคำนวณความคล้ายคลึงกันฮิสโตแกรม


1
$x$x

2
xy

0

ตามที่ OP ร้องขอค่าเป็นเปอร์เซ็นต์ (สำหรับสมการ 1):

p=χS100N

pχNS

เติมเต็มตามที่ร้องขอ:

การคำนวณสมการนี้สามารถมีเปอร์เซ็นต์ของความแตกต่างจากฮิสโตแกรมเต็มรูปแบบ การคำนวณนี้สำหรับฮิสโตแกรมทั้งสองจากนั้นลบอันใดอันหนึ่งออกจากกันหนึ่งอันสามารถมีเปอร์เซ็นต์แตกต่างกันได้


2
ฉันมีเวลายากที่จะเห็นว่านี่เป็นคำตอบสำหรับคำถามใด ๆ คุณสามารถทำอย่างละเอียด?
Laconic

สิ่งนี้จะให้ (เป็นเปอร์เซ็นต์ตามที่ร้องขอ) ฮีสโตแกรมหนึ่งแตกต่างจากฮิสโตแกรมเต็มรูปแบบอย่างไร หากคุณคำนวณสมการนี้จากฮิสโตแกรมทั้งสองเราจะทราบความแตกต่างจากอันหนึ่งไปอีกอันหนึ่งเช่นเดียวกับที่ใช้สำหรับการคำนวณสมการ
Carlos Barcellos
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.