ให้สองฮิสโตแกรมเราจะประเมินได้อย่างไรว่าพวกมันคล้ายกันหรือไม่
มันเพียงพอแล้วหรือไม่ที่จะดูสองฮิสโทแกรม การแมปแบบหนึ่งต่อหนึ่งอย่างง่ายมีปัญหาว่าหากฮิสโตแกรมแตกต่างกันเล็กน้อยและเปลี่ยนไปเล็กน้อยจากนั้นเราจะไม่ได้ผลลัพธ์ที่ต้องการ
ข้อเสนอแนะใด ๆ
ให้สองฮิสโตแกรมเราจะประเมินได้อย่างไรว่าพวกมันคล้ายกันหรือไม่
มันเพียงพอแล้วหรือไม่ที่จะดูสองฮิสโทแกรม การแมปแบบหนึ่งต่อหนึ่งอย่างง่ายมีปัญหาว่าหากฮิสโตแกรมแตกต่างกันเล็กน้อยและเปลี่ยนไปเล็กน้อยจากนั้นเราจะไม่ได้ผลลัพธ์ที่ต้องการ
ข้อเสนอแนะใด ๆ
คำตอบ:
เอกสารล่าสุดที่อาจมีค่าควรอ่านคือ:
Cao, Y. Petzold, L.ข้อ จำกัด ของความแม่นยำและการวัดข้อผิดพลาดในการจำลองแบบสุ่มของระบบตอบสนองทางเคมี, 2006
แม้ว่าบทความนี้จะเน้นไปที่การเปรียบเทียบอัลกอริธึมการจำลองแบบสุ่ม แต่แนวคิดหลักก็คือวิธีการเปรียบเทียบฮิสโตแกรมสองรายการ
คุณสามารถเข้าถึงpdf ได้จากหน้าเว็บของผู้เขียน
มีการวัดระยะทางมากมายระหว่างสองฮิสโตแกรม คุณสามารถอ่านการจัดหมวดหมู่ของมาตรการเหล่านี้ได้เป็นอย่างดีใน:
K. Meshgi และ S. Ishii“ การเพิ่มฮิสโตแกรมของสีด้วย Gridding เพื่อปรับปรุงความแม่นยำในการติดตาม” ใน Proc จาก MVA'15, Tokyo, Japan, พฤษภาคม 2015
ฟังก์ชั่นระยะทางที่ได้รับความนิยมมากที่สุดมีไว้เพื่อความสะดวกของคุณ:
และ
& hellinger
และหมายถึงการไหลจาก ถึง
และ
การใช้ Matlab ของระยะทางเหล่านี้สามารถหาได้จากพื้นที่เก็บข้อมูล GitHub ของฉัน: https://github.com/meshgi/Histogram_of_Color_Advancements/tree/master/distance นอกจากนี้คุณยังสามารถค้นหาผู้ชายเช่น Yossi Rubner, Ofir Pele, Ofir Pele, Marco Cuturi และ Haibin Ling ระยะทางที่ล้ำสมัยมากขึ้น
อัปเดต: การอธิบายทางเลือกสำหรับระยะทางปรากฏที่นี่และที่นั่นในวรรณคดีดังนั้นฉันจึงบันทึกรายการเหล่านั้นไว้ที่นี่เพื่อความสมบูรณ์
hist1 < hist2
คำตอบมาตรฐานสำหรับคำถามนี้คือการทดสอบแบบไคสแควร์ การทดสอบ KS นั้นใช้สำหรับข้อมูลที่ไม่มีการผูกมัดไม่ใช่ข้อมูลที่ถูกทำแบบผสม (หากคุณมีข้อมูลที่ไม่มีการตัดต่อดังนั้นโดยทั้งหมดให้ใช้การทดสอบแบบ KS แต่หากคุณมีฮิสโตแกรมเท่านั้นการทดสอบ KS จะไม่เหมาะสม)
คุณกำลังมองหาการทดสอบ Kolmogorov-Smirnov อย่าลืมแบ่งความสูงของแท่งด้วยผลรวมของการสำรวจทั้งหมดของฮิสโตแกรมแต่ละอัน
โปรดทราบว่าการทดสอบ KS นั้นยังรายงานถึงความแตกต่างด้วยเช่นหากค่าเฉลี่ยของการแจกแจงนั้นเปลี่ยนไปเมื่อเทียบกับค่าอื่น หากการแปลฮิสโตแกรมตามแกน x ไม่มีความหมายในแอปพลิเคชันของคุณคุณอาจต้องการลบค่าเฉลี่ยจากฮิสโทแกรมแต่ละรายการก่อน
เมื่อคำตอบของเดวิดชี้ให้เห็นการทดสอบไค - สแควร์จำเป็นสำหรับข้อมูลที่ถูกหลอมละลายเนื่องจากการทดสอบ KS ถือว่าการแจกแจงต่อเนื่อง เกี่ยวกับสาเหตุที่การทดสอบ KS ไม่เหมาะสม (ความคิดเห็นที่ naught101) ได้มีการพูดคุยกันบางประเด็นในวรรณคดีสถิติที่ใช้ซึ่งมีมูลค่าเพิ่มที่นี่
การแลกเปลี่ยนที่สนุกสนานเริ่มต้นด้วยการอ้างสิทธิ์ ( García-Berthou และ Alcaraz, 2004 ) ว่าหนึ่งในสามของเอกสารทางธรรมชาติมีข้อผิดพลาดทางสถิติ อย่างไรก็ตามบทความฉบับต่อไป ( Jeng, 2006 , " ข้อผิดพลาดในการทดสอบทางสถิติของข้อผิดพลาดในการทดสอบทางสถิติ " - บางทีชื่อกระดาษที่ชื่นชอบทุกเวลาของฉัน) แสดงให้เห็นว่า Garcia-Berthou และ Alcaraz (2005) ใช้การทดสอบ KS ต่อการรายงานค่า p ที่ไม่ถูกต้องในการศึกษาเมตา กระดาษของ Jeng (2006) ให้การอภิปรายที่ดีแม้จะแสดงให้เห็นว่าสามารถแก้ไขการทดสอบ KS ให้ทำงานได้สำหรับข้อมูลที่ไม่ต่อเนื่อง ในกรณีพิเศษนี้ความแตกต่างจะลดลงไปจนถึงความแตกต่างระหว่างการกระจายตัวแบบเดียวกันของตัวเลขต่อท้ายใน [0,9],
คุณสามารถคำนวณ cross-correlation (convolution) ระหว่างฮิสโตแกรมทั้งสอง ที่จะต้องคำนึงถึง traslations เล็กน้อย