ฉันมีข้อมูลสองชุดที่แสดงถึงพารามิเตอร์ของดาว: อันที่สังเกตและแบบจำลอง ด้วยชุดเหล่านี้ฉันสร้างสิ่งที่เรียกว่าสองสีแผนภาพ (TCD) ตัวอย่างสามารถดูได้ที่นี่:
การเป็นข้อมูลที่สังเกตและBข้อมูลที่ดึงมาจากแบบจำลอง (ไม่ต้องสนใจเส้นสีดำจุดแสดงข้อมูล) ฉันมีไดอะแกรมAเพียงอันเดียวแต่สามารถสร้างไดอะแกรมB ที่แตกต่างกันได้มากเท่าที่ฉันต้องการและสิ่งที่ฉันต้องการคือ เพื่อให้เหมาะกับก .
ดังนั้นสิ่งที่ฉันต้องการคือวิธีที่เชื่อถือได้ในการตรวจสอบความดีของไดอะแกรมแบบB (โมเดล) กับไดอะแกรมA (สังเกต)
ตอนนี้สิ่งที่ฉันทำคือฉันสร้างฮิสโตแกรม 2D หรือตาราง (นั่นคือสิ่งที่ฉันเรียกมันอาจจะมีชื่อที่เหมาะสมกว่า) สำหรับแต่ละแผนภาพโดยการผูกทั้งสองแกน (แต่ละ 100 ถังสำหรับแต่ละ) จากนั้นฉันก็ผ่านแต่ละเซลล์ของตาราง และฉันพบความแตกต่างที่แน่นอนในการนับระหว่างAและBสำหรับเซลล์นั้น หลังจากผ่านไปแล้วเซลล์ทั้งหมดที่ผมสรุปค่าสำหรับแต่ละเซลล์และดังนั้นผมจึงจบลงด้วยพารามิเตอร์บวกเดียวที่เป็นตัวแทนของความดีของพอดี (คน ) ระหว่างและB ยิ่งใกล้ศูนย์มากเท่าไหร่ก็ยิ่งพอดี โดยทั่วไปนี่คือพารามิเตอร์ที่มีลักษณะดังนี้:
; ที่คือจำนวนของดาวในแผนภาพสำหรับเซลล์เฉพาะที่ (กำหนดโดย ) และคือหมายเลขสำหรับB
นี่คือสิ่งที่ความแตกต่างในแต่ละเซลล์ดูเหมือนในตารางที่ฉันสร้าง (โปรดสังเกตว่าฉันไม่ได้ใช้ค่าสัมบูรณ์ของในภาพนี้ แต่ฉันจะใช้พวกเขาเมื่อคำนวณพารามิเตอร์ ):
ปัญหาคือฉันได้รับการแนะนำว่านี่อาจไม่ใช่ตัวประมาณที่ดีเพราะส่วนใหญ่นอกจากการบอกว่าแบบนี้ดีกว่าตัวอื่นเพราะพารามิเตอร์ต่ำกว่าฉันไม่สามารถพูดอะไรได้มากกว่านี้
สำคัญ :
(ขอบคุณ @PeterEllis ที่นำเรื่องนี้ขึ้นมา)
1- คะแนนในBไม่เกี่ยวข้องอย่างใดอย่างหนึ่งต่อหนึ่งกับคะแนนใน นั่นเป็นสิ่งสำคัญที่ต้องเก็บไว้ในใจเมื่อค้นหาแบบที่ดีที่สุด: จำนวนของจุดในและBคือไม่จำเป็นต้องเหมือนกันและความดีของพอดีทดสอบควรบัญชีสำหรับความแตกต่างนี้และพยายามที่จะลดความมัน
2- จำนวนคะแนนในชุดข้อมูลBทุกตัว (เอาต์พุตโมเดล) ที่ฉันพยายามให้พอดีกับAนั้นไม่ได้รับการแก้ไข
ฉันเคยเห็นการทดสอบChi-Squared ที่ใช้ในบางกรณี:
; โดยที่เป็นความถี่ที่สังเกตได้ (model) และนั้นเป็นความถี่ที่คาดหวัง (การสังเกต)
แต่ปัญหาคือ: ฉันจะทำอย่างไรถ้าเป็นศูนย์? อย่างที่คุณเห็นในภาพด้านบนถ้าฉันสร้างตารางของไดอะแกรมเหล่านั้นในช่วงนั้นจะมีเซลล์จำนวนมากที่เป็นศูนย์
นอกจากนี้ฉันได้อ่านบางคนแนะนำให้ทดสอบความน่าจะเป็นของปัวซองในกรณีเช่นนี้ซึ่งมีส่วนเกี่ยวข้องกับฮิสโทแกรม หากถูกต้องฉันขอขอบคุณจริง ๆถ้ามีคนสามารถสอนฉันเกี่ยวกับวิธีการใช้การทดสอบนั้นกับกรณีนี้ (จำไว้ว่าความรู้สถิติของฉันค่อนข้างแย่ดังนั้นโปรดรักษามันให้ง่ายที่สุดเท่าที่จะทำได้ :)