ข้ามการโพสต์คำถามของฉันจาก mathoverflowเพื่อค้นหาความช่วยเหลือเฉพาะสถิติ
ฉันกำลังศึกษากระบวนการทางกายภาพในการสร้างข้อมูลซึ่งมีโครงงานเป็นสองมิติด้วยค่าที่ไม่เป็นลบ แต่ละขั้นตอนมีแทร็ก (ที่คาดการณ์) จุด - - ดูภาพด้านล่าง
แทร็กตัวอย่างเป็นสีน้ำเงินแทร็กที่มีปัญหาได้รับการวาดด้วยสีเขียวและพื้นที่ที่มีข้อกังวลเป็นสีแดง:
แต่ละแทร็กเป็นผลมาจากการทดสอบอิสระ มีการทดลองกว่ายี่สิบล้านครั้งในช่วงหลายปีที่ผ่านมา แต่จากการทดสอบเพียงสองพันครั้งนั้นแสดงให้เห็นถึงคุณลักษณะที่เราวางแผนไว้ เรากังวลเฉพาะกับการทดลองที่สร้างแทร็กดังนั้นชุดข้อมูลของเราคือ (โดยประมาณ) สองพันแทร็ก
มีความเป็นไปได้สำหรับแทร็กที่จะเข้าสู่พื้นที่ที่น่าเป็นห่วงและเราคาดหวังว่าจะเรียงตามลำดับในแทร็ก การประมาณจำนวนนั้นเป็นคำถามในมือ:
เราจะคำนวณความน่าจะเป็นของการติดตามโดยพลการเข้าสู่พื้นที่ที่น่าเป็นห่วงได้อย่างไร
เป็นไปไม่ได้ที่จะทำการทดลองอย่างรวดเร็วพอที่จะดูว่ามีการสร้างแทร็กบ่อยครั้งเพียงใดซึ่งเข้าสู่พื้นที่ที่น่าเป็นห่วงดังนั้นเราจึงจำเป็นต้องประเมินจากข้อมูลที่มีอยู่
เราได้ติดตั้งตัวอย่างเช่นค่าให้ไว้แต่สิ่งนี้ไม่สามารถจัดการข้อมูลได้อย่างเพียงพอเช่นแทร็กสีเขียว - ดูเหมือนว่าจำเป็นต้องมีโมเดลที่ครอบคลุมทั้งสองมิติ
เราได้ติดตั้งระยะห่างขั้นต่ำจากแต่ละแทร็กไปยังพื้นที่ที่น่ากังวล แต่เราไม่มั่นใจว่าสิ่งนี้จะให้ผลลัพธ์ที่สมเหตุสมผล
1) มีวิธีทราบที่เหมาะสมกับการกระจายข้อมูลประเภทนี้เพื่อการประมาณค่าหรือไม่?
-หรือ-
2) มีวิธีที่ชัดเจนในการใช้ข้อมูลนี้เพื่อสร้างแบบจำลองสำหรับการสร้างแทร็กหรือไม่? ตัวอย่างเช่นใช้การวิเคราะห์องค์ประกอบหลักบนแทร็กเป็นจุดในพื้นที่ขนาดใหญ่จากนั้นปรับการกระจาย (Pearson?) ให้พอดีกับแทร็กที่ฉายลงบนส่วนประกอบเหล่านั้น