การกระจายที่เหมาะสมกับข้อมูลเชิงพื้นที่

ข้ามการโพสต์คำถามของฉันจาก mathoverflowเพื่อค้นหาความช่วยเหลือเฉพาะสถิติ

ฉันกำลังศึกษากระบวนการทางกายภาพในการสร้างข้อมูลซึ่งมีโครงงานเป็นสองมิติด้วยค่าที่ไม่เป็นลบ แต่ละขั้นตอนมีแทร็ก (ที่คาดการณ์) จุด - - ดูภาพด้านล่าง $x$ $y$

แทร็กตัวอย่างเป็นสีน้ำเงินแทร็กที่มีปัญหาได้รับการวาดด้วยสีเขียวและพื้นที่ที่มีข้อกังวลเป็นสีแดง: เส้นทางและภูมิภาคที่น่าเป็นห่วง

แต่ละแทร็กเป็นผลมาจากการทดสอบอิสระ มีการทดลองกว่ายี่สิบล้านครั้งในช่วงหลายปีที่ผ่านมา แต่จากการทดสอบเพียงสองพันครั้งนั้นแสดงให้เห็นถึงคุณลักษณะที่เราวางแผนไว้ เรากังวลเฉพาะกับการทดลองที่สร้างแทร็กดังนั้นชุดข้อมูลของเราคือ (โดยประมาณ) สองพันแทร็ก

มีความเป็นไปได้สำหรับแทร็กที่จะเข้าสู่พื้นที่ที่น่าเป็นห่วงและเราคาดหวังว่าจะเรียงตามลำดับในแทร็ก การประมาณจำนวนนั้นเป็นคำถามในมือ: $1$ $10^4$

เราจะคำนวณความน่าจะเป็นของการติดตามโดยพลการเข้าสู่พื้นที่ที่น่าเป็นห่วงได้อย่างไร

เป็นไปไม่ได้ที่จะทำการทดลองอย่างรวดเร็วพอที่จะดูว่ามีการสร้างแทร็กบ่อยครั้งเพียงใดซึ่งเข้าสู่พื้นที่ที่น่าเป็นห่วงดังนั้นเราจึงจำเป็นต้องประเมินจากข้อมูลที่มีอยู่

เราได้ติดตั้งตัวอย่างเช่นค่าให้ไว้แต่สิ่งนี้ไม่สามารถจัดการข้อมูลได้อย่างเพียงพอเช่นแทร็กสีเขียว - ดูเหมือนว่าจำเป็นต้องมีโมเดลที่ครอบคลุมทั้งสองมิติ $x$ $y\ge200$

เราได้ติดตั้งระยะห่างขั้นต่ำจากแต่ละแทร็กไปยังพื้นที่ที่น่ากังวล แต่เราไม่มั่นใจว่าสิ่งนี้จะให้ผลลัพธ์ที่สมเหตุสมผล

1) มีวิธีทราบที่เหมาะสมกับการกระจายข้อมูลประเภทนี้เพื่อการประมาณค่าหรือไม่?

-หรือ-

2) มีวิธีที่ชัดเจนในการใช้ข้อมูลนี้เพื่อสร้างแบบจำลองสำหรับการสร้างแทร็กหรือไม่? ตัวอย่างเช่นใช้การวิเคราะห์องค์ประกอบหลักบนแทร็กเป็นจุดในพื้นที่ขนาดใหญ่จากนั้นปรับการกระจาย (Pearson?) ให้พอดีกับแทร็กที่ฉายลงบนส่วนประกอบเหล่านั้น

— Jeff Snider
แหล่งที่มา

ฉันจะต้องไม่ให้ข้อมูลเพิ่มเติมเกี่ยวกับกระบวนการเฉพาะ แต่ฉันจะอัปเดตคำถามเพื่อพูดคุยกับวิธีการรวบรวมข้อมูล

— Jeff Snider

ฉันได้อัปเดตภาษาเพื่อพยายามให้เป็นรูปธรรมมากขึ้น ลองนึกภาพว่าเราขว้างก้อนกรวดไปที่หน้าต่างชั้นบนสุดที่เปิดอยู่และเราจะสนใจว่าก้อนกรวดที่ผ่านหน้าต่างกระเด็นไปที่พื้นด้านในอย่างไร เราโยนก้อนกรวดหลายล้านก้อนออกไปและราว ๆ 2000 ก็ผ่านหน้าต่างไป เมื่อพลอยผ่านหน้าต่างเราวาดเส้นทางของความคืบหน้าไปทั่วพื้น เมื่อกรวดพลอยผ่านหน้าต่างเราต้องการประเมินความเป็นไปได้ที่จะผ่านพื้นที่ที่น่าเป็นห่วง

— Jeff Snider

ดูเหมือนว่าคุณต้องการจำลองการก่อตัวของแทร็กจากนั้นทำการจำลอง Monte Carlo เพื่อดูว่ามีกี่แทร็กที่ตกอยู่ในพื้นที่สีแดง ในการทำเช่นนี้ฉันจะแปลงบรรทัดเป็นสองฟังก์ชั่นโดยให้ทิศทางและระยะทางอื่น ๆ จากจุดหนึ่งไปยังอีกจุดหนึ่งบนแทร็กนั้น ตอนนี้คุณสามารถศึกษาการแจกแจงความน่าจะเป็นที่สัมพันธ์กับฟังก์ชันทั้งสองนั้น ตัวอย่างเช่นคุณอาจพบว่าระยะทางเดินทางตามการแจกแจงเฉพาะ (โปรดระวังว่าการกระจายไม่เปลี่ยนแปลงตลอดเวลา) ถ้าตัวแปรตัวใดตัวหนึ่งเปลี่ยนไปตามเวลาคุณต้องทำการวิเคราะห์อนุกรมเวลา (ไม่ใช่ฟิลด์ของฉันขอโทษ)

ความคิดอีกอย่างที่อยู่ในใจก็คือเนื่องจากทิศทางของการเคลื่อนไหวในการเปลี่ยนแปลงของ xy จะค่อย ๆ เกิดขึ้นในแทร็กส่วนใหญ่คุณอาจตรวจสอบการเปลี่ยนแปลงของทิศทางเทียบกับเวลาสำหรับแทร็ก

คุณจะต้องประเมินความน่าจะเป็นของแทร็กเริ่มต้นที่ xy ที่กำหนดด้วยทิศทางที่กำหนด คุณอาจต้องการพิจารณาใช้การประมาณความหนาแน่นของเคอร์เนลเพื่อทำให้ PDF ที่เกิดขึ้นราบรื่นหรือหากปรากฏตามการกระจายที่มีรูปแบบการวิเคราะห์การขยายความคาดหวังสูงสุดนั้นสามารถนำมาใช้เพื่อให้เหมาะสมกับการกระจายข้อมูลนั้น

การจำลองแบบมอนติคาร์โลจะดึงตัวอย่างสุ่มจากการแจกแจงเหล่านี้เพื่อจำลองรูปร่างของรางรถไฟ จากนั้นคุณต้องจำลองแทร็กจำนวนมากและดูว่าแทร็กเหล่านั้นผ่านพื้นที่สีแดงบ่อยเพียงใด นี่อาจเป็นแทร็กนับพันหรือล้านแทร็กคุณจะต้องทดสอบเพื่อดูว่าการกระจายหยุดเปลี่ยนเมื่อคุณเพิ่มแทร็กเพิ่มเติม

— chippies
แหล่งที่มา