การวิเคราะห์ความสัมพันธ์ข้ามระหว่างกระบวนการจุด


15

ฉันต้องการคำแนะนำเกี่ยวกับวิธีการวิเคราะห์ที่ฉันใช้เพื่อทราบว่าเป็นไปได้หรือไม่

ฉันวัดกระบวนการสองจุดได้และและฉันต้องการตรวจสอบ หากมีเหตุการณ์ในมีความสัมพันธ์อย่างใดเพื่อเหตุการณ์ใน 2 T 2 = T 2 1 , T 2 2 , . . , t 2 m T 1 T 2T1=t11,t21,...,tn1T2=t12,t22,...,tm2T1T2

หนึ่งในวิธีการที่ฉันได้พบในวรรณกรรมคือการสร้างฮิสโตแกรมข้ามสหสัมพันธ์: สำหรับแต่ละเราพบความล่าช้าในกิจกรรมทั้งหมดของที่ตกอยู่ในช่วงเวลาที่กำหนด (ก่อนและหลัง ) จากนั้นเราสร้างฮิสโตแกรมของความล่าช้าเหล่านี้ทั้งหมด T 2 t 1 ntn1T2tn1

หากกระบวนการทั้งสองไม่มีความสัมพันธ์กันฉันคาดว่าฮิสโทแกรมแบบคงที่เนื่องจากความน่าจะเป็นที่จะมีเหตุการณ์ในหลังจาก (หรือก่อนหน้า) เหตุการณ์ในจะเท่ากับความล่าช้าทั้งหมด ในทางกลับกันหากมีจุดสูงสุดในฮิสโตแกรมแสดงว่ากระบวนการจุดสองจุดนั้นมีผลต่อกันและกัน (หรืออย่างน้อยก็มีอินพุตทั่วไป)T 1T2T1

ทีนี้นี่เป็นสิ่งที่ดีและดี แต่ฉันจะตัดสินได้อย่างไรว่าฮิสโทแกรมมีจุดสูงสุด (ฉันต้องบอกว่าสำหรับชุดข้อมูลที่เฉพาะเจาะจงของพวกเขาพวกเขาแบนอย่างชัดเจน แต่ก็ยังดีที่มีวิธีทางสถิติ ยืนยันว่า)

ดังนั้นนี่คือสิ่งที่ผมเคยทำ: ผมเคยทำซ้ำขั้นตอนในการสร้างกราฟหลาย (1000) ครั้งการรักษาเป็นมันและใช้ "สับ" รุ่น 2 ในการสับเปลี่ยนฉันคำนวณช่วงเวลาระหว่างเหตุการณ์ทั้งหมดสับเปลี่ยนพวกเขาและรวมพวกมันเพื่อสร้างกระบวนการจุดใหม่ ใน RI ทำได้ง่ายๆด้วย:T 2 T 2T1T2T2

times2.swp <- cumsum(sample(diff(times2)))

ดังนั้นฉันจึงจบลงด้วย 1000 histogram ใหม่ที่แสดงให้ฉันมีความหนาแน่นของเหตุการณ์ที่เกิดขึ้นในเมื่อเทียบกับ 1 T 1T2T1

สำหรับแต่ละ bin ของฮิสโตแกรมเหล่านี้ (พวกมันทั้งหมดถูกหลอมในลักษณะเดียวกัน) ฉันคำนวณความหนาแน่นของฮิสโตแกรม 95% ในคำอื่น ๆ ที่ฉันพูดเช่น: ที่หน่วงเวลา 5 ms ใน 95% ของกระบวนการจุดสับมี x น่าจะเป็นของการหาเหตุการณ์ในหลังจากเหตุการณ์ใน 1 T 1T2T1

จากนั้นฉันจะใช้ค่า 95% นี้สำหรับความล่าช้าตลอดเวลาและใช้เป็น "ขีด จำกัด ความเชื่อมั่น" (อาจเป็นคำที่ไม่ถูกต้อง) เพื่อให้ทุกอย่างที่เกินขีด จำกัด นี้ในฮิสโตแกรมดั้งเดิมถือเป็น "จริง" สูงสุด"

คำถามที่ 1 : วิธีนี้ถูกต้องทางสถิติหรือไม่ ถ้าไม่ใช่คุณจะแก้ไขปัญหานี้อย่างไร

คำถามที่ 2 : อีกสิ่งหนึ่งที่ฉันต้องการดูคือว่ามีความสัมพันธ์แบบ "ยาว" ของข้อมูลของฉันหรือไม่ ตัวอย่างเช่นอาจมีการเปลี่ยนแปลงที่คล้ายกันในอัตราของเหตุการณ์ในกระบวนการสองจุด (โปรดทราบว่าพวกเขาอาจมีอัตราที่แตกต่างกันมาก) แต่ฉันไม่แน่ใจว่าจะทำอย่างไร ฉันคิดถึงการสร้าง "ซองจดหมาย" ของแต่ละขั้นตอนโดยใช้เคอร์เนลที่ปรับให้เรียบและจากนั้นทำการวิเคราะห์ความสัมพันธ์ข้ามของซองจดหมายทั้งสอง คุณสามารถแนะนำการวิเคราะห์ประเภทอื่น ๆ ที่เป็นไปได้ได้หรือไม่?

ขอบคุณและขออภัยสำหรับคำถามที่ยาวมากนี้

คำตอบ:


11

วิธีมาตรฐานในการวิเคราะห์ปัญหานี้ในสองมิติหรือมากกว่านั้นคือฟังก์ชั่น K (Cross) K ของ Ripleyแต่ไม่มีเหตุผลที่จะไม่ใช้มันในมิติเดียวเช่นกัน (การค้นหาโดย Google นั้นทำได้ดีมากในการขุดการอ้างอิง) โดยพื้นฐานแล้วมันทำการคำนวณ CDF ของระยะทางทั้งหมดระหว่างจุดในการรับรู้ทั้งสองมากกว่าการประมาณฮิสโตแกรมกับ PDF ของระยะทางเหล่านั้น (ตัวแปร, ฟังก์ชั่น L, วางแผนความแตกต่างระหว่าง K และการแจกแจงโมฆะสำหรับกระบวนการที่ไม่เกี่ยวข้องสองชุด) ขั้นตอนนี้ทำให้เกิดปัญหาส่วนใหญ่ที่คุณต้องเผชิญกับความต้องการในการเลือกถังขยะ, เพื่อความราบรื่น ฯลฯ มักถูกสร้างขึ้นผ่านการจำลอง นี่เป็นเรื่องง่ายที่จะทำในอาร์แพคเกจสถิติอวกาศเชิงพื้นที่สำหรับ R สามารถใช้โดยตรงหรือปรับให้เข้ากับเคส 1D นี้ได้อย่างง่ายดาย ของ Roger Bivandหน้าภาพรวมของ CRAN จะแสดงรายการแพ็คเกจเหล่านี้: ดูหัวข้อ "การวิเคราะห์รูปแบบจุด"


ที่น่าสนใจ ... ฉันยุ่งนิดหน่อยในตอนนี้ แต่ฉันจะดูมันอย่างแน่นอน!
โก้
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.