จะค้นหาความสัมพันธ์ระหว่างกิจกรรมประเภทต่างๆได้อย่างไร (กำหนดโดยตำแหน่ง 2D)


9

ฉันมีชุดข้อมูลของเหตุการณ์ที่เกิดขึ้นในช่วงเวลาเดียวกัน แต่ละเหตุการณ์มีประเภท (มีหลายประเภทที่แตกต่างกันน้อยกว่าสิบ) และสถานที่ซึ่งแสดงเป็นจุด 2D

ฉันต้องการตรวจสอบว่ามีความสัมพันธ์ระหว่างประเภทของกิจกรรมหรือระหว่างประเภทและตำแหน่ง ตัวอย่างเช่นเหตุการณ์ประเภท A มักจะไม่เกิดขึ้นเมื่อมีกิจกรรมประเภท B หรือบางทีในบางพื้นที่มีเหตุการณ์ส่วนใหญ่เป็นประเภท C

ฉันสามารถใช้เครื่องมือชนิดใดในการทำสิ่งนี้ เป็นมือใหม่ในการวิเคราะห์ทางสถิติความคิดแรกของฉันคือการใช้ PCA (การวิเคราะห์ส่วนประกอบหลัก) ในชุดข้อมูลนี้เพื่อดูว่าเหตุการณ์แต่ละประเภทมีองค์ประกอบของตัวเองหรือบางคนแบ่งปันเหมือนกัน (เช่นมีความสัมพันธ์กัน)

ฉันต้องพูดถึงว่าชุดข้อมูลของฉันมีลำดับ 500,000 คะแนนจึงทำให้การจัดการกับเรื่องยากขึ้นเล็กน้อย(x,Y,เสื้อYพีอี)

แก้ไข: ตามที่ระบุไว้ในคำตอบด้านล่างและความคิดเห็นวิธีที่จะไปคือการทำแบบจำลองนี้เป็นกระบวนการจุดที่ถูกทำเครื่องหมายแล้วใช้ R เพื่อยกของหนักทั้งหมดดังอธิบายในรายละเอียดในรายงานการประชุมเชิงปฏิบัติการนี้: http: / /www.csiro.edu.au/resources/Spatial-Point-Patterns-in-R.html


นี่เป็นชุดข้อมูลแรสเตอร์เช่นรูปภาพที่ถูกประมวลผลแล้วจากระยะไกลหรือเป็นชุดข้อมูลที่ผิดปกติหรือไม่
whuber

ดีฉันคิดว่าคุณจะเรียกมันว่าผิดปกติ: มันเป็นบันทึกของการก่ออาชญากรรมที่เกิดขึ้นในสหราชอาณาจักรในช่วงเดือนที่กำหนด avaiable ที่นี่: police.uk/data
Wookai

@Wookai 500,000,000 อาชญากรรมในสหราชอาณาจักรในหนึ่งเดือน ?? มีอนาธิปไตยสืบเชื้อสายมาจากหมู่เกาะอังกฤษที่ไม่ได้รายงานโดยสื่อมวลชน แต่ในที่สุดจะถูกเปิดเผยในไฟล์ตำรวจ? :-) ฉันเชื่อได้ประมาณ 1 ใน 100 ของจำนวนนั้น - แทบจะไม่
whuber

ว้าวฉันขอโทษจริง ๆ สำหรับ "typo" นี้)! จริงอยู่น้อยกว่า 1,000 เท่าอาชญากรรม 500,000 ครั้ง (นับ "อาชญากรรมยานยนต์" เช่นตั๋วความเร็ว ฯลฯ ... )
Wookai

1
ใช่ R ดูวิธีที่จะไป! ฉันพบรายงานที่สมบูรณ์มากเกี่ยวกับการประชุมเชิงปฏิบัติการในโมดูล spatstat ของ R ซึ่งทำสิ่งที่ฉันกำลังมองหา: csiro.edu.au/resources/Spatial-Point-Patterns-in-R.html
Wookai

คำตอบ:


3

ประเภทของข้อมูลที่คุณอธิบายเรียกว่า "รูปแบบจุดที่ถูกทำเครื่องหมาย" โดยปกติแล้ว R มีมุมมองงานสำหรับสถิติเชิงพื้นที่ที่มีแพ็คเกจที่ดีมากมายสำหรับการวิเคราะห์ประเภทนี้ซึ่งส่วนใหญ่อาจไม่สามารถจัดการกับข้อมูลที่มีค่า มี :(

ตัวอย่างเช่นเหตุการณ์ประเภท A มักจะไม่เกิดขึ้นเมื่อมีกิจกรรมประเภท B หรือบางทีในบางพื้นที่มีเหตุการณ์ส่วนใหญ่เป็นประเภท C

คำถามเหล่านี้มีคำถามที่แตกต่างกันสองข้อ: คำถามที่สองถามเกี่ยวกับการวางตำแหน่งของเครื่องหมาย / เหตุการณ์ประเภทหนึ่ง Buzzwords ที่จะมองหาในบริบทนี้คือการประมาณค่าความเข้ม fe หรือการประมาณค่าฟังก์ชัน K หากคุณสนใจที่จะค้นพบรูปแบบของการรวมกลุ่ม (เหตุการณ์ที่มีแนวโน้มที่จะรวมกลุ่มกัน) หรือการผลักกัน คำถามแรกเกี่ยวกับความสัมพันธ์ระหว่างเหตุการณ์ประเภทต่างๆ โดยปกติจะวัดด้วยฟังก์ชันความสัมพันธ์ของเครื่องหมาย

ฉันคิดว่าการย่อยข้อมูลเพื่อให้ได้ขนาดข้อมูลที่เข้าใจง่ายมากขึ้นนั้นเป็นอันตราย (ดูความคิดเห็นที่คำตอบของ @ hamner) แต่บางทีคุณอาจรวมข้อมูลของคุณ: แบ่งหน้าต่างการสังเกตเป็นจำนวนเซลล์ที่มีขนาดเท่ากันและจัดระเบียบเหตุการณ์ แต่ละ. แต่ละเซลล์จะได้รับการอธิบายโดยที่ตั้งของจุดศูนย์กลางและ 10-vector ของการนับสำหรับประเภทมาร์ค 10 ของคุณ คุณควรจะสามารถใช้วิธีมาตรฐานสำหรับกระบวนการทำเครื่องหมายจุดในกระบวนการที่รวมนี้


ฉันคุ้นเคยกับกระบวนการจุดที่ถูกทำเครื่องหมายและเครื่องมือทางทฤษฎีที่เกี่ยวข้องฉันควรคิดถึงสิ่งนี้มาก่อน ขอบคุณมากสำหรับคำหลักคุณอาจมีตัวชี้บางอย่างสำหรับคำเหล่านี้หรือไม่ ขอบคุณสำหรับแนวคิดการรวมตัวฉันมีสิ่งที่คล้ายกันจะพยายามทำสิ่งนี้
Wookai

2
Peter Diggle ได้เขียน "geostatistics แบบจำลอง" นอกจากนี้เขายังมีการวิเคราะห์ข้อมูลอาชญากรรมแลงคาเชียร์ในหน้านี้: lancs.ac.uk/staff/diggle/MADEที่อาจทำให้คุณมีความคิดที่ดี
fabians

1

ก่อนขนาดของชุดข้อมูล ฉันขอแนะนำให้นำชุดข้อมูลขนาดเล็กที่ใช้งานง่าย (มาจากการสุ่มเลือก N datapoints หรือโดยการสุ่มเลือกสี่เหลี่ยมเล็ก ๆ ที่ค่อนข้างเล็กในระนาบ XY และทำการเก็บคะแนนทั้งหมดที่อยู่ในระนาบนั้น) จากนั้นสร้างเทคนิคการวิเคราะห์ของคุณบนชุดย่อยนี้ เมื่อคุณมีความคิดเกี่ยวกับรูปแบบการวิเคราะห์ที่ใช้งานได้แล้วคุณสามารถนำไปใช้กับส่วนที่ใหญ่กว่าของชุดข้อมูล

PCA ใช้เป็นหลักเป็นเทคนิคการลดขนาด; ชุดข้อมูลของคุณมีเพียงสามมิติ (หนึ่งในนั้นคือหมวดหมู่) ดังนั้นฉันสงสัยว่ามันจะใช้ที่นี่

ลองทำงานกับ Matlab หรือ R เพื่อให้เห็นภาพจุดที่คุณกำลังวิเคราะห์ในระนาบ XY (หรือความหนาแน่นสัมพัทธ์ของพวกมันถ้าทำงานกับชุดข้อมูลทั้งหมด) ทั้งในแบบเดี่ยวและแบบรวมกันและเห็นรูปแบบที่ปรากฏ ที่สามารถช่วยชี้นำการวิเคราะห์ที่เข้มงวดยิ่งขึ้น


1
ไม่ว่าจะเหมาะสมหรือไม่นั้นขึ้นอยู่กับสิ่งที่คุณรู้หรือคาดเดาเกี่ยวกับกระบวนการสร้างข้อมูลของคุณ การสุ่มข้อมูลตามภูมิภาค (เช่นรับคะแนนทั้งหมดในหน้าต่างเล็ก ๆ ที่กำหนดไว้ล่วงหน้า) อาจเป็นอันตรายได้หากไม่เหมือนกัน (เนื่องจากการใช้หน้าต่างอื่นจะทำให้ข้อสรุปของคุณเปลี่ยนไป) การสุ่มตัวอย่างข้อมูลโดยไม่คำนึงถึงการวางตำแหน่งสำหรับชุดการฝึกอบรมมีผลกระทบของ "การทำให้ผอมบางออก" กระบวนการที่สังเกตและทำให้ข้อสรุปเป็นโมฆะที่คุณอาจต้องการวาดเกี่ยวกับเช่นช่วงของความสัมพันธ์ระหว่างเครื่องหมายหรือกระบวนการจัดกลุ่ม / การผลัก
fabians

ใช่ฉันรู้ว่า PCA สำหรับลดมิตินี่คือเหตุผลที่ฉันสับสนเกี่ยวกับวิธีที่ฉันสามารถนำไปใช้กับชุดข้อมูลของฉัน แนวคิดคือเพื่อดูว่าแต่ละประเภทเหตุการณ์มี "ทิศทาง" ของตนเองหรือไม่หรือบางคน "แชร์ทิศทางเดียวกัน" แต่ฉันเดาว่าฉันแค่คิดถึงความสัมพันธ์
Wookai
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.