วิธีการจัดกลุ่มคะแนนตามความหนาแน่นของเคอร์เนล


10

ฉันมีชุดข้อมูลขนาดใหญ่ที่มี 36k คะแนนซึ่งแสดงถึงการใช้ประโยชน์ที่ดินเพื่อการพาณิชย์แต่ละแห่งมีเขตข้อมูลที่มีวิดีโอสแควร์ ฉันได้ทำการวิเคราะห์ความหนาแน่นของเคอร์เนลในชุดข้อมูลนี้สร้างภาพแรสเตอร์ที่แสดงความหนาแน่นของวิดีโอสแควร์เชิงพาณิชย์ในพื้นที่รถไฟใต้ดินทั้งหมด ฉันต้องแบ่งแรสเตอร์นี้ออกเป็นภูมิภาคที่สอดคล้องกับ maxima ท้องถิ่นซึ่งฉันเรียกว่า "ศูนย์กลาง" ฉันได้กำหนดที่ตั้งของศูนย์เรียบร้อยแล้วและตอนนี้ฉันต้องทำหนึ่งในสองสิ่งต่อไปนี้:

  • ใช้เครื่องมือการทำคลัสเตอร์แบบจุดเช่น "การแบ่งพาร์ติชันรอบยาเม็ด" เพื่อจัดกลุ่มจุดให้เป็นกระจุกรอบ ๆ ศูนย์ที่ฉันระบุ ปัญหาของวิธีนี้ก็คือมันมีความเข้มข้นของการคำนวณและมากยิ่งขึ้นดังนั้นหากฉันพยายามใช้เมทริกซ์ที่แตกต่างกันเพื่อให้ได้คะแนนตามขนาด

  • อย่างใดแบ่งความหนาแน่นเคอร์เนลแรสเตอร์ (ซึ่งประมาณคล้ายกับแรสเตอร์ภูมิประเทศ) เป็น "เนินเขา" แต่ละรอบแต่ละศูนย์ แต่ฉันไม่สามารถคิดถึงเครื่องมือใด ๆ สำหรับการทำเช่นนี้

ปัญหานี้ทำให้ฉันล้มเหลวในขณะที่และฉันหวังว่าฉันจะสามารถทำวิธีการจัดกลุ่มใน R แต่มันใช้เวลานานและฉันหมดเวลา ไม่มีใครรู้วิธีการง่ายๆในการแบ่งแรสเตอร์ความหนาแน่นเป็นละแวกใกล้เคียงของความเข้มหรือสำหรับการจัดกลุ่มชุดข้อมูลขนาดใหญ่ได้อย่างรวดเร็ว?


1
คำถามนี้เกี่ยวข้องอย่างใกล้ชิด: stats.stackexchange.com/questions/13995/…
whuber

1
และโพสต์โดยฉันตามที่ปรากฎ
แพทริค

นั่นน่าจะเป็น 1 pt สำหรับ Patrick ฉันคิดว่า .....
BWill

คำตอบ:


6

การสนทนาหลังโพสต์ที่เกี่ยวข้องอย่างใกล้ชิดเปิดเผยวิธีแก้ปัญหาที่ง่ายและมีประสิทธิภาพ : เพื่อค้นหา "เนินเขา" เปลี่ยนตารางกลับหัว (โดยลบค่าของมัน) และค้นหาแหล่งต้นน้ำ เนินเขาเป็นแอ่งน้ำและเขตแดนของลุ่มน้ำแบ่งตารางเป็นแอ่งน้ำเหล่านั้น


วิธีนี้ง่ายรวดเร็วและตรงกับที่ฉันต้องการ ขอบคุณ
แพทริค

3

คำตอบที่ง่ายที่สุดคือการใช้เกณฑ์เพื่อปกปิดพื้นที่ที่อยู่ต่ำกว่าเกณฑ์ สิ่งนี้จะให้พื้นที่ที่แตกต่างกันโดยรอบศูนย์ของคุณ จากนั้นมันควรจะสามารถแปลงพื้นที่เหล่านั้นเป็นรูปร่าง

คุณอาจพบเครื่องมือสถิติเชิงพื้นที่: การวิเคราะห์การจัดกลุ่มข้อมูลแรสเตอร์เป็นการอภิปรายที่มีประโยชน์ของปัญหาที่คล้ายกัน


ใช่นั่นคือการอภิปรายที่เกี่ยวข้องมาก! ฉันกำลังอ่านวิทยานิพนธ์ของคุณและจะลองใช้วิธีการบางอย่าง
แพทริค

2
การใช้เกณฑ์อาจไม่ทำงานที่นี่เนื่องจากฉันพยายามแยกแยะศูนย์จากศูนย์อื่นที่อยู่ติดกันทันที ในใจกลางเมืองเขตแดนระหว่างทั้งสองจะมีความหนาแน่นสูงมาก แต่ในเขตชานเมืองมันจะมีความหนาแน่นต่ำมาก แต่ฉันหวังว่าการใช้อนุพันธ์อันดับสองจะมีประสิทธิภาพ
แพทริค

3

ฉันคิดว่าคุณควรกลับไปที่ปัญหาเริ่มต้นของคุณ: ค้นหากลุ่มวิดีโอสแควร์เชิงพาณิชย์ในภูมิภาคเมโทร

ฉันคิดว่าคะแนนของคุณเป็นเซ็นทรอยด์ของพัสดุที่มีค่าโฆษณาเชิงพื้นที่เป็นตาราง? ฉันคิดว่าคุณสามารถมีรูปหลายเหลี่ยมของพัสดุที่มีพื้นที่เป็นสี่เหลี่ยมจัตุรัสรวมสำหรับแต่ละพัสดุได้หรือไม่ ที่ให้ชุดกรณี (centroids) และประชากร (รูปหลายเหลี่ยมพัสดุ) สำหรับโฆษณาวิดีโอสแควร์และวิดีโอสแควร์ตามลำดับ

ไปคว้า SatScan http://www.satscan.org/และใช้พื้นที่เฉพาะโมเดลPoisson- กระจายและคุณจะมีกลุ่มวิดีโอสแควร์เชิงพาณิชย์ของคุณในลำดับที่รวดเร็ว (คุณสามารถใช้พื้นที่เป็นตารางฟุตเป็นประชากรของคุณได้มากกว่าพื้นที่เป็นตารางฟุตของพื้นที่อาคารซึ่งอาจเป็นประชากรที่ดีกว่าด้วย)


คุณถูกต้องว่าคะแนนนั้นเป็น centroids แต่น่าเสียดายที่ชุดข้อมูลนั้นถูกรวบรวมโดยผู้อื่นจากเลเยอร์พัสดุของแต่ละเขตและแจกจ่ายเป็นคะแนนเท่านั้น แต่ SatScan ดูเหมือนว่าเป็นซอฟต์แวร์ที่มีประโยชน์มากดังนั้นฉันจะคำนึงถึงแอปพลิเคชันอื่น ๆ
แพทริค
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.