การจัดกลุ่มข้อมูลเชิงพื้นที่ใน R


12

ฉันมีชุดข้อมูลอุณหภูมิพื้นผิวทะเล (SST) รายเดือนและฉันต้องการใช้วิธีการคลัสเตอร์บางอย่างเพื่อตรวจหาภูมิภาคที่มีรูปแบบ SST ที่คล้ายกัน ฉันมีชุดของไฟล์ข้อมูลรายเดือนที่ใช้งานตั้งแต่ปี 1985 ถึง 2009 และต้องการใช้การจัดกลุ่มกับแต่ละเดือนเป็นขั้นตอนแรก

แต่ละไฟล์มีข้อมูลที่ gridded สำหรับ 3,584,16 จุดที่ประมาณ 50% เป็นที่ดินและมีการทำเครื่องหมายด้วยค่า 99.99 ที่จะเป็น NA รูปแบบข้อมูลคือ:

   lon     lat   sst
-10.042  44.979  12.38
 -9.998  44.979  12.69
 -9.954  44.979  12.90
 -9.910  44.979  12.90
 -9.866  44.979  12.54
 -9.822  44.979  12.37
 -9.778  44.979  12.37
 -9.734  44.979  12.51
 -9.690  44.979  12.39
 -9.646  44.979  12.36

ฉันได้ลองวิธีการจัดกลุ่มของ CLARA แล้วและได้ผลลัพธ์ที่ดี แต่ก็ดูเหมือนว่าสำหรับฉันแล้วนั้นเป็นเพียงการทำให้เรียบ (การจัดกลุ่ม) isolines จากนั้นฉันไม่แน่ใจว่านี่เป็นวิธีการจัดกลุ่มที่ดีที่สุดในการวิเคราะห์ข้อมูลเชิงพื้นที่

มีวิธีการจัดกลุ่มอื่น ๆ ที่อุทิศให้กับชุดข้อมูลประเภทนี้หรือไม่? การอ้างอิงบางอย่างจะเป็นการดีที่จะเริ่มอ่าน

ขอบคุณล่วงหน้า.


2
คุณควรตรวจสอบcran.r-project.org/web/views/Spatial.html มีแพ็กเกจบางอย่างที่มีคลัสเตอร์ในชื่อที่น่าสนใจ
Andy W

คุณพบแพ็คเกจ R ที่ดีในการจัดกลุ่มข้อมูลเชิงพื้นที่หรือไม่
kaptan

@kaptan น่าเสียดายที่ฉันไม่ได้และมันเป็นหนึ่งใน
pacomet

(x,y,T)R3R

คำตอบ:


2

มีวิธีการที่แตกต่างกันสำหรับการจัดกลุ่มแบบปรับขนาดแบ่งและพิชิตวิธีการจัดกลุ่มแบบขนานและแบบเพิ่มหน่วย นี่เป็นวิธีการทั่วไปหลังจากคุณสามารถใช้วิธีการจัดกลุ่มปกติ มีวิธีการจัดกลุ่มที่ดีที่ฉันซาบซึ้งจริงๆคือ DBSCAN (การจัดกลุ่มเชิงพื้นที่ตามความหนาแน่นของแอปพลิเคชันที่มีเสียง) มันเป็นหนึ่งในอัลกอริทึมการจัดกลุ่มที่ใช้มากที่สุด


ตกลงฉันจะค้นหา DBSCAN และลองดู ขอบคุณ
pacomet

หากคำตอบใด ๆ ที่ช่วยคุณหรือคุณหาวิธีอื่นมันเป็นการดีกว่าที่จะให้เราดังนั้นชุมชนทั้งหมดจะใช้ประโยชน์จากสิ่งนั้น หรือเลือกคำตอบเพื่อปิดคำถามขอบคุณ
404Dreamer_ML

ฉันขอโทษสำหรับความล่าช้าในการตอบ แต่ประเด็นคือฉันไม่ได้มีเวลามากที่จะลอง dbscan และความพยายามครั้งแรกทำให้เกิดปัญหาหน่วยความจำ R บอกว่ามันไม่สามารถจัดสรรเวกเตอร์ได้ ฉันเริ่มต้นด้วยกริดระยะห่าง 4 กม. ด้วยคะแนน 779191 จุดซึ่งสิ้นสุดใน 300,000 คะแนนเมื่อนำ SST ออกจากที่ดิน (ไม่ถูกต้อง) บางทีฉันอาจไม่ได้แนวทางที่ถูกต้อง
pacomet

1
สวัสดีฉันยังหาทางออกไม่ได้ ฉันอ่านเอกสารเกี่ยวกับ DBSCAN และมีคำถามเกี่ยวกับ ค้นหาระยะทางขั้นต่ำกับ R ได้อย่างไร? เนื่องจากข้อมูลของฉันเป็นลองจิจูดสามมิติละติจูดและอุณหภูมิฉันควรใช้ "ระยะทาง" ใด มิติใดที่เกี่ยวข้องกับระยะทางนั้น? อุณหภูมิ? มีวิธีการกำหนดจำนวนคะแนนขั้นต่ำสำหรับคลัสเตอร์หรือไม่? กำลังค้นหา Google ฉันไม่สามารถหาตัวอย่าง R สำหรับการใช้ dbscan ในชุดข้อมูลที่คล้ายกับของฉันคุณรู้จักเว็บไซต์ใดที่มีตัวอย่างประเภทนี้หรือไม่ ดังนั้นฉันสามารถอ่านและพยายามปรับให้เข้ากับกรณีของฉัน ขอขอบคุณอีกครั้ง
pacomet

0

ห้องสมุดหลามเอกสารอย่างดีสำหรับการวิเคราะห์เชิงพื้นที่ที่มีการจัดกลุ่มบางpySAL

ห้องสมุดหลามอีกในขั้นตอนการพัฒนาที่มุ่งเน้นไปที่การจัดกลุ่มเชิงพื้นที่เป็นclusterPy (นำเสนอภาพนิ่ง PDF)

กับทางเลือกที่ จำกัด มากขึ้นของขั้นตอนวิธีการจัดกลุ่ม แต่มีอินเตอร์เฟซการทำแผนที่ที่ดีคือซอฟแวร์กุยGeoGrouper


ขอบคุณฉันไม่เคยทำงานกับหลามเลย ผมจะพยายามหาทางออก R
pacomet
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.