การจัดกลุ่มวิถี (ข้อมูล GPS ของ (x, y) คะแนน) และการขุดข้อมูล


14

อีกแค่วันเดียวที่สำนักงานเพื่อลูกกระสุนปืนใหญ่ของมนุษย์

ฉันมีคำถาม 2 ข้อเกี่ยวกับการวิเคราะห์ชุดข้อมูล GPS

1) ไบร์ทแยกฉันมีฐานข้อมูลขนาดใหญ่ของพิกัด GPS (latitude, longitude, date-time)บันทึกในรูปแบบ ตามค่าวันที่และเวลาของระเบียนที่ต่อเนื่องฉันพยายามแยกวิถี / เส้นทางทั้งหมดตามด้วยบุคคล ตัวอย่างเช่น กล่าวว่าจากเวลาMที่คู่ที่มีการเปลี่ยนแปลงอย่างต่อเนื่องจนกว่าจะถึงเวลา(x,y) Nหลังจากนั้นNการเปลี่ยนแปลงของ(x,y)คู่จะลดลง ณ จุดที่ฉันสรุปว่าเส้นทางที่นำมาจากเวลาMเป็นNสามารถเรียกว่าวิถี นั่นเป็นวิธีการที่เหมาะสมในการติดตามเมื่อทำการแยกไบร์ทหรือไม่? มีวิธี / วิธี / อัลกอริทึมที่รู้จักกันดีที่คุณสามารถแนะนำได้หรือไม่? มีโครงสร้างข้อมูลหรือรูปแบบใดที่คุณอยากจะแนะนำให้ฉันรักษาจุดเหล่านั้นอย่างมีประสิทธิภาพ? บางทีสำหรับแต่ละเส้นทางการหาความเร็วและความเร่งจะเป็นประโยชน์หรือไม่

2) การขุดเส้นทางการเคลื่อนที่เมื่อฉันมีเส้นทางการเคลื่อนที่ / เส้นทางที่นำมาทั้งหมดฉันจะเปรียบเทียบ / จัดกลุ่มได้อย่างไร ฉันต้องการทราบว่าจุดเริ่มต้นหรือจุดสิ้นสุดมีความคล้ายคลึงกันแล้วเส้นทางกลางจะเปรียบเทียบได้อย่างไร

ฉันจะเปรียบเทียบ 2 เส้นทาง / เส้นทางและสรุปได้อย่างไรว่าพวกมันเหมือนกันหรือไม่ นอกจากนี้; ฉันจะรวมกลุ่มเส้นทางที่คล้ายกันเข้าด้วยกันได้อย่างไร

ฉันจะขอขอบคุณอย่างมากหากคุณสามารถชี้ให้ฉันไปทำวิจัยหรืออะไรที่คล้ายกันในเรื่องนี้

การพัฒนาจะอยู่ใน Python แต่ยินดีต้อนรับคำแนะนำห้องสมุดทุกประเภท

ฉันกำลังเปิดคำถามเดียวกันที่แน่นอน/programming/4910510/comparing-clustering-trajectories-gps-data-of-xy-points-and-mining-the-dataใน StackOverflow คิดว่าฉันจะได้คำตอบเพิ่มเติมที่นี่ ...


1
คำตอบที่ดีจะให้ความสนใจกับสาเหตุที่คุณทำการวิเคราะห์นี้ "บุคคล" ของคุณทำอะไรอยู่ คุณหมายถึงอะไรในบริบทนี้โดย "วิถี" ทำไมคุณถึงสนใจในวิถี มันหมายความว่าวิถีใดที่จะ“ คล้ายกัน”? คำชี้แจงของคุณจะแนะนำคำตอบที่เหมาะสม; การได้รับคำตอบที่เหมาะสมจะเป็นเรื่องของโชคและการคาดเดา
whuber

ฉันสนใจที่จะหากิจวัตรประจำวันของบุคคลนั้น เธอไปที่ใดเป็นรายวัน / สัปดาห์ / เดือนและเส้นทาง / เส้นทางใดที่เธอมักจะติดตามเมื่อไปที่นั่น เส้นทางไหนที่เธอไม่ค่อยตาม?
Murat

ฐานข้อมูลนี้บรรจุคะแนน GPS ของบุคคลที่บันทึกไว้นานกว่าหนึ่งเดือนด้วยความถี่ 1-2 วินาที ฉันไม่รู้ว่าพวกเขากำลังทำอะไร จริงๆแล้วนั่นคือสิ่งที่ฉันสนใจในการค้นหา
Murat

1
@Murat ตกลงดี มารับความแม่นยำมากขึ้น เมื่อมีคนเคลื่อนที่ไปรอบ ๆ บ้านหรือที่ทำงานคุณจะคิดว่ามันอยู่กับที่หรือไม่หรือกำลังพยายามติดตามวิถีเหล่านั้นด้วยหรือไม่? เมื่อคุณพูดว่าวิถีสองวิถีนั้น "คล้ายกัน" หมายความว่าพวกเขาดูเหมือนจะเดินไปตามเส้นทางเดียวกันระหว่างจุด A และ B หรือทั้งคู่ไปจากจุด A ถึงจุด B (อาจเป็นเส้นทางที่แตกต่างกัน แต่ไม่มีเส้นทางหยุด) หรืออย่างอื่น BTW ข้อมูลของคุณเสร็จสมบูรณ์หรือ - อย่างที่คาดหวังไว้ - มีช่วงเวลาที่ข้อมูลหายไปหรือไม่ถูกต้องหรือไม่?
whuber

1
@ user5013 - ดูสิ่งที่ Microsoft Research เผยแพร่ มัน "มีเส้นทางการบิน 17,621 เส้นทางรวมระยะทางประมาณ 1.2 ล้านกิโลเมตรและระยะเวลารวม 48,000+ ชั่วโมง" research.microsoft.com/en-us/downloads/…
Murat

คำตอบ:


2

สองบทความที่คุณน่าจะสนใจเนื่องจากมีแรงจูงใจคล้ายกับของคุณ:

ขีด จำกัด ของความสามารถในการคาดการณ์ในการเคลื่อนไหวของมนุษย์ โดย: Chaoming Song, Zehui Qu, Nicholas Blumm, Albert-LászlóBarabási วิทยาศาสตร์ฉบับ 327 เลขที่ 5968 (19 กุมภาพันธ์ 2553), หน้า 1018-1021

ทำความเข้าใจกับรูปแบบการเคลื่อนไหวของมนุษย์แต่ละคน โดย: Marta C. Gonzalez, Cesar A. Hidalgo, Albert-Laszlo Barabasi ธรรมชาติฉบับ 453 หมายเลข 7196 (05 มิถุนายน 2551), หน้า 779-782

โปรดทราบว่าการศึกษาทั้งสองใช้ข้อมูลเดียวกันซึ่งคล้ายกับของคุณ แต่ไม่ได้อยู่ในระดับความแม่นยำในอวกาศหรือเวลา ฉันไม่คิดว่าสิ่งที่ฉันจะอธิบายสิ่งที่คุณต้องการที่จะหาเป็นวิถี แต่ฉันไม่แน่ใจว่าสิ่งที่ฉันจะเรียกมันว่าอย่างใดอย่างหนึ่ง ทำไมคุณถึงต้องการจัดกลุ่มจุดเริ่มต้น / จุดสิ้นสุดของ "วิถี" ของคุณ


2

PySAL - Python Spatial Analysis Library อาจเป็นการเริ่มต้นที่ดี - http://code.google.com/p/pysal/

เป็นส่วนหนึ่งของ autocorrelation:

ออโตคอร์เรเลชันสัมพันธ์เชิงพื้นที่เกี่ยวข้องกับรูปแบบที่ไม่ใช่แบบสุ่มของค่าแอ็ตทริบิวต์มากกว่าชุดของหน่วยเชิงพื้นที่ สิ่งนี้สามารถใช้สองรูปแบบทั่วไป: ความสัมพันธ์เชิงบวกอัตโนมัติซึ่งสะท้อนให้เห็นถึงความคล้ายคลึงกันของค่าในอวกาศ ในทั้งสองกรณีความสัมพันธ์อัตโนมัติเกิดขึ้นเมื่อรูปแบบเชิงพื้นที่ที่สังเกตเห็นแตกต่างจากสิ่งที่คาดหวังภายใต้กระบวนการสุ่มที่ปฏิบัติการในอวกาศ

http://pysal.org/1.2/users/tutorials/autocorrelation.html

นอกจากนี้คุณยังสามารถพิจารณาใช้ R ห้องสมุดhttp://cran.r-project.org/web/views/Spatial.htmlสำหรับการวิเคราะห์แบบจุด

แพ็คเกจ R อื่น ๆ :

ฟังก์ชั่นสำหรับการเข้าถึงและจัดการข้อมูลเชิงพื้นที่สำหรับการติดตามสัตว์ กรองสำหรับความเร็วและสร้างแปลงที่ใช้เวลาจากข้อมูลติดตามสัตว์

นอกจากนี้ยังอาจลดความซับซ้อนของการวิเคราะห์หากคุณถ่ายโอนคะแนนไปยังเครือข่ายการขนส่งเชิงเส้นที่มีอยู่ (ถนน / รถไฟ) ที่มีอยู่จาก OSM จากนั้นคุณสามารถเป็นสัญลักษณ์ตามบรรทัดเหล่านี้และจำนวนผู้ใช้ในแต่ละช่วงเวลาของวัน


จากบริบทของคำถามที่แนะนำให้ตรวจสอบความสัมพันธ์อัตโนมัติไม่สมเหตุสมผล ความสัมพันธ์อัตโนมัติของคุณลักษณะใด
Andy W

การประทับเวลาสำหรับการอ่าน GPS สามารถใช้ดูว่าพื้นที่ใดของเมืองหรือเมืองที่ใช้ในช่วงเวลาที่แตกต่างกันของวัน แม้ว่ามันจะไม่ชัดเจนว่าการวิจัยเบื้องต้นคือการค้นหาสิ่งที่ผู้คนทำหรือวิธีการที่ผู้คนไปถึงที่นั่น
geographika

นอกจากนี้ยังมีชุดข้อมูลจุดที่ได้รับซึ่งมีจุดที่เกี่ยวข้องอย่างใกล้ชิดสำหรับบุคคลที่จัดกลุ่มและได้รับพารามิเตอร์ "ระยะเวลา" สามารถวิเคราะห์ได้
geographika

ความคิดเห็นแรกของคุณเปลี่ยนหน่วยการวิเคราะห์จากผู้คนเป็นสถานที่ ในขณะที่ฉันเห็นด้วยกับคำถามที่ค่อนข้างคลุมเครือ แต่ก็ไม่มีอะไรในนั้นที่จะบอกว่า OP ต้องการจัดกลุ่มสถานที่ ฉันสามารถดูข้อโต้แย้งสำหรับความคิดเห็นที่สอง (จุดมีคุณลักษณะของความเร็ว) ในขณะที่ความคิดที่น่าสนใจมันเป็นนามธรรมและนวนิยายดังนั้นฉันไม่คิดว่ามันสมเหตุสมผลที่จะแนะนำการตรวจสอบความสัมพันธ์เชิงพื้นที่อัตโนมัติและมีแนวโน้มที่จะเกิดความสับสน (คุณสามารถจัดกลุ่มคะแนนในกรอบนั้นไม่ใช่เส้นทางทั้งหมด) ฉันเห็นด้วยแม้ว่าห้องสมุด pysal และ R จะเป็นที่สนใจ
Andy W

2

ในขณะที่ฉันไม่สามารถแสดงความคิดเห็นมากเกี่ยวกับวิถีหรือเส้นทางของคนของคุณฉันคิดว่าคุณกำลังถูกทางด้วยวิธีการคลัสเตอร์และเวลา

ฉันรวบรวมตัวอย่างสำหรับ Esri UC เมื่อปีที่แล้วขณะที่ทำงานกับบางคนที่ Snow Leopard Conservancy ดูได้ที่: http://resources.arcgis.com/gallery/file/geoprocessing/details?entryID=1F9F376F-1422-2418 -7FBC-C359E9644702

ดูที่ "แหล่งอาหาร" (กลุ่ม) ของ Snow Leopards ตามเกณฑ์ที่กำหนด:

  • การจัดกลุ่มคะแนนเหล่านั้นเป็นอย่างไร (ระยะทางจากกัน)
  • เกณฑ์ขั้นต่ำของคะแนน (การวิเคราะห์ของฉันต้องการ 4 คะแนนขึ้นไปเนื่องจากการอ่านใช้เวลาประมาณ 12 ชั่วโมง)
  • คะแนนจะต้องต่อเนื่องกัน (ส่วนที่ง่ายของการวิเคราะห์ที่ควรเก็บในลำดับเชิงเส้น)

แม้ว่ามันจะใช้เครื่องมือของ Esri เพื่อทำการวิเคราะห์ระยะทาง แต่สคริปต์ python ภายในอาจช่วยให้คุณมีแนวคิดการจัดกลุ่มเมื่อคุณทราบว่ามีจุดใดอยู่ใกล้กัน (ใช้ทฤษฎีกราฟ: http://en.wikipedia.org/wiki/Graph_theory )

ดังที่กล่าวไว้ในคำตอบอื่น ๆ มีเอกสารที่นั่นเพื่อกำหนดคุณลักษณะที่คุณต้องตัดสินใจ

การวิเคราะห์อิงตามแนวคิดจาก: Knopff, KH, ARA Knopff, MB Warren และ MS Boyce 2009. การประเมินเทคนิคการวัดระยะไกลระบบกำหนดตำแหน่งบนพื้นโลกสำหรับการประมาณค่าพารามิเตอร์การปล้นสะดมของเสือภูเขา วารสารการจัดการสัตว์ป่า 73: 586-597


2

ในการรันการจัดกลุ่มใด ๆ ในชุดไบร์ทของคุณคุณจำเป็นต้องมีวิธีการคำนวณความคล้ายคลึงกันหรือระยะทางของคู่วิถี มีวิธีการที่มีอยู่หลายประการสำหรับเรื่องนี้และวิธีการใหม่ได้รับการพัฒนาสำหรับกรณีพิเศษหรือแก้ไขข้อบกพร่องของวิธีการดั้งเดิม อัลกอริทึมที่รู้จักกันดีมีดังต่อไปนี้:

  • ระยะทางคู่ที่ใกล้ที่สุด: เพียงกำหนดระยะทางของวิถี 2 อันด้วยระยะทางของคู่จุดที่อยู่ใกล้กันมากที่สุด ไบร์ทจะต้องมีจำนวนคะแนนเท่ากัน
  • ผลรวมของระยะทางคู่: คำนวณระยะทางสำหรับแต่ละจุดคู่และเพิ่มขึ้น ใช้ได้เฉพาะเมื่อวิถีมีความยาวเท่ากัน
  • ระยะทางไดนามิกเวลาแปรปรวน (DTW): อัลกอริทึมนี้ได้รับการพัฒนาขึ้นเพื่อจัดการวิถีการเคลื่อนที่ของจำนวนคะแนนที่วัดได้ มันทำงานกับคู่ของจุดและทำให้สามารถใช้จุดหนึ่งของวิถีหนึ่งหลายครั้งในการคำนวณระยะทางคู่ถ้าอีกคนหนึ่งกำลังเคลื่อนที่ "เร็วเกินไป" ภาพประกอบ DTW(ภาพจากWikipedia )
  • Longest Common Subsequence: ตามชื่อที่แนะนำมันกำหนดความคล้ายคลึงกันของวิถีสองเส้นทางด้วยความยาวของเส้นทางย่อยที่ยาวที่สุดที่เส้นทางเดิมเดินทางใกล้กัน
  • Edit Distance on Real Sequence (EDR) และ Edit Distance with Real Penalty (ERP) กำหนดความคล้ายคลึงกันโดยจำนวนของการดำเนินการแก้ไข (เพิ่มลบหรือแทนที่) ที่จำเป็นในการแปลงวิถีหนึ่งไปเป็นอีกอันหนึ่ง

หากคุณอยู่ในสาขานี้ฉันขอแนะนำหนังสือที่ชื่อว่า "Computing with Spatial Trajectories" จากผู้ดำเนินการ Microsoft Asia จำนวนหนึ่ง


0

นี่อาจเป็นประโยชน์สำหรับคุณเช่นกัน:

Orellana D, Wachowicz M. สำรวจรูปแบบการเคลื่อนไหวของช่วงล่างของการเคลื่อนไหวในการเดินเท้า Geogr Anal 2011; 43 (3): 241-60 PubMed PMID: 22073410

ดูที่บล็อกนี้ด้วย:

ideasonmovement.wordpress.com/

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.