รูทีนการเลือก eps และ minPts สำหรับ DBSCAN


14

DBSCAN เป็นขั้นตอนวิธีการจัดกลุ่มที่อ้างถึงมากที่สุดตามวรรณกรรมบางเล่มและสามารถหากลุ่มรูปร่างตามอำเภอใจตามความหนาแน่น มันมีสองพารามิเตอร์ eps (ตามรัศมีของพื้นที่ใกล้เคียง) และ minPts (เป็นเพื่อนบ้านขั้นต่ำในการพิจารณาจุดเป็นจุดหลัก) ซึ่งฉันเชื่อว่ามันขึ้นอยู่กับพวกเขา

มีวิธีปกติหรือวิธีการที่ใช้กันทั่วไปเพื่อเลือกพารามิเตอร์เหล่านี้หรือไม่?


1
โปรดทราบว่ามีคำถามที่คล้ายกันในStack Overflow : การเลือก eps และ minpts สำหรับ DBSCAN (R)?
gung - Reinstate Monica

คำตอบ:


11

มีสิ่งพิมพ์จำนวนมากที่เสนอวิธีการเลือกพารามิเตอร์เหล่านี้

สิ่งที่น่าสังเกตมากที่สุดคือ OPTICS ซึ่งเป็นรูปแบบของ DBSCAN ที่มีพารามิเตอร์ epsilon มันสร้างผลลัพธ์แบบลำดับชั้นที่สามารถมองเห็นได้โดยประมาณว่า "กำลังเรียกใช้ DBSCAN กับ epsilon ที่เป็นไปได้ทุกตัว"

สำหรับ minPts ผมไม่แนะนำให้ไม่ต้องพึ่งพาวิธีการอัตโนมัติ แต่คุณรู้โดเมน

อัลกอริทึมการจัดกลุ่มที่ดีมีพารามิเตอร์ที่ช่วยให้คุณสามารถปรับแต่งได้ตามความต้องการของคุณ

พารามิเตอร์ที่คุณมองข้ามคือฟังก์ชันระยะทาง สิ่งแรกที่ต้องทำสำหรับ DBSCAN คือการหาระยะทางที่ดีฟังก์ชั่นสำหรับการใช้งานของคุณ อย่าพึ่งพาระยะทางแบบยุคลิดที่ดีที่สุดสำหรับทุกการใช้งาน!


แม้ว่าผู้ใช้สามารถเลือกฟังก์ชั่นระยะทางได้ แต่ฉันสงสัยว่ามันเป็นพารามิเตอร์
Mehraban

1
แน่นอนมันเป็น มันเป็นพารามิเตอร์ที่มากที่สุดเท่าที่ฟังก์ชั่นเคอร์เนลสำหรับวิธีการ kernelized อื่น ๆ (ที่คุณสามารถในความเป็นจริง kernelize DBSCAN นิด ๆ วิธีนี้) และในระยะทางประสบการณ์อื่น ๆ ของฉันเช่นแคนเบอร์ราหรือคลาร์กสามารถอย่างมีนัยสำคัญปรับปรุงผล
มี QUIT - Anony-Mousse

ฉันไม่ดูถูกดูแคลนฟังก์ชันระยะทางที่มีอิทธิพลต่อการจัดกลุ่ม แต่ฉันคิดว่ามันเป็นเรื่องทั่วไปไม่เฉพาะเจาะจงกับ dbscan หรืออัลกอริทึมการจัดกลุ่มอื่น ๆ ในขณะที่ eps และ minPts เป็นพารามิเตอร์ dbscan อย่างชัดเจน
Mehraban

1
มีอัลกอริธึมที่ไม่ใช่ระยะทางมากมายเช่นกัน และเมื่อคุณพิจารณา minPts ให้เหมือนกับเช่นkสำหรับการจำแนกเพื่อนบ้านที่ใกล้ที่สุดคุณสามารถพูดเหมือนกันสำหรับพารามิเตอร์ minPts ฉันเดาว่าความแตกต่างที่สำคัญคือระยะทางมีค่าเริ่มต้นที่สมเหตุสมผล "มักจะ": ระยะทางแบบยุคลิด ในขณะที่ minPts ค่าจะเป็นข้อมูลเฉพาะ
มี QUIT - Anony-Mousse

1
OPTICS จะไม่ให้พาร์ติชันของคุณ แต่เป็นคำสั่งของคลัสเตอร์ ในการรับพาร์ติชันใช้การแยก xi ที่อธิบายไว้ในกระดาษของ OPTICS ดูกระดาษแต่ละชุดเพื่อเข้าใจความแตกต่าง
มี QUIT - Anony-Mousse
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.