การเลือก k-value สำหรับการวิเคราะห์ตรวจจับ Local Outlier Factor (LOF)


9

ฉันมีชุดข้อมูลสามมิติและฉันพยายามใช้การวิเคราะห์ Local Outlier Factor เพื่อระบุค่าที่แปลกที่สุดหรือแปลกที่สุด เราจะตัดสินใจ k-value ที่จะใช้ในการวิเคราะห์ LOF ได้อย่างไร? ฉันเข้าใจสิ่งที่ค่า k กำหนดและดังนั้นฉันจึงไม่แปลกใจเลยที่ฉันเห็นผลลัพธ์ที่แตกต่างกันเล็กน้อยเมื่อใช้ k ที่ต่างกัน แต่ฉันไม่แน่ใจว่ามีลักษณะของชุดข้อมูลของฉันที่จะผลักดันฉันไปยังค่าหนึ่งมากกว่าค่าอื่น ๆ . ขอบคุณ!

คำตอบ:


11

การโพสต์สิ่งนี้ที่นี่สำหรับทุกคนที่เจอคำถามของฉันในอนาคต - กระดาษต้นฉบับที่อธิบายอัลกอริธึมค่าผิดปกติในท้องถิ่น "LOF: การระบุค่าความหนาแน่นตามท้องถิ่น" (Breunig et al) แนะนำวิธีการเลือก k-value . เพื่อเป็นการเตือนความจำอัลกอริทึม LOF จะเปรียบเทียบความหนาแน่นของแต่ละจุดกับความหนาแน่นของมันkเพื่อนบ้านที่ใกล้ชิดที่สุด ผู้เขียนบทความแนะนำให้เลือกขั้นต่ำk และสูงสุด kและสำหรับแต่ละจุดรับค่า LOF สูงสุดในแต่ละจุด kในช่วงนั้น พวกเขามีแนวทางหลายประการสำหรับการเลือกขอบเขต

สำหรับค่าต่ำสุดค่า LOF ผันผวนจุดในการแจกแจงแบบสม่ำเสมอสำหรับ k<10บางครั้งมีการแจกแจงแบบสม่ำเสมอปรากฏเป็นค่าผิดปกติดังนั้นจึงแนะนำอย่างน้อย min(k)=10. ประการที่สองขั้นต่ำk- ค่าทำหน้าที่เป็นขนาดขั้นต่ำสำหรับบางสิ่งบางอย่างที่จะถือว่าเป็น "กลุ่ม" เพื่อให้คะแนนสามารถเป็นค่าผิดปกติที่เกี่ยวข้องกับกลุ่มนั้น ถ้าk=15และคุณมีกลุ่ม 12 จุดและจุด pแต่ละจุดในกลุ่มจะรวมถึง p ในประเทศเพื่อนบ้านที่ใกล้ที่สุดและ pจะรวมคะแนนเหล่านั้นนำพวกเขาให้มี LOF ที่คล้ายกันมาก ดังนั้นหากคุณต้องการพิจารณาจุดที่อยู่ใกล้กลุ่มN คะแนนเป็น outlier แทนที่จะเป็นส่วนหนึ่งของกลุ่มนั้นค่า k ของคุณควรเป็นอย่างน้อย N.

สำหรับค่าสูงสุดจะใช้เกณฑ์ที่คล้ายกันซึ่งควรเป็นจำนวนสูงสุดของวัตถุที่คุณต้องการพิจารณาว่าเป็นค่าผิดปกติหากทำคลัสเตอร์ด้วยกัน กลุ่มของN วัตถุที่แยกได้จากชุดหลักสามารถเป็นได้ทั้งคลัสเตอร์หรือ Nค่าผิดปกติ; สำหรับk<Nพวกเขาจะเป็นคนแรก สำหรับk>Nพวกเขาจะเป็นครั้งที่สอง

หวังว่านี่จะช่วยให้ทุกคนที่มีปัญหาคล้ายกัน บทความฉบับเต็มอยู่ที่นี่และการอภิปรายค่าสูงสุด / นาที k-values ​​เริ่มต้นในหน้า 7 และผ่านหน้า 9 (อ้างอิงจากk- มูลค่าเป็นMinPts )


แค่อยากเข้าใจสิ่งหนึ่ง สมมุติว่าชุดข้อมูลใดที่ฉันเลือก k = 20 และสร้าง LOF สำหรับแต่ละจุดแล้วฉันจะแสดงจุดทั้งหมดตามลำดับจากมากไปน้อยของ LOF ตอนนี้เมื่อฉันวิเคราะห์ข้อมูลฉันสามารถเลือกช่วงที่ฉันคิดว่าข้อมูลเป็นค่าผิดปกติ (ตามความรู้ของโดเมน) คุณคิดว่ามันช่วยได้หรือไม่? ฉันแค่ฉันเป็นตอนนี้ฉันไม่ต้องกังวลเกี่ยวกับค่าของ k และฉันใช้ความรู้โดเมนของฉันเพื่อวิเคราะห์ค่าผิดปกติตามการจัดอันดับ LOF ขอบคุณ
Swapnil Bhure
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.