หรือ


14

ไม่มีใครใช้L1หรือL.5ตัวชี้วัดสำหรับการจัดกลุ่มมากกว่าL2 ?
Aggarwal และคณะ, เกี่ยวกับพฤติกรรมที่น่าประหลาดใจของการวัดระยะทางในพื้นที่มิติสูง กล่าวว่า (ในปี 2001)

L1เป็นที่นิยมมากกว่าอย่างต่อเนื่องจากนั้น Euclidean distance metro L2สำหรับการใช้งานการขุดข้อมูลขนาดสูง

และอ้างว่าL.5หรือL.1สามารถทำได้ดีกว่า

เหตุผลในการใช้L1หรือL.5อาจเป็นเชิงทฤษฎีหรือเชิงทดลองเช่นความอ่อนไหวต่อค่าผิดปกติ / เอกสารของKabánหรือโปรแกรมที่ทำงานบนข้อมูลจริงหรือสังเคราะห์ (ทำซ้ำได้) ตัวอย่างหรือรูปภาพจะช่วยปรีชาของคนธรรมดาของฉัน

คำถามนี้เป็นคำถามติดตามคำตอบบ๊อบ Durrant ไป เมื่อ-is-ใกล้ที่สุด-เพื่อนบ้านที่มีความหมายต่อวัน ดังที่เขากล่าวตัวเลือกของpจะเป็นทั้งข้อมูลและแอพพลิเคชั่น อย่างไรก็ตามรายงานจากประสบการณ์จริงจะเป็นประโยชน์


หมายเหตุได้เพิ่มอังคาร 7 มิถุนายน:

ฉันพบ "การวิเคราะห์ข้อมูลทางสถิติตาม L1-norm และวิธีการที่เกี่ยวข้อง", Dodge ed., 2002, 454p, is 37n 3764369205 - เอกสารการประชุมนับสิบ

ทุกคนสามารถวิเคราะห์ความเข้มข้นของระยะทางสำหรับคุณสมบัติเด่นของ iid ได้หรือไม่? เหตุผลหนึ่งที่ทำให้เอ็กซ์โปเนนเชียลคือ ; อื่น (ไม่ใช่ผู้เชี่ยวชาญ) คือการกระจายสูงสุดของเอนโทรปี 0; หนึ่งในสามคือชุดข้อมูลจริงบางชุดโดยเฉพาะอย่างยิ่ง SIFT จะมีการแจกแจงแบบคร่าวๆ|expexp|exp


เป็นสิ่งสำคัญที่ต้องพูดถึงว่า Aggarwal และคณะ ในบทความที่เฉพาะเจาะจงที่ที่มองหาพฤติกรรมของบรรทัดฐานในปัญหาเช่นการจัดกลุ่มเพื่อนบ้านที่ใกล้ที่สุดและการจัดทำดัชนี Lp
deps_stats

คุณอาจหมายถึง metrics สำหรับลำดับมากกว่าL pสำหรับฟังก์ชั่น? ในความคิดของฉันหากมีเกณฑ์การเพิ่มประสิทธิภาพใด ๆ ปัญหาสามารถแก้ไขได้การเพิ่มประสิทธิภาพ Rule-of-thumbs มักจะเกี่ยวข้องกับวิธีแก้ไขปัญหาที่แน่นอน อย่างไรก็ตามลองคิดถึงคุณสมบัติของสารละลาย knn ที่ต้องการ หลังจากที่ฉันอ่านบทความอาจจะพูดอะไรเพิ่มเติมในหัวข้อ lpLp
Dmitrij Celov

@deps_stats ใช่ขอบคุณ; เปลี่ยนชื่อและบรรทัดแรก @Dmitrij, 1) ใช่ little-l พูดอย่างถูกต้อง แต่ big-L เป็นเรื่องธรรมดาและเข้าใจได้ 2) ใช่หนึ่งสามารถหา p ที่ดีที่สุดสำหรับปัญหาที่กำหนด แต่ตัวเลือกแรกของคุณคืออะไรและทำไม?
เดนิส

คำตอบ:


6

กุญแจสำคัญในที่นี้คือการทำความเข้าใจ "คำสาปแห่งมิติ" อ้างอิงเอกสาร จากวิกิพีเดีย: เมื่อขนาดมีขนาดใหญ่มาก

เกือบทั้งหมดของพื้นที่มิติสูงคือ "ไกล" จากศูนย์กลางหรือเพื่อกล่าวอีกนัยหนึ่งหน่วยพื้นที่มิติสูงสามารถกล่าวได้ว่าประกอบด้วยเกือบทั้งหมดของ "มุม" ของ hypercube เกือบไม่มี "กลาง"

เป็นผลให้มันเริ่มยากที่จะคิดว่าจุดไหนอยู่ใกล้กับจุดอื่น ๆ เพราะมันอยู่ห่างกันมากหรือน้อยเท่ากัน นี่เป็นปัญหาในบทความแรกที่คุณเชื่อมโยง

ปัญหาที่มีค่า p สูงคือมันเน้นค่าที่ใหญ่กว่า - ห้ากำลังสองและสี่กำลังสองห่างกันเก้าหน่วย แต่หนึ่งกำลังสองและสองกำลังสองห่างกันเพียงสามหน่วย ดังนั้นขนาดที่ใหญ่ขึ้น (สิ่งต่าง ๆ ในมุม) จึงควบคุมทุกอย่างและคุณจะเสียความเปรียบต่างไป ดังนั้นอัตราเงินเฟ้อระยะทางไกลนี้จึงเป็นสิ่งที่คุณต้องการหลีกเลี่ยง ด้วยเศษส่วน p การเน้นความแตกต่างของขนาดที่เล็กกว่าคือขนาดที่มีค่ากลางซึ่งจะให้ความเปรียบต่างมากขึ้น


(+1) @David โดยทั่วไปมีเกณฑ์ที่อธิบายคุณภาพของความเปรียบต่างหรือไม่
Dmitrij Celov

ดูเหมือนว่ากระดาษแผ่นแรกที่คุณเชื่อมโยงจะแนะนำระยะทางสูงสุดลบด้วยระยะทางต่ำสุด แม้ว่าจะมีวิธีที่ดีกว่านี้
David J. Harris

สัญชาตญาณชัดเจนดี +1 (แม้ว่ามันจะไม่ชัดเจนว่ามุมอยู่ที่ไหนในการกระจายระยะทาง) คุณใช้หรือL .5กับข้อมูลจริงหรือไม่? L1L.5
เดนิส

1
@ Denis ขอบคุณ! ฉันคิดว่าบิตที่ถูกต้องเหมาะสมที่สุดถ้าข้อมูลถูก จำกัด ไว้ที่สุดหรือทุกมิติ อย่างไรก็ตามฉันเกรงว่าฉันไม่มีประสบการณ์เพียงพอในการจัดกลุ่มเพื่อให้มีสัญชาติญาณที่ดีเกี่ยวกับตัวชี้วัดที่แตกต่างกันสำหรับคุณ วิธีที่ดีที่สุดอาจลองและดูว่าเกิดอะไรขึ้น
เดวิดเจแฮร์ริส

1

มีกระดาษที่ใช้เมตริก Lp กับ p ระหว่าง 1 ถึง 5 ที่คุณอาจต้องการดู:

Amorim, RC และ Mirkin, B. , Minkowski Metric, คุณสมบัติน้ำหนักและการเริ่มต้นของกลุ่มที่ผิดปกติใน K-Means Clustering, การจดจำรูปแบบ, ฉบับที่ 5 45 (3), pp. 1061-1075, 2012

ดาวน์โหลด https://www.researchgate.net/publication/232282003_Author 's_personal_copy_Minkowski_metric_feature_weighting_and_anomalous_cluster_initializing_in_K-Means_clustering / ไฟล์ / d912f508115a040b45.pdf


โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.