คำสาปของขนาด: kNN ลักษณนาม


11

ฉันกำลังอ่านหนังสือของ Kevin Murphy: Machine Learning-A Perspective ในบทแรกผู้เขียนอธิบายคำสาปของมิติและมีส่วนที่ฉันไม่เข้าใจ ตัวอย่างผู้เขียนระบุ:

พิจารณาว่าอินพุตนั้นมีการกระจายอย่างสม่ำเสมอตามคิวบ์หน่วยมิติ สมมติว่าเราประเมินความหนาแน่นของคลาสฉลากโดยสร้างไฮเปอร์คิวบ์รอบ ๆ x จนกว่าจะมีเศษส่วนที่ต้องการของจุดข้อมูล ความยาวขอบที่คาดหวังของก้อนนี้เป็น{D}}feD(f)=f1D

มันเป็นสูตรสุดท้ายที่ฉันไม่สามารถเข้าใจได้ ดูเหมือนว่าถ้าคุณต้องการที่จะพูดว่า 10% ของคะแนนกว่าความยาวขอบควรเป็น 0.1 ตามแต่ละมิติ? ฉันรู้ว่าเหตุผลของฉันผิด แต่ฉันไม่เข้าใจว่าทำไม


6
ลองนึกภาพสถานการณ์ในสองมิติก่อน ถ้าผมมี 1m A * แผ่น 1m กระดาษและผมตัด 0.1m * 0.1m ตารางออกจากมุมล่างซ้ายที่ฉันได้ไม่ถูกลบออกหนึ่งในสิบของกระดาษ แต่เพียงhundredth
David Zhang

คำตอบ:


13

นั่นคือพฤติกรรมที่ไม่คาดคิดของระยะทางในมิติที่สูงอย่างแม่นยำ สำหรับ 1 มิติคุณมีช่วงเวลา [0, 1] 10% ของคะแนนอยู่ในส่วนของความยาว 0.1 แต่จะเกิดอะไรขึ้นเมื่อขนาดของคุณลักษณะเพิ่มขึ้น

นิพจน์นั้นบอกคุณว่าถ้าคุณต้องการให้ 10% ของคะแนนสำหรับ 5 ส่วนคุณจะต้องมีความยาวสำหรับลูกบาศก์เท่ากับ 0.63 ใน 10 มิติ 0.79 และ 0.98 สำหรับ 100 มิติ

อย่างที่คุณเห็นในการเพิ่มมิติคุณต้องมองให้ไกลออกไปเพื่อให้ได้คะแนนเท่ากัน ยิ่งไปกว่านั้นกำลังบอกคุณว่าจุดส่วนใหญ่อยู่ที่ขอบเขตของคิวบ์เมื่อจำนวนมิติเพิ่มขึ้น ซึ่งคาดไม่ถึง


4

ฉันคิดว่าสิ่งสำคัญที่ต้องสังเกตคือการแสดงออก

อีD()=1D

เป็นจุดเริ่มต้นที่สูงชันจริงๆ ซึ่งหมายความว่าขนาดของขอบที่คุณจะต้องรวมส่วนหนึ่งของปริมาตรจะเพิ่มขึ้นอย่างมากโดยเฉพาะตอนเริ่มต้น เช่นขอบที่คุณต้องการจะมีขนาดใหญ่ขึ้นอย่างน่าขันเมื่อเพิ่มขึ้นD

ในการทำให้ชัดเจนยิ่งขึ้นให้จำฉากที่ Murphy แสดง:

ป้อนคำอธิบายรูปภาพที่นี่

หากคุณสังเกตเห็นว่าสำหรับค่าความชันนั้นมีขนาดใหญ่มากและด้วยเหตุนี้ฟังก์ชั่นจะเพิ่มขึ้นอย่างมากในตอนเริ่มต้น เรื่องนี้น่าจะดีขึ้นถ้าคุณหาอนุพันธ์ของ :D>1อีD()

อีD'()=1D1D-1=1D1-DD

เนื่องจากเราเป็นเพียงการพิจารณาการเพิ่มมิติ (ที่มีจำนวนเต็มค่า) เราจะดูแลค่าจำนวนเต็มของ1 ซึ่งหมายความว่า<0 พิจารณาการแสดงออกของขอบดังนี้:D>11-D<0

อีD'()=1D(1-D)1D

ประกาศว่าเราเพิ่มเป็นกำลังน้อยกว่า 0 (เช่นลบ) เมื่อเราเพิ่มจำนวนไปสู่พลังเชิงลบเรามีอยู่ช่วงหนึ่งที่ทำสิ่งตอบแทนซึ่งกันและกัน (เช่น ) ทำส่วนกลับให้เป็นจำนวนที่น้อยจริง ๆ แล้ว (เรียกคืนเนื่องจากเรากำลังพิจารณาเพียงเศษส่วนของปริมาตรเนื่องจากเรากำลังทำ KNN นั่นคือข้อมูลที่ใกล้ที่สุดชี้จากจำนวนทั้งหมด) หมายความว่าตัวเลขจะเพิ่มขึ้น จำนวนมาก" ดังนั้นเราจะได้รับพฤติกรรมตามที่ต้องการนั่นคือเมื่อเพิ่มพลังจะกลายเป็นลบมากขึ้นและด้วยเหตุนี้ขอบที่ต้องการจะเพิ่มขึ้นมากขึ้นอยู่กับว่าขนาดใหญ่เพิ่มเลขชี้กำลังx-1=1x<1kยังไม่มีข้อความDD

(โปรดสังเกตว่าเติบโตแบบทวีคูณเมื่อเทียบกับการหารที่ไม่มีนัยสำคัญอย่างรวดเร็ว)1-D1D


2

ใช่ถ้าคุณมีคิวบ์หน่วยหรือในกรณีของคุณเป็นหน่วยบรรทัดและข้อมูลมีการกระจายอย่างสม่ำเสมอคุณต้องมีความยาว 0.1 เพื่อจับภาพ 10% ของข้อมูล ตอนนี้เมื่อคุณเพิ่มขนาด D เพิ่มขึ้นซึ่งจะหลอกพลังงานและ f น้อยกว่า 1 จะเพิ่มขึ้นเช่นถ้า D ไปไม่สิ้นสุดคุณจะต้องจับลูกบาศก์ทั้งหมด e = 1


0

ฉันคิดว่าระยะทาง kNN มีบทบาทที่ใหญ่กว่า เกิดอะไรขึ้นกับลูกบาศก์ (ไฮเปอร์) คล้ายกับสิ่งที่เกิดขึ้นกับระยะห่างระหว่างจุด เมื่อคุณเพิ่มจำนวนมิติอัตราส่วนระหว่างระยะทางที่ใกล้ที่สุดกับระยะทางเฉลี่ยจะเพิ่มขึ้นนั่นหมายความว่าจุดที่ใกล้ที่สุดนั้นอยู่ใกล้กับจุดเฉลี่ยมากที่สุดนั่นคือมันมีพลังการทำนายมากกว่าจุดเฉลี่ยเพียงเล็กน้อยเท่านั้น นี้บทความอธิบายได้เป็นอย่างดี

Joel Grus ทำงานได้ดีในการอธิบายปัญหานี้ใน Data Science ตั้งแต่เริ่มต้น ในหนังสือเล่มนั้นเขาคำนวณระยะทางเฉลี่ยและระยะห่างต่ำสุดระหว่างสองจุดในพื้นที่มิติตามจำนวนมิติที่เพิ่มขึ้น เขาคำนวณระยะทาง 10,000 จุดระหว่างจุดโดยมีจำนวนมิติตั้งแต่ 0 ถึง 100 จากนั้นเขาจะพล็อตระยะทางเฉลี่ยและระยะทางขั้นต่ำระหว่างจุดสองจุดรวมถึงอัตราส่วนของระยะทางที่ใกล้ที่สุดกับระยะทางเฉลี่ย (Distance_Closest / Distance_Average) .

ในแปลงเหล่านั้นโจเอลแสดงให้เห็นว่าอัตราส่วนของระยะทางที่ใกล้ที่สุดกับระยะทางเฉลี่ยเพิ่มขึ้นจาก 0 ที่ 0 มิติเพิ่มขึ้นถึง ~ 0.8 ที่ 100 มิติ และสิ่งนี้แสดงให้เห็นถึงความท้าทายพื้นฐานของมิติเมื่อใช้อัลกอริทึมเพื่อนบ้านที่ใกล้ที่สุดของ k; เมื่อจำนวนมิติเพิ่มขึ้นและอัตราส่วนของระยะทางที่ใกล้ที่สุดกับระยะทางเฉลี่ยใกล้เคียง 1 พลังการทำนายของอัลกอริทึมจะลดลง หากจุดที่ใกล้ที่สุดอยู่ใกล้กับจุดเฉลี่ยมากที่สุดแสดงว่ามันมีพลังการทำนายได้มากกว่าจุดเฉลี่ยเพียงเล็กน้อยเท่านั้น

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.