เครื่องเรียนรู้คำสาปของมิติอธิบาย?


14

ฉันมีปัญหาในการเข้าใจคำสาปของมิติ โดยเฉพาะฉันเจอมันในขณะที่ทำการscikit-learnสอนในหลาม ใครช่วยอธิบายด้านล่างด้วยวิธีที่ง่ายกว่านี้ได้ไหม ขออภัยฉันพยายามที่จะเข้าใจเป็นเวลานานและไม่สามารถเข้าใจได้ว่าพวกเขามาพร้อมกับการคำนวณจำนวนตัวอย่างการฝึกอบรมเพื่อให้ได้ตัวประมาณ KNN ​​อย่างมีประสิทธิภาพ

นี่คือคำอธิบาย:

เพื่อให้ตัวประมาณมีผลคุณต้องมีระยะห่างระหว่างจุดที่อยู่ใกล้เคียงกับค่าน้อยกว่าค่า d ซึ่งขึ้นอยู่กับปัญหา ในมิติเดียวสิ่งนี้ต้องใช้กับคะแนนเฉลี่ย n ~ 1 / d ในบริบทของตัวอย่าง KNN ด้านบนหากข้อมูลถูกอธิบายโดยคุณลักษณะเพียงหนึ่งเดียวที่มีค่าอยู่ระหว่าง 0 ถึง 1 และด้วยการสังเกตการณ์การฝึกอบรม n ข้อมูลใหม่จะไม่อยู่ไกลกว่า 1 / n ดังนั้นกฎการตัดสินใจของเพื่อนบ้านที่ใกล้ที่สุดจะมีประสิทธิภาพทันทีที่ 1 / n มีขนาดเล็กเมื่อเทียบกับขนาดของความแตกต่างระหว่างคุณลักษณะระดับคลาส

หากจำนวนฟีเจอร์คือ p ตอนนี้คุณต้องมีคะแนน n ~ 1 / d ^ p สมมติว่าเราต้องการ 10 คะแนนในหนึ่งมิติ: ตอนนี้ต้องใช้ 10 ^ p คะแนนในขนาด p เพื่อปูพื้นที่ [0, 1] เมื่อ p มีขนาดใหญ่จำนวนคะแนนการฝึกอบรมที่จำเป็นสำหรับตัวประมาณที่ดีจะเพิ่มขึ้นอย่างมาก

ลิงค์ที่นี่

แก้ไข: tilde ( ~) ควรเป็นตัวแทนของตัวอย่างโดยประมาณในสิ่งนั้นด้วยหรือไม่ หรือตัวดำเนินการ pild tilde?


2
ตัวหนอนหมายถึง "สัดส่วนกับ"
reseter

@matchkarov ฮ่าขอบคุณ ประมาณและสัดส่วนที่จะเป็นข้อสรุปที่แตกต่างกันมาก ๆ ฮ่า ๆ

คำตอบ:


11

แปลวรรคนั้น:

ปล่อยให้มีชุดของคุณสมบัติที่อธิบายจุดข้อมูล บางทีคุณอาจกำลังดูสภาพอากาศ ชุดของคุณสมบัตินั้นอาจรวมถึงสิ่งต่าง ๆ เช่นอุณหภูมิความชื้นเวลาของวัน ฯลฯ ดังนั้นจุดข้อมูลแต่ละจุดอาจมีหนึ่งคุณลักษณะ (ถ้าคุณดูที่อุณหภูมิเท่านั้น) หรืออาจมี 2 คุณสมบัติ (ถ้าคุณกำลังดูอุณหภูมิ และความชื้น) และอื่น ๆ สิ่งที่ย่อหน้านี้พูดคือขึ้นอยู่กับจำนวนมิติข้อมูลของคุณ (จำนวนฟีเจอร์ที่มี) ยิ่งยากที่จะทำการประมาณ นี่เป็นเพราะถ้าคุณมีคุณสมบัติเพียงอย่างเดียวของข้อมูลหรือข้อมูล 1 มิติจากนั้นเมื่อคุณไปที่กราฟข้อมูลนี้คุณจะได้กราฟเส้นแล้วลองจินตนาการถึงกราฟเส้นระหว่างสมมติว่า 0-50 องศา C มันใช้เวลาเพียง 50 จุดสุ่มก่อนแต่ละจุดข้อมูลประมาณ 1 องศาจากจุดข้อมูลอื่น ๆ ตอนนี้ขอ ' ลองคิดดูสองมิติพูดถึงความชื้นและอุณหภูมิตอนนี้มันยากกว่าที่จะหาว่า d นั้นทุกจุดอยู่ในหน่วย "d" ของกันและกัน จินตนาการอุณหภูมิยังคงอยู่ระหว่าง 0-50 แต่ตอนนี้ความชื้นอยู่ระหว่าง 0-100% ต้องใช้คะแนนสุ่มกี่แต้มในการรับคะแนนทั้งหมดภายใน 1 หรือ 2 ของกันและกัน ตอนนี้มันเป็น 100 * 50 หรือ ~ 5,000! ทีนี้ลองนึกภาพ 3 มิติ ฯลฯ คุณเริ่มต้องการวิธีเพิ่มคะแนนเพื่อให้แน่ใจว่าทุกจุดอยู่ในระยะ d จากจุดอื่น เพื่อทำให้ชีวิตของคุณง่ายขึ้นลองสมมติว่า "d" คือ 1 และดูว่าเกิดอะไรขึ้น หวังว่าจะช่วย! ต้องใช้คะแนนสุ่มกี่แต้มในการรับคะแนนทั้งหมดภายใน 1 หรือ 2 ของกันและกัน ตอนนี้มันเป็น 100 * 50 หรือ ~ 5,000! ทีนี้ลองนึกภาพ 3 มิติ ฯลฯ คุณเริ่มต้องการวิธีเพิ่มคะแนนเพื่อให้แน่ใจว่าทุกจุดอยู่ในระยะ d จากจุดอื่น เพื่อทำให้ชีวิตของคุณง่ายขึ้นลองสมมติว่า "d" คือ 1 และดูว่าเกิดอะไรขึ้น หวังว่าจะช่วย! ต้องใช้คะแนนสุ่มกี่แต้มในการรับคะแนนทั้งหมดภายใน 1 หรือ 2 ของกันและกัน ตอนนี้มันเป็น 100 * 50 หรือ ~ 5,000! ทีนี้ลองนึกภาพ 3 มิติ ฯลฯ คุณเริ่มต้องการวิธีเพิ่มคะแนนเพื่อให้แน่ใจว่าทุกจุดอยู่ในระยะ d จากจุดอื่น เพื่อทำให้ชีวิตของคุณง่ายขึ้นลองสมมติว่า "d" คือ 1 และดูว่าเกิดอะไรขึ้น หวังว่าจะช่วย!


2
นั่นเป็นคำอธิบายที่ดี แต่สิ่งที่เกี่ยวกับสมการที่พวกเขาให้? ในตัวอย่างคุณสมบัติ 1 ของคุณที่ฉันต้องการให้ตัวประมาณค่าอยู่ห่างออกไป 1 องศา (เช่น d = 1) จากนั้นสมการของพวกเขาn~1/dจะหมายถึง n ต้องประมาณ 1? นั่นไม่สมเหตุสมผลเลยเหรอ?

ไม่พวกเขากำลังบอกว่าหากฟีเจอร์มีช่วง 0-1 (ของฉันมีช่วง 0-50) ที่คุณจะได้รับ 1 / d แต้มโดยที่แต่ละอันมีค่าประมาณ d จากอีกอันหนึ่ง ใช้งานได้กับตัวอย่างของฉันเนื่องจากคุณจะต้องประมาณ 50/1 คะแนนโดยที่ 1 คือ "d" ขออภัยที่สับสนในการพิมพ์สมการเหล่านี้ออกมา แต่ฉันคิดว่าน่าจะช่วยได้

12

matty-d ได้ให้คำตอบที่ดีมาก แต่ฉันพบคำตอบอื่นที่อธิบายปัญหานี้อย่างเท่าเทียมกันจากผู้ใช้ Quora Kevin Lacker:

สมมติว่าคุณมีเส้นตรงยาว 100 หลาและคุณทิ้งเงินสักอันไว้บนนั้น ไม่ยากที่จะหา คุณเดินไปตามเส้นทางและใช้เวลาสองนาที

ทีนี้สมมติว่าคุณมีสี่เหลี่ยมจัตุรัส 100 หลาในแต่ละด้านและคุณเพนนีสักที่บนนั้น มันจะค่อนข้างยากเหมือนการค้นหาข้ามสองสนามฟุตบอลติดกัน อาจใช้เวลาหลายวัน

ตอนนี้มีความกว้าง 100 หลา นั่นเหมือนกับการค้นหาอาคาร 30 ชั้นขนาดของสนามฟุตบอล ฮึ.

ความยากในการค้นหาในอวกาศนั้นยากขึ้นมากเมื่อคุณมีมิติข้อมูลมากขึ้น คุณอาจไม่เข้าใจสิ่งนี้อย่างสังหรณ์ใจเมื่อมันถูกระบุไว้ในสูตรทางคณิตศาสตร์เนื่องจากมันมี "ความกว้าง" เท่ากัน นั่นคือคำสาปของมิติ มันจะมีชื่อเพราะใช้งานง่ายมีประโยชน์และเรียบง่าย


-1

ตัวอย่างนั้นสามารถให้สัญชาติญาณของปัญหา แต่จริงๆแล้วไม่ได้พิสูจน์อย่างเข้มงวดเลย: นั่นเป็นเพียงตัวอย่างที่จำเป็นต้องใช้ตัวอย่างจำนวนมากเพื่อให้ครอบคลุมพื้นที่ "ดี" อาจมี (และมีจริง ๆ เช่น hexagons ใน 2D แล้ว) มีประสิทธิภาพมากขึ้นครอบคลุมกว่าตารางปกติ ... (พื้นที่ที่ซับซ้อนของลำดับความคลาดเคลื่อนต่ำจะอุทิศให้กับสิ่งนี้) ... และพิสูจน์ว่าแม้จะมีการปกปิดที่ดีกว่า ยังคงมีคำสาปของมิติที่ค่อนข้างเป็นปัญหาอื่น ที่จริงแล้วในฟังก์ชั่นบางช่องว่างมีแม้กระทั่งวิธีที่จะหลีกเลี่ยงปัญหาที่ชัดเจนนี้

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.