คำสาปของมิติข้อมูลคืออะไร?


21

โดยเฉพาะฉันกำลังมองหาการอ้างอิง (เอกสารหนังสือ) ซึ่งจะแสดงอย่างจริงจังและอธิบายคำสาปของมิติ คำถามนี้เกิดขึ้นหลังจากที่ฉันเริ่มอ่านกระดาษสีขาวนี้โดย Lafferty และ Wasserman ในย่อหน้าที่สามพวกเขาพูดถึงสมการ "ที่รู้จักกันดี" ซึ่งหมายความว่าอัตราการบรรจบกันที่ดีที่สุดคือ ; หากใครก็ตามสามารถอธิบายได้ (และอธิบาย) นั่นจะเป็นประโยชน์มากn4/(4d)

นอกจากนี้ทุกคนสามารถชี้ให้ฉันอ้างอิงซึ่งมาจากสมการ "ที่รู้จักกันดี"?


7
ฉันไม่สามารถอธิบายได้ แต่ฉันเชื่อว่าฉันได้ยินเสียงเหมือนคำสาปสามเวอร์ชันที่แตกต่างกัน: 1) มิติที่สูงกว่าหมายถึงปริมาณงานที่เพิ่มขึ้นแบบทวีคูณและ 2) ในมิติที่สูงกว่าคุณจะได้รับตัวอย่างน้อยลง ของพื้นที่ตัวอย่างของคุณและ 3) ในมิติที่สูงทุกอย่างมีแนวโน้มที่จะเท่าเทียมกันทำให้ยากที่จะสร้างความแตกต่าง
เวย์น

5
คุณสามารถตีความเรขาคณิตนี้ สมมติว่าคุณมีทรงกลมในมิติ D ที่มีรัศมี r = 1 จากนั้นคุณสามารถถามคำถามเกี่ยวกับเศษส่วนของปริมาตรของทรงกลมที่อยู่ระหว่างรัศมี r = 1 และ r = 1-e เนื่องจากเรารู้ว่าปริมาตรของทรงกลมมีขนาดเช่น k (d) * r ^ (d) โดยที่ d คือจำนวนมิติเราจึงสามารถได้รับเศษส่วนที่ได้รับจาก 1 (1-e) ^ d ดังนั้นสำหรับทรงกลมมิติสูงปริมาตรส่วนใหญ่จึงกระจุกอยู่ในเปลือกบาง ๆ ใกล้พื้นผิว ดูเพิ่มเติมเกี่ยวกับสิ่งนี้ในหนังสือบิชอป "การจดจำรูปแบบและการเรียนรู้ของเครื่อง"
ดร. ไมค์

@ Wayne แน่นอน; บวก 5) หรี่ขึ้นมักจะหมายถึงเสียงรบกวนมากขึ้น

ดร. ไมค์ฉันไม่ทำตามตรรกะ ดูเหมือนว่าคุณกำลังพูดว่า "เนื่องจากปริมาตรส่วนใหญ่กระจุกตัวอยู่ในเปลือกบาง ๆ ใกล้พื้นผิวของทรงกลมขนาดสูงจากนั้นคุณจะถูกสาปด้วยมิติ คุณสามารถอธิบายเพิ่มเติมและอาจแสดงให้ฉันเห็นอย่างชัดเจนว่าการเปรียบเทียบนั้นเกี่ยวข้องกับสถิติอย่างไร
khoda

คำตอบ:


9

การติดตาม richiemorrisroe นี่คือภาพที่เกี่ยวข้องจากองค์ประกอบของการเรียนรู้ทางสถิติตอนที่ 2 (pp22-27):

ESL หน้า 25

อย่างที่คุณเห็นในบานหน้าต่างด้านขวามีเพื่อนบ้าน 1 หน่วยใน 1 มิติมากกว่าเพื่อนบ้าน 1 หน่วยใน 2 มิติ 3 มิติจะยิ่งแย่ลงไปกว่านี้!


7

สิ่งนี้ไม่ได้ตอบคำถามของคุณโดยตรง แต่ David Donoho มีบทความที่ดีเกี่ยวกับการวิเคราะห์ข้อมูลมิติสูง: คำสาปและคำอวยพรของมิติ (สไลด์เกี่ยวข้องอยู่ที่นี่ ) ซึ่งเขากล่าวถึงสามคำสาป:

  • การปรับให้เหมาะสมโดยการค้นหาอย่างละเอียด : "ถ้าเราต้องประมาณฟังก์ชั่นของตัวแปรและเรารู้เพียงว่ามันเป็น Lipschitz แล้วเราต้องการคำสั่งการประเมินบนกริดเพื่อรับ minimizer โดยประมาณ ภายในข้อผิดพลาด "D(1/ϵ)Dϵ
  • บูรณาการผ่านโดเมนผลิตภัณฑ์ : "ถ้าเราต้องรวมฟังก์ชั่นของตัวแปรและเรารู้เพียงว่ามันเป็น Lipschitz แล้วเราต้องสั่งการประเมินบนตารางเพื่อให้ได้รูปแบบการรวมกับ ข้อผิดพลาด "d(1/ϵ)Dϵ
  • D(1/ϵ)Dϵ

6

ฉันรู้ว่าฉันพูดถึงมันอย่างต่อเนื่อง แต่มีคำอธิบายที่ดีเกี่ยวกับเรื่องนี้คือองค์ประกอบของการเรียนรู้ทางสถิติบทที่ 2 (pp22-27) โดยทั่วไปแล้วพวกเขาทราบว่าเมื่อขนาดเพิ่มขึ้นปริมาณข้อมูลจำเป็นต้องเพิ่มขึ้น (ยกกำลัง) ด้วยหรือจะมีจุดไม่เพียงพอในพื้นที่ตัวอย่างขนาดใหญ่กว่าสำหรับการวิเคราะห์ที่มีประโยชน์ใด ๆ

พวกเขาอ้างถึงกระดาษโดย Bellman (1961) เป็นแหล่งที่มาของพวกเขาซึ่งดูเหมือนจะเป็นหนังสือของเขา Adaptive Control Processes ซึ่งหาได้จาก Amazon ที่นี่


+1 คำอธิบายใน ESL นั้นยอดเยี่ยมและไดอะแกรมที่เกี่ยวข้องช่วยได้มาก
ซัค

2

ป้อนคำอธิบายรูปภาพที่นี่

บางทีผลกระทบที่ฉาวโฉ่ที่สุดอาจถูกจับได้ด้วยขีด จำกัด ต่อไปนี้ (ซึ่งเป็น (ทางอ้อม) ที่แสดงในภาพด้านบน):

limdimdistmaxdistmindistmin

ระยะทางในภาพเป็น -based ระยะทางแบบยุคลิด ขีด จำกัด เป็นการแสดงออกว่าความคิดของระยะทางที่จับข้อมูลน้อยลงและน้อยลงเกี่ยวกับความคล้ายคลึงกันกับการเพิ่มมิติ ที่ส่งผลกระทบต่ออัลกอริทึมเช่น k-NN โดยการอนุญาตให้เศษส่วนสำหรับใน -norms ผลกระทบที่อธิบายสามารถแก้ไขได้L2kLk


ผลกระทบของมิติข้อมูลต่อรูปภาพ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.