หมายความว่าอย่างไรเมื่อเราพูดว่าจุดส่วนใหญ่ใน hypercube นั้นอยู่ที่ขอบเขต


13

ถ้าฉันมี hypercube 50 มิติ และผมนิยามว่ามันเป็นขอบเขตด้วยหรือโดยที่เป็นมิติของไฮคิวบ์ จากนั้นการคำนวณสัดส่วนของคะแนนในเขตแดนของ hypercube ที่จะเป็น0.995มันหมายความว่าอะไร? หมายความว่าส่วนที่เหลือของพื้นที่ว่างเปล่าหรือไม่ ถ้า99 \%ของคะแนนอยู่ที่ขอบเขตแล้วคะแนนภายในลูกบาศก์จะต้องไม่กระจายอย่างสม่ำเสมอ?0.95 < x j < 1 x j 0.995 99 %0<xj<0.050.95<xj<1xj0.99599%


3
ไม่มันหมายความว่าอุปกรณ์ต่อพ่วงมีพื้นที่กว้างขวางมากขึ้นและเอฟเฟกต์นั้นสอดคล้องกับมิติ มันค่อนข้างใช้งานง่าย ปรากฏการณ์นี้มีผลต่อการกระจายระยะห่างระหว่างคู่สุ่มของโหนดที่เกี่ยวข้องเมื่อคุณต้องการจัดกลุ่มหรือคำนวณเพื่อนบ้านที่ใกล้ที่สุดในพื้นที่มิติสูง
Emre

คำนวณสัดส่วนของคะแนนในส่วนของเส้นที่อยู่ใกล้กับขอบเขต จากนั้นชี้ไปที่ตาราง จากนั้นชี้เป็นลูกบาศก์ คุณจะพูดอะไรเกี่ยวกับพวกเขา
user253751

คำตอบ:


28

การพูดของ99%ของคะแนนในไฮเปอร์คิวบ์ ' นั้นทำให้เข้าใจผิดเล็กน้อยเนื่องจากไฮเปอร์คิวบ์มีหลายจุดไม่สิ้นสุด มาพูดถึงปริมาณแทนกัน

ปริมาตรของไฮเปอร์คิวบ์เป็นผลคูณของความยาวด้าน สำหรับ hypercube หน่วย 50 มิติเราได้รับ

Total volume=1×1××150 times=150=1.

ตอนนี้ให้เราแยกขอบเขตของไฮเพอร์คิวบ์และดูที่ 'การตกแต่งภายใน ' (ฉันใส่สิ่งนี้ในเครื่องหมายคำพูดเพราะคำศัพท์ทางคณิตศาสตร์ภายในมีความหมายแตกต่างกันมาก) เราเก็บคะแนนไว้ที่ที่พอใจ ปริมาณของ 'การตกแต่งภายใน ' นี้คืออะไร? ทีนี้ 'การตกแต่งภายใน ' เป็นไฮเปอร์คิวบ์อีกครั้งและความยาวของแต่ละด้านเท่ากับ ( ... มันช่วยให้จินตนาการได้ในสองและสามมิติ) ดังนั้นปริมาณจึงเป็นx=(x1,x2,,x50)

0.05<x1<0.95 and 0.05<x2<0.95 and  and 0.05<x50<0.95.
0.9=0.950.05
Interior volume=0.9×0.9××0.950 times=0.9500.005.
เอาเป็นว่าปริมาณของ ' ขอบเขต ' (กำหนดเป็น hypercube หน่วยโดยไม่มี ' ภายใน ') คือ10.9500.995.

นี่แสดงให้เห็นว่าของปริมาตรของ hypercube 50 มิตินั้นเน้นที่ ' ขอบเขต '99.5%


การติดตามผล: Ignatiusก่อให้เกิดคำถามที่น่าสนใจเกี่ยวกับการเชื่อมโยงกับความน่าจะเป็น นี่คือตัวอย่าง

สมมติว่าคุณสร้างโมเดล (การเรียนรู้ของเครื่อง) ที่ทำนายราคาที่อยู่อาศัยตามพารามิเตอร์อินพุต 50 รายการ ทั้งหมดป้อนพารามิเตอร์ 50 มีอิสระและกระจายอย่างสม่ำเสมอระหว่างและ101

ให้เราบอกว่าแบบจำลองของคุณทำงานได้ดีมากหากไม่มีพารามิเตอร์อินพุตมาก:ตราบใดที่พารามิเตอร์อินพุตทั้งหมดอยู่ระหว่างถึงโมเดลของคุณจะทำนายราคาบ้านได้อย่างสมบูรณ์แบบ แต่ถ้าพารามิเตอร์อินพุตอย่างน้อยหนึ่งพารามิเตอร์มีค่ามาก (น้อยกว่าหรือใหญ่กว่า ) การคาดการณ์ของโมเดลของคุณจะแย่มากอย่างแน่นอน0.050.950.050.95

พารามิเตอร์ป้อนข้อมูลใด ๆ ให้เป็นมากมีโอกาสเพียง\% เห็นได้ชัดว่านี่เป็นแบบอย่างที่ดีใช่มั้ย No! ความน่าจะเป็นที่พารามิเตอร์อย่างน้อยหนึ่งในนั้นสุดขั้วคือ ดังนั้นในของการทำนายแบบจำลองของคุณนั้นแย่มาก10%5010.9500.995.99.5%

Rule of thumb: ในมิติที่สูงการสังเกตที่รุนแรงคือกฎและไม่ใช่ข้อยกเว้น


7
คุ้มค่าที่จะใช้คำพูดของ OP "หมายความว่าพื้นที่ที่เหลือนั้นว่างเปล่าหรือไม่" และตอบ: ไม่มีก็หมายความว่าส่วนที่เหลือของพื้นที่ที่ค่อนข้าง เล็ก . . หรือคล้ายกันในคำพูดของคุณเอง . .
Neil Slater

2
คำอธิบายที่ดีจริงๆของคำว่า "คำสาปของมิติ"
อิกเน

สงสัยว่าสิ่งต่อไปนี้ถูกต้องหรือไม่: รับตัวอย่างนี้ถ้าชุดของคุณสมบัติถูกกระจายอย่างเท่าเทียมกันตาม [0,1] ในแต่ละมิติ 50 รายการ (99.5% -0.5%) = 99% ของปริมาณ (คุณลักษณะ hypercube space) บันทึกเฉพาะค่า 10% ของแต่ละสถานที่เท่านั้น
Ignatius

"พารามิเตอร์อินพุตที่กำหนดใด ๆ มีความเป็นไปได้สูงมากเพียง 5%" ฉันคิดว่าความน่าจะเป็นนี้คือ 10%
Rodvi

@Rodvi: คุณถูกต้องแน่นอนขอบคุณ! ซ่อมมัน.
Elias Strehle

9

คุณสามารถมองเห็นลวดลายได้ชัดเจนแม้ในขนาดที่ต่ำกว่า

มิติที่ 1 ใช้ความยาว 10 และขอบเขต 1 ความยาวของขอบเขตคือ 2 และอัตราส่วน 8, 1: 4

มิติที่สอง ใช้สี่เหลี่ยมจัตุรัสของด้าน 10 และขอบเขต 1 อีกครั้ง พื้นที่ของขอบเขตคือ 36, อัตราส่วนภายใน 64, 9:16

มิติที่ 3 ความยาวและขอบเขตเท่ากัน ปริมาตรของขอบเขตคือ 488, การตกแต่งภายในคือ 512, 61:64 - แล้วขอบเขตนั้นใช้พื้นที่เกือบเท่ากับภายใน

มิติที่สี่ตอนนี้ขอบเขตคือ 5904 และภายใน 4096 - ขอบเขตตอนนี้ใหญ่ขึ้น

แม้แต่สำหรับขอบเขตความยาวที่เล็กลงและเล็กลงเมื่อมิติเพิ่มขนาดปริมาตรขอบเขตจะแซงการตกแต่งภายในเสมอ


0

วิธีที่ดีที่สุดในการ "เข้าใจ" มัน (แม้ว่ามันจะเป็นไปไม่ได้สำหรับมนุษย์ IMHO) คือการเปรียบเทียบปริมาตรของลูกบอล n-Dim และ n-cube ด้วยการเติบโตของ n (มิติ) ปริมาณทั้งหมดของลูกบอล "รั่วไหลออกมา" และมุ่งเน้นที่มุมของลูกบาศก์ นี่เป็นหลักการทั่วไปที่มีประโยชน์ที่ต้องจำในทฤษฎีการเข้ารหัสและการใช้งาน

คำอธิบายตำราเรียนที่ดีที่สุดของหนังสือเล่มนี้อยู่ในหนังสือ "ทฤษฎีการเข้ารหัสและข้อมูล" ของ Richard W. Hamming (3.6 Geometric Approach, p 44)

บทความสั้น ๆ ในวิกิพีเดียจะให้สรุปสั้น ๆ ของเดียวกันถ้าคุณเก็บไว้ในใจว่าปริมาณของ n มิติลูกบาศก์หน่วยอยู่เสมอ 1 ^ n

ฉันหวังว่ามันจะช่วย

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.