คำอธิบายของสูตรสำหรับค่ามัธยฐานที่ใกล้ที่สุดถึงจุดกำเนิดของตัวอย่าง N จากลูกบอลหน่วย


12

ในองค์ประกอบของการเรียนรู้ทางสถิติมีการนำเสนอปัญหาเพื่อเน้นประเด็นที่มี k-nn ในพื้นที่มิติสูง มีจุดข้อมูลจุดที่กระจายอย่างสม่ำเสมอในบอลหน่วย -dimensionalหน้าNp

ระยะทางเฉลี่ยจากแหล่งกำเนิดถึงจุดข้อมูลที่ใกล้เคียงที่สุดจะได้รับจากการแสดงออก:

d(p,N)=(1(12)1N)1p

เมื่อสูตรแบ่งครึ่งรัศมีของลูกบอลออกไปและฉันเห็นว่าจุดที่ใกล้ที่สุดเข้ามาใกล้เส้นขอบเป็นจึงทำให้สัญชาตญาณหลัง knn สลายตัวในมิติสูง แต่ฉันไม่สามารถเข้าใจได้ว่าทำไมสูตรนี้จึงขึ้นอยู่กับเอ็นp N=1p

หนังสือเล่มนี้กล่าวถึงปัญหานี้เพิ่มเติมโดยระบุว่า: "... การทำนายนั้นยากกว่าใกล้ขอบของตัวอย่างการฝึกอบรมเราต้องคาดการณ์จากจุดตัวอย่างที่อยู่ใกล้เคียงแทนการสอดแทรกระหว่างพวกเขา" ดูเหมือนว่าจะเป็นข้อความที่ลึกซึ้ง แต่ฉันไม่สามารถเข้าใจความหมายของมันได้ ทุกคนสามารถพูดคำซ้ำ?


1
คุณต้องแก้ไขสมการที่ปรากฏขึ้นเล็กน้อย คือว่าสัญลักษณ์เฉพาะที่ในเศษวิธีที่จะดูในขณะนี้หรือที่คุณไม่ต้องการให้นำไปใช้กับทั้ง ? 111N112
Dilip Sarwate

1
มันจะช่วยแยกความแตกต่าง "hypersphere" (ซึ่งในเป็นหลายมิติของ ) จาก "ลูกบอลหน่วย" (ซึ่งมีมิติ ) ไฮเปอร์สเฟียร์คือขอบเขตของลูกบอล ถ้าตามที่ชื่อของคุณบอกว่าทุกจุดถูกสุ่มตัวอย่างจากไฮเปอร์สเฟียร์จากนั้นตามคำจำกัดความ - พวกเขาทั้งหมดมีระยะทางจากแหล่งกำเนิดระยะทางมัธยฐานคือและทั้งหมดอยู่ใกล้กับจุดกำเนิด p-1p11Rpp1p11
whuber

@DilipSarwate มันถูกนำไปใช้ทั้ง{2} ในหนังสือมีตัวอย่างที่ดังนั้น N=500,p=10d(p,N)0.5212N=500,p=10d(p,N)0.52
about

คำตอบ:


9

ปริมาณของ hyperball มิติรัศมีมีสัดส่วนปริมาณ Pr r pprrp

ดังนั้นสัดส่วนของปริมาณที่มากขึ้นกว่าระยะทางจากจุดกำเนิดคือ Pr p - ( k r ) pkrrp(kr)prp=1kp

น่าจะเป็นที่ทั้งหมดจุดที่สุ่มเลือกมากกว่าระยะทางจากจุดกำเนิดคือ N เพื่อให้ได้ระยะทางเฉลี่ยไปยังจุดที่ใกล้ที่สุดสุ่มตั้งค่าความน่าจะเป็นนี้เท่ากับ\ดังนั้นk r ( 1 - k p ) N 1Nkr(1kp)N (1-kp)N=112

(1kp)N=12
k=(1121/N)1/p.

สังหรณ์ใจนี้จะทำให้การจัดเรียงของความรู้สึกบางอย่าง: จุดสุ่มมากขึ้นมีความใกล้ชิดที่คุณคาดหวังหนึ่งที่ใกล้ที่สุดเพื่อกำเนิดจะเป็นดังนั้นคุณควรคาดหวังว่าจะเป็นฟังก์ชั่นการลดลงของNที่นี่เป็นฟังก์ชันที่ลดลงของดังนั้นเป็นฟังก์ชันที่เพิ่มขึ้นของและทำให้คือ การลดการทำงานของเป็นของราก THN 2 1 / N N 1kN21/NN N1-1121/NN Np1121/NNp


อาวิธีที่ดีในการดูมัน คุณจะสามารถตีความคำพูดในคำถามที่สองของฉันได้ไหม?
user64773

ฉันสงสัยว่ามันอาจจะเป็นการบอกว่าในมิติที่สูงคะแนนการทำนายนั้นมีประสิทธิภาพในระยะยาวจากข้อมูลการฝึกอบรมราวกับว่าอยู่บนขอบของทรงกลมดังนั้นคุณจึงไม่ได้ทำการสอดแทรก แต่คาดการณ์อย่างแท้จริง แต่ฉันไม่รู้จริงๆ
Henry

ฉันไม่เข้าใจ - ฉันเข้าใจว่าเพราะเหตุใดการแสดงออกนี้จึงน่าจะเป็นไปได้ที่ทุกจุดจะอยู่ไกลกว่า kr แต่ทำไมการตั้งค่าความน่าจะเป็นนี้ถึง 1/2 ให้ระยะทางเฉลี่ย?
ihadanny

1
@ihadanny: ค่าให้ส่วนของรัศมีที่ความน่าจะเป็นที่จุดทั้งหมดอยู่ห่างออกไปคือและความน่าจะเป็นอย่างน้อยหนึ่งจุดที่ใกล้ที่สุดคือดังนั้นคือค่ามัธยฐานของการกระจายระยะทางของจุดที่ใกล้ที่สุด N1k=(1121/N)1/pN 1-112 kr112=12kr
เฮนรี่

1
ความหมายของค่ามัธยฐานครึ่งหนึ่งมีขนาดใหญ่กว่าและครึ่งหนึ่งมีขนาดเล็กกว่า
Grant Izmirlian

2

และตอนนี้ไม่มีมือโบกมือ

  1. สำหรับลำดับของ iid rv ใด ๆ ที่เป็น CDF ทั่วไป

    P(min1iNYi>y)=(1F(y))N,
    F
  2. ดังนั้นถ้าเรามี iid กระจายอย่างสม่ำเสมอ ในหน่วยบอลในขนาดดังนั้น ที่เป็น CDF ทั่วไปของระยะทาง, N ในที่สุด CDF,คืออะไรสำหรับจุดกระจายที่สม่ำเสมอในลูกบอลหน่วยใน ? ความน่าจะเป็นที่จุดนั้นอยู่ในลูกบอลรัศมี r ภายในลูกบอลของหน่วยรัศมีเท่ากับอัตราส่วนของปริมาตร:NXip

    P(min1iN||Xi||>r)=(1F(r))N,
    F||Xi||,i=1,2,,NFRp

F(r)=P(||Xi||r)=Crp/(C1p)=rp

ดังนั้นวิธีการแก้

1/2=P(min1iN||Xi||>r)=(1rp)N

คือ

r=(1(1/2)1/N)1/p.

N สำหรับการแก้ไขในขณะที่ลูกบอลเติมคะแนนมากขึ้นตามธรรมชาติระยะทางต่ำสุดไปยังจุดกำเนิดควรเล็กลงหน้าNp

ในที่สุดก็มีบางอย่างผิดปกติในอัตราส่วนของปริมาณ ดูเหมือนว่าควรจะเป็นปริมาณของยูนิทบอลใน PR pkRp


0

กระชับ แต่เป็นคำพูด:

เราต้องการค้นหาระยะทางมัธยฐานของจุดที่ใกล้ที่สุดกับจุดกำเนิดในจุดกระจายสม่ำเสมอในลูกบอลที่จุดกำเนิดของรัศมีหน่วยในมิติความน่าจะเป็นที่ระยะทางที่เล็กที่สุดเกินกว่า , (เรียกว่านิพจน์ปริมาณนี้ [1]) คือพลังของความน่าจะเป็นที่จุดกระจายที่สม่ำเสมอหนึ่งจุดเกินเนื่องจากความเป็นอิสระทางสถิติ หลังเป็นหนึ่งลบน่าจะเป็นที่จุดกระจายสม่ำเสมอเดียวน้อยกว่าRหลังเป็นอัตราส่วนของปริมาณของลูกของรัศมีเพื่อลูกของรัศมีหน่วยหรือ P ตอนนี้เราสามารถเขียน expression [1] เป็นNprNthrrrrp

P(min1iN||Xi||>r)=(1rp)N.

หากต้องการหาค่ามัธยฐานของการกระจายตัวของระยะทางต่ำสุดให้ตั้งค่าความน่าจะเป็นที่และแก้หาโดยหาคำตอบ1/2r

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.