คำอธิบายของสูตรสำหรับค่ามัธยฐานที่ใกล้ที่สุดถึงจุดกำเนิดของตัวอย่าง N จากลูกบอลหน่วย

ในองค์ประกอบของการเรียนรู้ทางสถิติมีการนำเสนอปัญหาเพื่อเน้นประเด็นที่มี k-nn ในพื้นที่มิติสูง มีจุดข้อมูลจุดที่กระจายอย่างสม่ำเสมอในบอลหน่วย -dimensional $N$ $p$

ระยะทางเฉลี่ยจากแหล่งกำเนิดถึงจุดข้อมูลที่ใกล้เคียงที่สุดจะได้รับจากการแสดงออก:

d (p, N) = {(1 - {(\frac{1}{2})}^{\frac{1}{N}})}^{\frac{1}{p}}

$d(p,N) = \left(1-\left(\frac{1}{2}\right)^\frac{1}{N}\right)^\frac{1}{p}$

เมื่อสูตรแบ่งครึ่งรัศมีของลูกบอลออกไปและฉันเห็นว่าจุดที่ใกล้ที่สุดเข้ามาใกล้เส้นขอบเป็นจึงทำให้สัญชาตญาณหลัง knn สลายตัวในมิติสูง แต่ฉันไม่สามารถเข้าใจได้ว่าทำไมสูตรนี้จึงขึ้นอยู่กับเอ็น $N=1$ $p \rightarrow \infty$

หนังสือเล่มนี้กล่าวถึงปัญหานี้เพิ่มเติมโดยระบุว่า: "... การทำนายนั้นยากกว่าใกล้ขอบของตัวอย่างการฝึกอบรมเราต้องคาดการณ์จากจุดตัวอย่างที่อยู่ใกล้เคียงแทนการสอดแทรกระหว่างพวกเขา" ดูเหมือนว่าจะเป็นข้อความที่ลึกซึ้ง แต่ฉันไม่สามารถเข้าใจความหมายของมันได้ ทุกคนสามารถพูดคำซ้ำ?

self-study proof k-nearest-neighbour

— user64773
แหล่งที่มา

คุณต้องแก้ไขสมการที่ปรากฏขึ้นเล็กน้อย คือว่าสัญลักษณ์เฉพาะที่ในเศษวิธีที่จะดูในขณะนี้หรือที่คุณไม่ต้องการให้นำไปใช้กับทั้ง ?

\frac{1}{N}

$\frac 1N$

1

$1$

\frac{1}{2}

$\frac 12$

— Dilip Sarwate

มันจะช่วยแยกความแตกต่าง "hypersphere" (ซึ่งในเป็นหลายมิติของ ) จาก "ลูกบอลหน่วย" (ซึ่งมีมิติ ) ไฮเปอร์สเฟียร์คือขอบเขตของลูกบอล ถ้าตามที่ชื่อของคุณบอกว่าทุกจุดถูกสุ่มตัวอย่างจากไฮเปอร์สเฟียร์จากนั้นตามคำจำกัดความ - พวกเขาทั้งหมดมีระยะทางจากแหล่งกำเนิดระยะทางมัธยฐานคือและทั้งหมดอยู่ใกล้กับจุดกำเนิด

R^{p}

$\mathbb{R}^p$

p - 1

$p-1$

p

$p$

1

$1$

1

$1$

— whuber

@DilipSarwate มันถูกนำไปใช้ทั้ง{2} ในหนังสือมีตัวอย่างที่ดังนั้น

\frac{1}{2}

$\frac{1}{2}$

N = 500, p = 10

$N=500, p=10$

d (p, N) \approx 0.52

$d(p, N) \approx 0.52$

— about

คำตอบ:

ปริมาณของ hyperball มิติรัศมีมีสัดส่วนปริมาณ P $p$ $r$ $r^p$

ดังนั้นสัดส่วนของปริมาณที่มากขึ้นกว่าระยะทางจากจุดกำเนิดคือ P $kr$ $\frac{r^p-(kr)^p}{r^p}=1-k^p$

น่าจะเป็นที่ทั้งหมดจุดที่สุ่มเลือกมากกว่าระยะทางจากจุดกำเนิดคือ N เพื่อให้ได้ระยะทางเฉลี่ยไปยังจุดที่ใกล้ที่สุดสุ่มตั้งค่าความน่าจะเป็นนี้เท่ากับ\ดังนั้น $N$ $kr$ $\left(1-k^p\right)^N$ $\frac12$

{(1 - k^{p})}^{N} = \frac{1}{2}

$\left(1-k^p\right)^N=\tfrac12$

⟹ k = {(1 - \frac{1}{2^{1 / N}})}^{1 / p} .

$\implies k=\left(1-\tfrac1{2^{1/N}}\right)^{1/p}.$

สังหรณ์ใจนี้จะทำให้การจัดเรียงของความรู้สึกบางอย่าง: จุดสุ่มมากขึ้นมีความใกล้ชิดที่คุณคาดหวังหนึ่งที่ใกล้ที่สุดเพื่อกำเนิดจะเป็นดังนั้นคุณควรคาดหวังว่าจะเป็นฟังก์ชั่นการลดลงของNที่นี่เป็นฟังก์ชันที่ลดลงของดังนั้นเป็นฟังก์ชันที่เพิ่มขึ้นของและทำให้คือ การลดการทำงานของเป็นของราก TH $k$ $N$ $2^{1/N}$ $N$ $\tfrac1{2^{1/N}}$ $N$ $1-\tfrac1{2^{1/N}}$ $N$ $p$

— เฮนรี่
แหล่งที่มา

อาวิธีที่ดีในการดูมัน คุณจะสามารถตีความคำพูดในคำถามที่สองของฉันได้ไหม?

— user64773

ฉันสงสัยว่ามันอาจจะเป็นการบอกว่าในมิติที่สูงคะแนนการทำนายนั้นมีประสิทธิภาพในระยะยาวจากข้อมูลการฝึกอบรมราวกับว่าอยู่บนขอบของทรงกลมดังนั้นคุณจึงไม่ได้ทำการสอดแทรก แต่คาดการณ์อย่างแท้จริง แต่ฉันไม่รู้จริงๆ

— Henry

ฉันไม่เข้าใจ - ฉันเข้าใจว่าเพราะเหตุใดการแสดงออกนี้จึงน่าจะเป็นไปได้ที่ทุกจุดจะอยู่ไกลกว่า kr แต่ทำไมการตั้งค่าความน่าจะเป็นนี้ถึง 1/2 ให้ระยะทางเฉลี่ย?

— ihadanny

@ihadanny: ค่าให้ส่วนของรัศมีที่ความน่าจะเป็นที่จุดทั้งหมดอยู่ห่างออกไปคือและความน่าจะเป็นอย่างน้อยหนึ่งจุดที่ใกล้ที่สุดคือดังนั้นคือค่ามัธยฐานของการกระจายระยะทางของจุดที่ใกล้ที่สุด

k = {(1 - \frac{1}{2^{1 / N}})}^{1 / p}

$k=\left(1-\tfrac1{2^{1/N}}\right)^{1/p}$

N

$N$

\frac{1}{2}

$\frac12$

1 - \frac{1}{2} = \frac{1}{2}

$1-\frac12=\frac12$

k r

$kr$

— เฮนรี่

ความหมายของค่ามัธยฐานครึ่งหนึ่งมีขนาดใหญ่กว่าและครึ่งหนึ่งมีขนาดเล็กกว่า

— Grant Izmirlian

และตอนนี้ไม่มีมือโบกมือ

สำหรับลำดับของ iid rv ใด ๆ ที่เป็น CDF ทั่วไป
$P (min_{1 \leq i \leq N} Y_{i} > y) = (1 - F (y))^{N},$ $P( \min_{1\le i\le N} Y_i > y ) = (1-F(y))^N,$ $F$
ดังนั้นถ้าเรามี iid กระจายอย่างสม่ำเสมอ ในหน่วยบอลในขนาดดังนั้น ที่เป็น CDF ทั่วไปของระยะทาง, N ในที่สุด CDF,คืออะไรสำหรับจุดกระจายที่สม่ำเสมอในลูกบอลหน่วยใน ? ความน่าจะเป็นที่จุดนั้นอยู่ในลูกบอลรัศมี r ภายในลูกบอลของหน่วยรัศมีเท่ากับอัตราส่วนของปริมาตร: $N$ $X_i$ $p$
$P (min_{1 \leq i \leq N} | | X_{i} | | > r) = (1 - F (r))^{N},$ $P( \min_{1\le i\le N} ||X_i|| > r ) = (1-F(r))^N,$ $F$ $||X_i||, i=1,2,\ldots,N$ $F$ $R^p$

F (r) = P (| | X_{i} | | \leq r) = C r^{p} / (C 1^{p}) = r^{p}

$F(r) = P ( ||X_i|| \le r ) = C r^p/( C 1^p) = r^p$

ดังนั้นวิธีการแก้

1 / 2 = P (min_{1 \leq i \leq N} | | X_{i} | | > r) = (1 - r^{p})^{N}

$1/2 = P( \min_{1\le i\le N} ||X_i|| > r ) = (1- r^p)^N$

คือ

r = (1 - (1 / 2)^{1 / N})^{1 / p} .

$r = (1 - (1/2)^{1/N})^{1/p}.$

N สำหรับการแก้ไขในขณะที่ลูกบอลเติมคะแนนมากขึ้นตามธรรมชาติระยะทางต่ำสุดไปยังจุดกำเนิดควรเล็กลง $N$ $p$

ในที่สุดก็มีบางอย่างผิดปกติในอัตราส่วนของปริมาณ ดูเหมือนว่าควรจะเป็นปริมาณของยูนิทบอลใน P $k$ $R^p$

— Grant Izmirlian
แหล่งที่มา

กระชับ แต่เป็นคำพูด:

เราต้องการค้นหาระยะทางมัธยฐานของจุดที่ใกล้ที่สุดกับจุดกำเนิดในจุดกระจายสม่ำเสมอในลูกบอลที่จุดกำเนิดของรัศมีหน่วยในมิติความน่าจะเป็นที่ระยะทางที่เล็กที่สุดเกินกว่า , (เรียกว่านิพจน์ปริมาณนี้ [1]) คือพลังของความน่าจะเป็นที่จุดกระจายที่สม่ำเสมอหนึ่งจุดเกินเนื่องจากความเป็นอิสระทางสถิติ หลังเป็นหนึ่งลบน่าจะเป็นที่จุดกระจายสม่ำเสมอเดียวน้อยกว่าRหลังเป็นอัตราส่วนของปริมาณของลูกของรัศมีเพื่อลูกของรัศมีหน่วยหรือ P ตอนนี้เราสามารถเขียน expression [1] เป็น $N$ $p$ $r$ $N^{th}$ $r$ $r$ $r$ $r^p$

P (min_{1 \leq i \leq N} | | X_{i} | | > r) = (1 - r^{p})^{N} .

$P( \min_{1\le i\le N} ||X_i|| > r ) = (1- r^p)^N.$

หากต้องการหาค่ามัธยฐานของการกระจายตัวของระยะทางต่ำสุดให้ตั้งค่าความน่าจะเป็นที่และแก้หาโดยหาคำตอบ $1/2$ $r$

— Grant Izmirlian
แหล่งที่มา