บางคนสามารถอธิบายได้ว่าฉันอายุ 5 ปีเกี่ยวกับปัญหานี้จากหนังสือ ESL ของ Hastie หรือไม่?


9

ฉันทำงานผ่านหนังสือ ESL ของ Hastie และฉันมีช่วงเวลาที่ยากลำบากสำหรับคำถาม 2.3 คำถามดังต่อไปนี้:

ป้อนคำอธิบายรูปภาพที่นี่

เรากำลังพิจารณาการประมาณเพื่อนบ้านที่ใกล้ที่สุดที่จุดเริ่มต้นและระยะทางเฉลี่ยจากจุดกำเนิดไปยังจุดข้อมูลที่ใกล้เคียงที่สุดจะได้รับจากสมการนี้ ฉันไม่รู้ว่าจะเริ่มต้นอย่างไรในแง่ของการพยายามหามา

ฉันรู้ว่าจุดข้อมูลส่วนใหญ่อยู่ใกล้กับขอบเขตของพื้นที่ตัวอย่างมากกว่าจุดข้อมูลอื่น ๆ (การสาปแช่งของมิติ) แต่ฉันมีปัญหาในการแปลสิ่งนี้เป็นความรู้สึกเชิงพีชคณิต / ความน่าจะเป็นเชิงเส้น

ขอบคุณ!


4
"ELI5" ในชื่อหมายถึงอะไร หากคุณต้องการได้รับสมการนั้นคุณจะต้องเริ่มต้นด้วยแบบจำลองความน่าจะเป็นสำหรับคะแนนในลูกบอล: โมเดลนั้นคืออะไร (โปรดอย่ากำหนดให้ผู้อ่านของคุณอ้างถึงหนังสือหรือเว็บไซต์อื่น ๆ เพื่อทำความเข้าใจคำถามของคุณ)
whuber

3
@ เมื่อฉันเห็นด้วย - ตัวย่อเป็นรูปแบบการแฮ็กที่แย่มาก
Sycorax พูดว่า Reinstate Monica

14
คุณอายุห้าขวบ เครดิตทั้งหมดสำหรับคุณที่ต้องการเข้าใจ ESL แต่คุณจะต้องรอจนกว่าคุณจะอายุหกขวบ มันเป็นหนังสือสำหรับเด็กชายและเด็กหญิงตัวใหญ่
Nick Cox

4
เด็กอายุห้าขวบอาจเริ่มต้นด้วยการดูกรณีหนึ่งมิติ (p = 1) และเมื่ออยู่ในมือให้นำมันออกมาจากที่นั่น
Mark L. Stone

3
ถ้าเราจะให้ ELI5 สะกดคำว่า ESL ล่ะ?
mdewey

คำตอบ:


15

ให้เป็นระยะทางจากจุดกำเนิดและปล่อยให้เป็นปริมาตรของหน่วย hypersphere ในมิติจากนั้นปริมาตรที่มีอยู่ใน hypersphere ของรัศมีคือrV0[p]pr

V[r]=V0[p]rp

ถ้าเราปล่อยให้แทนเศษส่วนของปริมาตรภายใน hypersphere นี้และกำหนดจากนั้นP=V[r]/V0[p]R=rp

P[R]=R

หากจุดข้อมูลที่มีการกระจายอย่างสม่ำเสมอภายในลูกหน่วยแล้วสำหรับสูตรข้างต้นเป็นฟังก์ชันการแจกแจงสะสม (CDF) สำหรับRนี้จะเทียบเท่ากับความหนาแน่นของความน่าจะเป็นชุดสำหรับมากกว่าช่วงเวลาหน่วยคือ 1 ดังนั้นตามคำแนะนำของ Mark Stone ในความคิดเห็นเราสามารถลดขนาด case เป็นปัญหา 1D ที่เทียบเท่ากัน0R1RRp[R]=P[R]=1p

ตอนนี้ถ้าเรามีจุดเดียวจากนั้นตามนิยามของ CDF เรามีและ . หากเป็นค่าที่น้อยที่สุดจากจุดและจุดทั้งหมดนั้นเป็นอิสระ CDF สำหรับจะได้รับโดย (นี่คือผลลัพธ์มาตรฐานของทฤษฎีค่าสุดขั้วที่ไม่แปรเปลี่ยน)RPr[Rρ]=P[ρ]Pr[Rρ]=1P[ρ]Rminn

Pr[Rminρ]=Pr[Rρ]n=(1ρ)n

ตามคำนิยามของค่ามัธยฐานเรามี ซึ่งเราสามารถทำได้ เขียนใหม่เป็น ซึ่งเทียบเท่ากับผลลัพธ์ที่ต้องการ

12=Pr[(Rmin)medR]=(1R)n
(1dp)n=12

แก้ไข: พยายามที่ " ELI5 " - คำตอบสไตล์ในสามส่วน

  1. สำหรับกรณี 1D มีจุดเดียวระยะทางกระจายอย่างสม่ำเสมอมากกว่าดังนั้นค่ามัธยฐานจะ{2}[0,1]12

  2. ใน 1D การแจกแจงต่ำสุดจุดเป็นกรณีแรกสำหรับกำลัง -thnn

  3. ในมิติระยะทางไม่ได้กระจายอย่างสม่ำเสมอ แต่คือprrp


1
ฮ่าฮ่าฉันให้ความเห็นว่าอายุ 5 ปีอาจเริ่มต้นด้วยการดูกรณี p = 1 ฉันคิดเกี่ยวกับการเพิ่มความคิดเห็นที่อายุ 4 ปีอาจไม่เพียง แต่เริ่มต้นด้วยกรณี p = 1 แต่ยัง n = 1 แต่ฉันคิดว่าฉันจะให้ตัวเลขอายุ 5 ปีออกมา
Mark L. Stone

1
โปรดทราบว่าเมื่อฉันตอบคำถามมันเป็นหลังจากที่ได้รับการชี้แจงโดย @fcop เพื่ออ่าน: "พิจารณาจุดข้อมูล N ที่กระจายอย่างสม่ำเสมอในลูกบอลหน่วย p-มิติที่อยู่กึ่งกลางที่จุดกำเนิดแสดงว่าระยะทางเฉลี่ยจากจุดกำเนิดถึง จุดข้อมูลที่ใกล้เคียงที่สุดมอบให้โดย ... " ดังนั้นหน่วยลูกด้วยความเคารพต่อมาตรฐานในพื้นที่มิติหลังจากนี้คำถามถูกย้อนกลับไปยังต้นฉบับซึ่งแตกต่างและไม่ชัดเจนนัก (ดูเชนความคิดเห็นภายใต้คำถามเดิม)L2p
GeoMatt22
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.