คำถามติดแท็ก k-nearest-neighbour

วิธีการจำแนกและการถดถอยแบบไม่ใช้พารามิเตอร์ อินพุตประกอบด้วยไฟล์kตัวอย่างการฝึกอบรมที่ใกล้เคียงที่สุดในพื้นที่คุณลักษณะ ผลลัพธ์คือโหมดของเพื่อนบ้าน (ในการจำแนก) หรือค่าเฉลี่ย (ในการถดถอย)

3
คำอธิบายของสูตรสำหรับค่ามัธยฐานที่ใกล้ที่สุดถึงจุดกำเนิดของตัวอย่าง N จากลูกบอลหน่วย
ในองค์ประกอบของการเรียนรู้ทางสถิติมีการนำเสนอปัญหาเพื่อเน้นประเด็นที่มี k-nn ในพื้นที่มิติสูง มีจุดข้อมูลจุดที่กระจายอย่างสม่ำเสมอในบอลหน่วย -dimensionalหน้าNNNppp ระยะทางเฉลี่ยจากแหล่งกำเนิดถึงจุดข้อมูลที่ใกล้เคียงที่สุดจะได้รับจากการแสดงออก: d(p,N)=(1−(12)1N)1pd(p,N)=(1−(12)1N)1pd(p,N) = \left(1-\left(\frac{1}{2}\right)^\frac{1}{N}\right)^\frac{1}{p} เมื่อสูตรแบ่งครึ่งรัศมีของลูกบอลออกไปและฉันเห็นว่าจุดที่ใกล้ที่สุดเข้ามาใกล้เส้นขอบเป็นจึงทำให้สัญชาตญาณหลัง knn สลายตัวในมิติสูง แต่ฉันไม่สามารถเข้าใจได้ว่าทำไมสูตรนี้จึงขึ้นอยู่กับเอ็นp → ∞N=1N=1N=1p→∞p→∞p \rightarrow \infty หนังสือเล่มนี้กล่าวถึงปัญหานี้เพิ่มเติมโดยระบุว่า: "... การทำนายนั้นยากกว่าใกล้ขอบของตัวอย่างการฝึกอบรมเราต้องคาดการณ์จากจุดตัวอย่างที่อยู่ใกล้เคียงแทนการสอดแทรกระหว่างพวกเขา" ดูเหมือนว่าจะเป็นข้อความที่ลึกซึ้ง แต่ฉันไม่สามารถเข้าใจความหมายของมันได้ ทุกคนสามารถพูดคำซ้ำ?

1
เคอร์เนล k เพื่อนบ้านที่ใกล้ที่สุด
ฉันใหม่กับเมล็ดและมีอุปสรรคในขณะที่พยายาม kernelise kNN รอบคัดเลือกโซน ฉันใช้เคอร์เนลพหุนาม: K(x,y)=(1+⟨x,y⟩)dK(x,y)=(1+⟨x,y⟩)dK(\mathbf{x},\mathbf{y}) = (1 + \langle \mathbf{x},\mathbf{y} \rangle)^d Euclidean ทั่วไปของคุณใช้ตัวชี้วัดระยะทางต่อไปนี้: d(x,y)=||x−y||d(x,y)=||x−y||d(\mathbf{x}, \mathbf{y}) = \vert\vert \mathbf{x} - \mathbf{y} \vert\vert ปล่อยให้f(x)f(x)f(\mathbf{x})แม็พxx\mathbf{x}ลงในฟีเจอร์มิติที่สูงขึ้น จากนั้นสแควร์ของตัวชี้วัดระยะทางด้านบนในพื้นที่ฮิลแบร์ตสามารถแสดงได้ด้วยผลิตภัณฑ์ภายใน: d2(f(x),f(y))=K(x,x)−2K(x,y)+K(y,y)d2(f(x),f(y))=K(x,x)−2K(x,y)+K(y,y)d^2(f(x), f(y)) = K(\mathbf{x},\mathbf{x}) - 2K(\mathbf{x}, \mathbf{y}) + K(\mathbf{y} ,\mathbf{y}) โปรดทราบว่าถ้าเราปล่อยให้d=1d=1d = 1ข้างต้นจะทำให้ระยะทางแบบยุคลิดลดลง คำถาม ปัญหาหลักที่ฉันมีคือฉันไม่สามารถดูว่า kernelising kNN ให้ผลลัพธ์ที่ดีขึ้นตามที่แสดงโดยการทดลองเช่นบทความนี้ (คำเตือนลิงค์ PDF โดยตรง!)

3
ทำไมเราต้องใส่ลักษณนามเพื่อนบ้านที่ใกล้ที่สุด k-?
ดังที่ฉันเข้าใจ k-NN เป็นอัลกอริทึมสำหรับผู้เรียนที่ขี้เกียจและไม่จำเป็นต้องมีขั้นตอนการฝึกอบรม เหตุใดเราจึงต้องใช้.fit()กับ sklearn และจะเกิดอะไรขึ้นเมื่อเราใช้

1
ข้อดีของระยะทางของ Jeffries Matusita
ตามกระดาษที่ฉันกำลังอ่านมีการใช้ระยะทางของ Jeffries และ Matusita แต่ฉันไม่สามารถหาข้อมูลได้มากนักยกเว้นสูตรด้านล่าง JMD (x, y) =∑(xi−−√2−yi−−√2)2−−−−−−−−−−−−−√2∑(xi2−yi2)22\sqrt[2]{\sum(\sqrt[2]{x_i}-\sqrt[2]{y_i})^2} มันคล้ายกับระยะทางแบบยุคลิดยกเว้นสแควร์รูท E (x, y) =∑(xi−yi)2−−−−−−−−−−√2∑(xi−yi)22\sqrt[2]{\sum(x_i-y_i)^2} ระยะทาง JM นั้นเชื่อถือได้มากกว่าระยะทางแบบยุคลิดในแง่ของการจำแนกประเภท ทุกคนสามารถอธิบายได้หรือไม่ว่าทำไมความแตกต่างนี้ทำให้ระยะทาง JM ดีขึ้น?

4
คำสาปของขนาด: kNN ลักษณนาม
ฉันกำลังอ่านหนังสือของ Kevin Murphy: Machine Learning-A Perspective ในบทแรกผู้เขียนอธิบายคำสาปของมิติและมีส่วนที่ฉันไม่เข้าใจ ตัวอย่างผู้เขียนระบุ: พิจารณาว่าอินพุตนั้นมีการกระจายอย่างสม่ำเสมอตามคิวบ์หน่วยมิติ สมมติว่าเราประเมินความหนาแน่นของคลาสฉลากโดยสร้างไฮเปอร์คิวบ์รอบ ๆ x จนกว่าจะมีเศษส่วนที่ต้องการของจุดข้อมูล ความยาวขอบที่คาดหวังของก้อนนี้เป็น{D}}fffeD(f)=f1DeD(f)=f1De_D(f) = f^{\frac{1}{D}} มันเป็นสูตรสุดท้ายที่ฉันไม่สามารถเข้าใจได้ ดูเหมือนว่าถ้าคุณต้องการที่จะพูดว่า 10% ของคะแนนกว่าความยาวขอบควรเป็น 0.1 ตามแต่ละมิติ? ฉันรู้ว่าเหตุผลของฉันผิด แต่ฉันไม่เข้าใจว่าทำไม

1
VC-Dimensions ของ k- เพื่อนบ้านที่ใกล้ที่สุด
VC-Dimension ของอัลกอริทึมเพื่อนบ้านที่ใกล้ที่สุดคือ k คืออะไรถ้า k เท่ากับจำนวนคะแนนการฝึกอบรมที่ใช้? บริบท:คำถามนี้ถูกถามในหลักสูตรที่ฉันทำและคำตอบที่ได้คือ 0 แต่ฉันไม่เข้าใจว่าทำไมถึงเป็นเช่นนั้น สัญชาตญาณของฉันคือ VC-Dimension ควรเป็น 1 เพราะมันเป็นไปได้ที่จะเลือกสองแบบ (เช่นชุดของคะแนนการฝึกอบรม) เพื่อให้ทุกจุดถูกระบุว่าเป็นของคลาสหนึ่งตามรุ่นแรกและเป็นของคลาสอื่น ตามรุ่นที่สองดังนั้นจึงเป็นไปได้ที่จะแตกจุดเดียว ความผิดพลาดในการให้เหตุผลของฉันอยู่ที่ไหน

1
ทฤษฎีบทที่ไม่มีอาหารกลางวันและความสอดคล้อง K-NN
ในการเรียนรู้การคำนวณทฤษฎีบทของ NFL ระบุว่าไม่มีผู้เรียนสากล สำหรับอัลกอริทึมการเรียนรู้ทุกครั้งจะมีการแจกแจงที่ทำให้ผู้เรียนส่งออกไฮเปอร์ซิสด้วยข้อผิดพลาดขนาดใหญ่ที่มีความน่าจะเป็นสูง (แม้ว่าจะมีไฮเปอร์ข้อผิดพลาดต่ำ) บทสรุปก็คือเพื่อที่จะเรียนรู้คลาสไฮเปอร์ซิสหรือการแจกแจงต้องถูก จำกัด ในหนังสือของพวกเขา "ทฤษฎีความน่าจะเป็นของการจดจำรูปแบบ", Devroye et al ได้พิสูจน์ความจริงดังต่อไปนี้สำหรับผู้เรียนที่อยู่ใกล้ที่สุดของเค - เรียน: Assume โดยที่สมมติว่า μ มีความหนาแน่น ถ้า k → ∞ และ k / n → 0 แล้วทุก ε > 0 , มี N, เซนต์ สำหรับทุก n > N:P(Rn-R* * * *> ϵ ) < 2 e x …

2
K- เพื่อนบ้านที่ใกล้เคียงที่สุดกับตัวแปรต่อเนื่องและไบนารี
ฉันมีชุดข้อมูลที่มีคอลัมน์a b c(3 คุณลักษณะ) aเป็นตัวเลขและต่อเนื่องในขณะที่bและcเป็นหมวดหมู่แต่ละคนมีสองระดับ ฉันใช้ K-เพื่อนบ้านที่ใกล้ที่สุดวิธีการในการจำแนกaและบนb cดังนั้นเพื่อให้สามารถวัดระยะทางที่ผมเปลี่ยนชุดข้อมูลของฉันโดยการลบbและการเพิ่มและb.level1 b.level2หากสังเกตiมีระดับเป็นครั้งแรกในbประเภทและb.level1[i]=1b.level2[i]=0 ตอนนี้ฉันสามารถวัดระยะทางในชุดข้อมูลใหม่ของฉัน: a b.level1 b.level2 จากมุมมองเชิงทฤษฎี / คณิตศาสตร์: คุณสามารถทำการ K- ใกล้เคียงเพื่อนบ้าน (KNN) ด้วยข้อมูลไบนารีและต่อเนื่องได้หรือไม่ ฉันใช้FNNแพ็คเกจใน R และฟังก์ชั่นknn()

4
เหตุใด KNN จึงไม่ใช่ "อิงตามโมเดล"
ESLบทที่ 2.4 ดูเหมือนว่าจะจัดประเภทการถดถอยเชิงเส้นเป็น "ตามโมเดล" เนื่องจากมันถือว่าในขณะที่ไม่มีการประมาณแบบเดียวกันสำหรับเพื่อนบ้านที่อยู่ใกล้เคียง k แต่ทั้งสองวิธีไม่ได้ตั้งสมมติฐานเกี่ยวกับใช่ไหมฉ( x ) ≈ x ⋅ บีตาฉ(x)≈x⋅βf(x) \approx x\cdot\betaฉ( x )ฉ(x)f(x) ในภายหลังใน 2.4 มันยังพูดว่า: กำลังสองน้อยที่สุดสมมติว่าใกล้เคียงกันมากกับฟังก์ชันเชิงเส้นทั่วโลกฉ( x )ฉ(x)f(x) k- เพื่อนบ้านที่ใกล้ที่สุดสมมติว่ามีค่าใกล้เคียงกันกับฟังก์ชันคงที่ในพื้นที่ฉ( x )ฉ(x)f(x) การสันนิษฐาน KNN ดูเหมือนว่ามันจะเป็นทางการได้ (แม้ว่าไม่แน่ใจว่าการทำเช่นนั้นจะนำไปสู่อัลกอริทึม KNN ในวิธีที่สมมติว่าเป็นเส้นนำไปสู่การถดถอยเชิงเส้น)ฉฉf ดังนั้นหาก KNN ไม่ใช่แบบจำลองจริงๆแล้วทำไม? หรือฉันอ่านผิด ESL

4
รับโซ่ 10D MCMC ฉันจะกำหนดโหมดหลังได้อย่างไรใน R
คำถาม:ด้วยห่วงโซ่ MCMC แบบ 10 มิติสมมติว่าฉันพร้อมที่จะมอบเมทริกซ์การจับ: 100,000 ซ้ำ (แถว) โดย 10 พารามิเตอร์ (คอลัมน์) ฉันจะระบุโหมดหลังได้ดีที่สุดอย่างไร ฉันกังวลเป็นพิเศษกับหลายโหมด พื้นหลัง:ฉันคิดว่าตัวเองเป็นนักสถิติที่มีความชำนาญ แต่เมื่อเพื่อนร่วมงานถามคำถามนี้กับฉันฉันรู้สึกละอายใจที่ไม่สามารถหาคำตอบที่เหมาะสมได้ ข้อกังวลหลักคืออาจมีหลายโหมดปรากฏขึ้น แต่หากพิจารณาอย่างน้อยแปดหรือมากกว่านั้นในสิบส่วนข้อมูล ความคิดแรกของฉันคือการใช้การประมาณความหนาแน่นของเคอร์เนล แต่การค้นหาผ่าน R เปิดเผยว่าไม่มีอะไรน่ากังวลสำหรับปัญหาที่มีขนาดเกินกว่าสามมิติ เพื่อนร่วมงานได้เสนอกลยุทธ์เฉพาะกิจในสิบมิติและค้นหาสูงสุด แต่ข้อกังวลของฉันคือแบนด์วิดท์อาจนำไปสู่ปัญหาการกระจัดกระจายที่สำคัญหรือขาดความละเอียดในการแยกแยะหลายโหมด ที่กล่าวว่าฉันยินดีรับข้อเสนอแนะสำหรับคำแนะนำแบนด์วิดธ์อัตโนมัติลิงก์ไปยังตัวประมาณความหนาแน่นเคอร์เนล 10 ตัวหรือสิ่งอื่นที่คุณรู้ ความกังวลเกี่ยวกับ: เราเชื่อว่าการกระจายอาจเบ้ค่อนข้าง ดังนั้นเราต้องการระบุโหมดด้านหลังไม่ใช่วิธีหลัง เรากังวลว่าอาจมีโหมดหลังหลายโหมด หากเป็นไปได้เราต้องการคำแนะนำจาก R แต่อัลกอริทึมใด ๆ ที่จะทำตราบเท่าที่มันไม่ยากอย่างไม่น่าเชื่อที่จะใช้ ฉันเดาว่าฉันไม่ต้องการใช้ตัวประมาณความหนาแน่นของเคอร์เนลด้วยการเลือกแบนด์วิดท์อัตโนมัติตั้งแต่เริ่มต้น

1
ข้อมูลประเภทใดที่ควรทำให้เป็นมาตรฐานด้วย KNN?
ฉันรู้ว่ามีการทำให้เป็นปกติมากกว่าสองประเภท ตัวอย่างเช่น, 1- การแปลงข้อมูลโดยใช้คะแนน z หรือคะแนน t ซึ่งมักเรียกว่ามาตรฐาน 2- การลดขนาดข้อมูลให้มีค่าระหว่าง 0 ถึง 1 คำถามตอนนี้ถ้าฉันต้องการ normalizing ข้อมูลประเภทใดที่ควรทำให้เป็นมาตรฐานด้วย KNN? และทำไม?
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.