เมื่อใดที่“ เพื่อนบ้านใกล้ที่สุด” มีความหมายวันนี้?

ในปี 1999 เบเยอร์และคณะ ถาม เมื่อ "เพื่อนบ้านที่ใกล้ที่สุด" มีความหมาย?

มีวิธีที่ดีกว่าในการวิเคราะห์และแสดงผลของความเรียบของระยะทางในการค้นหา NN ตั้งแต่ปี 1999 หรือไม่

ชุดข้อมูล [ที่ระบุ] ให้คำตอบที่มีความหมายต่อปัญหา 1-NN หรือไม่ ปัญหา 10-NN? ปัญหา 100-NN?

วันนี้คุณจะผู้เชี่ยวชาญตอบคำถามนี้อย่างไร

การแก้ไขวันจันทร์ 24 มกราคม:

วิธี "ระยะทางสีขาว" เป็นชื่อที่สั้นกว่าสำหรับ "ความเรียบระยะทางกับมิติที่เพิ่มขึ้น"?

วิธีง่าย ๆ ในการดู "ระยะทางไวต์ไวท์" คือการเรียกใช้ 2-NN และวางแผนระยะทางไปยังเพื่อนบ้านที่ใกล้ที่สุดและเพื่อนบ้านที่ใกล้ที่สุดที่สอง เนื้อเรื่องด้านล่างแสดง dist ₁และ dist ₂ สำหรับช่วงของ nclusters และมิติโดย Monte Carlo ตัวอย่างนี้แสดงความแตกต่างของระยะทางที่ค่อนข้างดีสำหรับส่วนต่างสัมบูรณ์ | dist ₂ - dist ₁ | (ความแตกต่างสัมพัทธ์ | dist ₂ / dist ₁ | → 1 เป็นขนาด→∞ดังนั้นไร้ประโยชน์)

ข้อผิดพลาดแบบสัมบูรณ์หรือข้อผิดพลาดสัมพัทธ์ควรใช้ในบริบทที่กำหนดหรือไม่นั้นขึ้นอยู่กับเสียง "จริง" ในปัจจุบัน: ยาก

คำแนะนำ: ใช้ 2-NN เสมอ 2 เพื่อนบ้านมีประโยชน์เมื่อพวกเขาอยู่ใกล้และมีประโยชน์เมื่อไม่ได้

ป้อนคำอธิบายรูปภาพที่นี่

machine-learning k-nearest-neighbour

— เดนิส
แหล่งที่มา

เบเยอร์และคณะ ดูเหมือนว่าจะจัดการกับปัญหาที่แตกต่างกันเล็กน้อยของปัญหา NN แต่เพื่อวัตถุประสงค์ในการจำแนกประเภท (ไบนารี) ภายใต้เงื่อนไขที่ไม่รุนแรงมันเป็นผลที่คลาสสิกที่การจำแนก 1-NN มีในกรณีที่เลวร้ายที่สุดสองครั้งน่าจะเป็นข้อผิดพลาดของ Bayes กล่าวอีกนัยหนึ่งเพื่อนบ้านที่อยู่ใกล้ที่สุดคนแรกมี "ข้อมูลอย่างน้อยครึ่งหนึ่ง" เกี่ยวกับป้ายกำกับของเป้าหมายตามที่ตัวจําแนกที่ดีที่สุดทำ ในแง่นี้ 1-NN ดูเหมือนว่ามีความเกี่ยวข้องมาก (ดู Cover & Hart (1967) เพิ่มเติมฉันประหลาดใจที่ Beyer และคณะไม่ได้กล่าวถึง)

— cardinal

@cardinal ขอบเขต Cover-Hart ดูเหมือนจะไม่ขึ้นอยู่กับมิติเลยเมื่อคุณพูดถึงมุมมองที่ต่างออกไป

— เดนิส

ใช่ฉันเชื่อว่านี่เป็นเรื่องจริงและส่วนใหญ่แล้วประเด็นของฉันคือการนำมันขึ้นมา 1-NN ดูเหมือนว่าจะมีความเกี่ยวข้องในแง่นี้นั่นคือความจริงที่ว่ามันใช้งานได้ดี (ในทางทฤษฎี) อย่างสม่ำเสมอในมิติของพื้นที่ของฟีเจอร์ดูเหมือนว่าจะช่วยให้มันยืนได้ด้วยตัวเองโดยไม่คำนึงถึงพฤติกรรมของคนใกล้ตัว เพื่อนบ้านที่อยู่ไกลที่สุดนั้นอยู่ในพื้นที่มิติใหญ่ มันทำให้ฉันสงสัยว่าเบเยอร์รู้ตัวหรือไม่กับผลที่ได้รับ

— พระคาร์ดินัล

@cardinal ด้านบนของหน้า 24 ในหน้าปกและฮาร์ตดูเหมือนสถานที่ที่อาจมีปัญหาเกิดขึ้นในการพิสูจน์ในขั้นตอนที่หน้าปกและฮาร์ทให้เหตุผลว่า RV x \ in X ทุกคนมีคุณสมบัติที่ทรงกลมทุกตัวเกี่ยวกับ x การวัดที่ไม่เป็นศูนย์ หากเราพิจารณารูปทรงเรขาคณิตของไฮเปอร์สเฟียร์เราจะเห็นว่าปริมาตรของการตกแต่งภายในของไฮเปอร์สเฟียร์นั้นลดลงตามมิติที่เพิ่มขึ้นดังนั้นในการ จำกัด ลูกบอลที่เปิดอยู่ประมาณ x มี x อยู่ภายในเท่านั้น อีกทางหนึ่งผ่าน SLLN, iid RVs x ในพื้นที่ตัวชี้วัด X ทั้งหมดอยู่ในพื้นผิวของไฮเปอร์สเปร์เรเตอร์ที่มีความน่าจะเป็น

— Bob Durrant

ดูเพิ่มเติมL1 หรือ l.5 ตัวชี้วัดสำหรับการจัดกลุ่ม

— เดนิส

คำตอบ:

ฉันไม่มีคำตอบที่สมบูรณ์สำหรับคำถามนี้ แต่ฉันสามารถให้คำตอบบางส่วนในด้านการวิเคราะห์ คำเตือน: ฉันได้ทำงานกับปัญหาอื่น ๆ ตั้งแต่รายงานฉบับแรกด้านล่างดังนั้นจึงเป็นไปได้มากที่มีสิ่งดีๆอื่น ๆ อยู่ข้างนอกนั่นฉันไม่ทราบ

ครั้งแรกฉันคิดว่ามันควรค่าแก่การสังเกตว่าแม้จะมีชื่อบทความว่า "เมื่อไรที่มีความหมายว่า" เพื่อนบ้านที่ใกล้ที่สุด "ซึ่งมีความหมาย" เบเยอร์เอตอัลตอบคำถามต่าง ๆ จริง ๆ คือเมื่อ NN ไม่มีความหมาย เราได้พิสูจน์การสนทนากับทฤษฎีบทของพวกเขาภายใต้สมมติฐานเล็กน้อยเพิ่มเติมเกี่ยวกับขนาดของกลุ่มตัวอย่างในเมื่อ 'เพื่อนบ้านที่ใกล้ที่สุด' มีความหมาย: ทฤษฎีบทสนทนาและผลกระทบ สมุดรายวันของความซับซ้อน, 25 (4), สิงหาคม 2009, pp 385-397และแสดงให้เห็นว่ามีสถานการณ์ที่ (ในทางทฤษฎี) ความเข้มข้นของระยะทางจะไม่เกิดขึ้น (เรายกตัวอย่าง แต่ในสาระสำคัญจำนวนของคุณสมบัติที่ไม่ใช่เสียงรบกวนจำเป็นต้องเติบโตขึ้นกับมิติดังนั้นแน่นอนว่าพวกเขาไม่ค่อยเกิดขึ้นในทางปฏิบัติ) การอ้างอิงที่ 1 และ 7 ที่อ้างถึงในเอกสารของเราเป็นตัวอย่างของวิธีที่ความเข้มข้นของระยะทางสามารถลดลงได้ในทางปฏิบัติ

บทความโดย Ata Kaban หัวหน้างานของฉันตรวจสอบว่าปัญหาความเข้มข้นของระยะทางเหล่านี้ยังคงมีอยู่หรือไม่แม้ว่าจะใช้เทคนิคการลดมิติใน การให้ความรู้เกี่ยวกับระยะทางของเทคนิคการลดข้อมูลบางอย่าง การจดจำรูปแบบ ฉบับ 44, ฉบับที่ 2, กุมภาพันธ์ 2011, pp.265-277 . มีการสนทนาที่ดีอยู่ในนั้นด้วย

$k$

— Bob Durrant
แหล่งที่มา

ขอบคุณ Bob, +1 คำถามที่เกี่ยวข้องคุณมีกฎง่ายๆในการเลือกค่าเศษส่วน - เมตริก q (หรือฉันควรถามว่าเป็นคำถามแยกต่างหาก)

— เดนิส

q = 1 / p

$q=1/p$

p > 1

$p>1$

p

$p$

l_{0}

$l_0$

p = 1

$p=1$

l_{1}

$l_{1}$

l_{q = 1 / p}

$l_{q=1/p}$

p > 1

$p>1$

p

$p$

\sum | a_{j} - b_{j} |^{q}

$\sum |a_j - b_j|^q$

1 / q

$1/q$

< q <

$< q <$

ℓ_{p}

$\ell_{p}$

คุณอาจสนใจการวิเคราะห์ส่วนประกอบในละแวกใกล้เคียงโดย Goldberger และคณะ

ที่นี่การแปลงเชิงเส้นได้รับการเรียนรู้เพื่อเพิ่มคะแนนการจำแนกอย่างถูกต้องสูงสุดผ่านการเลือกย่านที่ใกล้เคียงที่สุดสุ่ม

ในฐานะที่เป็นผลข้างเคียงจำนวนเพื่อนบ้าน (คาดว่า) จะถูกกำหนดจากข้อมูล

— bayerj
แหล่งที่มา

ขอบคุณไบเออร์ ดูเหมือนว่า "การเรียนรู้การวัดระยะทาง" กำลังเฟื่องฟู - scholar.goo มี 50 ชื่อตั้งแต่ปี 2008 แต่กระดาษบูมหรือการใช้งานจริงเป็นอย่างไร เชิงอรรถรหัสสำหรับ nca บอกว่า "การวนซ้ำ ... อย่างน้อย 100,000 ผลลัพธ์ที่ดี" เชิงอรรถ 2 งานการเรียนรู้การวัดระยะทางส่วนใหญ่ดูเหมือนจะเป็นแบบจำลองระยะทาง Mahalanobis คุณจะรู้จักโมเดลระยะทางอื่น ๆ ไหม

— ปฏิเสธ

ฉันมีประสบการณ์ที่แตกต่างกับ NCA - มันมักจะมาบรรจบกันค่อนข้างมากสำหรับฉัน ชำระเงิน "การลดขนาดด้วยการเรียนรู้การทำแผนที่แบบคงที่" โดย LeCun และ "การลดการสูญเสียขั้นต่ำสำหรับรหัสไบนารีแบบย่อ" โดย Norouzi

— bayerj