การลดขนาดด้วยการหย่อน


11

Johnson-Lindenstrauss lemma พูดอย่างคร่าว ๆ ว่าสำหรับคอลเล็กชั่น ofจุดใด ๆในมีแผนที่โดยที่เช่นนั้นสำหรับทั้งหมด : เป็นที่ทราบกันดีว่าคำสั่งที่คล้ายกันนั้นเป็นไปไม่ได้สำหรับตัวชี้วัด แต่เป็นที่รู้กันว่ามีวิธีใดบ้าง ขอบเขตโดยการเสนอการรับประกันที่อ่อนแอกว่า? ตัวอย่างเช่นสามารถมีบทแทรกด้านบนสำหรับSnRdf:RdRkk=O(logn/ϵ2)x,yS1 1

(1ϵ)||f(x)f(y)||2||xy||2(1+ϵ)||f(x)f(y)||2
11ตัวชี้วัดที่สัญญาว่าจะรักษาระยะห่างของคะแนนส่วนใหญ่ไว้ แต่อาจทำให้มีการบิดเบือนโดยพลการ ที่ไม่รับประกันการคูณสำหรับจุดที่ "ใกล้เกินไป"?

คำตอบ:


9

การอ้างอิงมาตรฐานสำหรับผลลัพธ์ที่เป็นบวกคือกระดาษของ Piotr Indyk ในการแจกแจงที่เสถียร:

http://people.csail.mit.edu/indyk/st-fin.ps

เขาแสดงให้เห็นถึงเทคนิคการลดขนาดของที่ระยะห่างระหว่างคู่คะแนนใด ๆ ไม่เพิ่มขึ้น (มากกว่าปัจจัย ) ด้วยความน่าจะเป็นและระยะทางคงที่ไม่ลดลง (มากกว่าปัจจัยที่สูง) ความน่าจะเป็น มิติของการฝังจะชี้แจงใน1 1 + ϵ 1 - ϵ 1 / ϵ11+ϵ1ϵ1/ϵ

อาจมีงานติดตามที่ฉันไม่ทราบ


8

ดูเมตริก embeddings มีการค้ำประกันผ่อนคลายกระดาษซึ่งมีผลการค้นหาใน (ภายใต้เงื่อนไขของ "บิดเบือนย่อยสลายได้อย่างสง่างาม") และทั่วไป embeddingsp1p

ดูขั้นตอนปฏิบัติสำหรับการลดขนาดในกระดาษ1


7

มันแสดงให้เห็นเร็ว ๆ นี้โดยนิวแมนและ Rabinovich ว่าสำหรับจุด n ในมีการลดมิติมิติepsilon) การใช้ทฤษฎีบทของ Abraham และคณะ (การฝังเมตริกด้วยการรับรองที่ผ่อนคลายดังกล่าวข้างต้น) หนึ่งสามารถลดมิติในมิติที่ใช้งานได้เป็นเศษส่วน O ( n / ϵ ) O ( 1 / ( δ ϵ ) ) 1 - δ1O(n/ϵ)O(1/(δϵ))1δ


4

การผ่อนคลายของอีกลดมิติคือการกำหนดให้โกหกในสเปซมิติของและทำให้ขึ้นอยู่กับคTalagrand พิสูจน์ให้เห็นว่า -dimensional subspaceของ (เขาพิสูจน์ให้ ) มีแผนที่สำหรับเช่นนั้นสำหรับ ,1ScRdkccV1dL1f:1d1kk=O(ϵ2clogc)x,yVS(1ϵ)f(x)f(y)1xy1(1+ϵ)f(x)f(y)1. การฝังของเขาเป็นขั้นตอนแบบสุ่มง่าย ๆ แต่จะดำเนินการเป็นขั้นตอนและแต่ละขั้นตอนจะประสบความสำเร็จด้วยความน่าจะเป็นคงที่ หลังจากแต่ละขั้นตอนคุณต้องตรวจสอบว่าขั้นตอนสำเร็จและทำซ้ำหากไม่สำเร็จ ดังนั้นการฝัง Talagrand ขาดคุณลักษณะที่สำคัญของ JLT: ความจริงที่ว่าสามารถหยิบมาจากการจัดจำหน่ายที่เป็นอิสระจากSfS

เมื่อเร็ว ๆ นี้Woodruff และ Sohlerได้พิสูจน์ผลลัพธ์คล้ายกับ Talagrand แต่ด้วยคุณสมบัติเพิ่มเติมที่เช่นเดียวกับ JLT คือการจับคู่เชิงเส้นที่เลือกจากการแจกแจงอิสระของ : คุณต้องเลือก matrix ที่ แต่ละรายการเป็นตัวแปรสุ่ม iid Cauchy นี่คือจิตวิญญาณของการคาดการณ์ที่มั่นคงของ Indyk: Cauchy มีความมั่นคง 1 ครั้ง S k × dfSk×d

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.