เมื่อใดที่จะใช้บทแทรก Johnson-Lindenstrauss เหนือ SVD?


12

Johnson-Lindenstrauss บทแทรกช่วยให้หนึ่งเพื่อแสดงจุดในพื้นที่มิติสูงเป็นจุดในมิติที่ต่ำกว่า เมื่อค้นหาช่องว่างมิติที่ต่ำกว่าของแบบที่ดีที่สุดเทคนิคมาตรฐานคือการหาการสลายตัวของค่าเอกพจน์จากนั้นนำพื้นที่ย่อยที่สร้างขึ้นโดยค่าเอกพจน์ที่ใหญ่ที่สุด เมื่อไหร่ที่จะใช้ Johnson-Lindenstrauss เหนือ SVD?

คำตอบ:


20

ทั้งสองวิธีให้การรับประกันที่แตกต่างกันมาก

JL Lemma กล่าวว่า "คุณให้ข้อผิดพลาดที่คุณต้องการกับฉันและฉันจะให้พื้นที่มิติต่ำที่จับระยะทางจนถึงข้อผิดพลาดนั้น" นอกจากนี้ยังเป็นการรับประกันแบบคู่ใจที่แย่ที่สุด : สำหรับคะแนนแต่ละคู่ฯลฯ

แผนก SVD ให้คำมั่นสัญญาว่า "คุณบอกฉันว่าคุณต้องการอยู่ในมิติใดและฉันจะให้การฝังที่ดีที่สุดเท่าที่จะเป็นไปได้" โดยที่ "ดีที่สุด" ถูกกำหนดโดยเฉลี่ย : ข้อผิดพลาดทั้งหมดของความเหมือนจริงที่เหมือนกัน

ดังนั้นจากมุมมองทางทฤษฎีพวกเขาจึงแก้ปัญหาต่างกันมาก ในทางปฏิบัติสิ่งที่คุณต้องการนั้นขึ้นอยู่กับแบบจำลองของคุณสำหรับปัญหาพารามิเตอร์ใดที่สำคัญกว่า (ข้อผิดพลาดหรือมิติ) และการค้ำประกันประเภทใดที่คุณต้องการ


f()

2
Af(x)Ax

f

1
1

4

SVD และ JL ยังคาดการณ์ถึงจุดต่าง ๆ ในอนาคตเช่นกัน

นั่นคือถ้าคุณคิดว่าข้อมูลของคุณมาจากการกระจายพื้นฐานบางประการโดยหลักการแล้วแผนกบริการควรจะยังคง "ดี" สำหรับจุดใด ๆ ในอนาคตตราบใดที่พวกเขาถูกสุ่มตัวอย่างจากการแจกจ่ายแบบเดียวกัน ในทางกลับกันมิติเป้าหมายของ JL ขึ้นอยู่กับจำนวนคะแนนซึ่งหมายความว่าการใช้การแปลงสภาพ JL ไปยังจุดเพิ่มเติมสามารถเพิ่มความน่าจะเป็นข้อผิดพลาดได้

สิ่งนี้จะเกี่ยวข้องถ้าหากคุณกำลังใช้การลดขนาดเป็นขั้นตอนการประมวลผลล่วงหน้าสำหรับอัลกอริทึมอื่น ขอบเขต SVD สำหรับข้อมูลการฝึกอบรมอาจเก็บข้อมูลการทดสอบ แต่ JL จะไม่


นี่เป็นจุดที่ดีมาก
Paul Siegel

3

นี่คือการติดตามคำตอบของ Suresh - ฉันไปเล็กน้อยหลังจากอ่านคำตอบของเขาและเกิดความเข้าใจต่อไปนี้ขึ้นมา เดิมทีฉันจะโพสต์สิ่งนี้เป็นความคิดเห็นต่อคำตอบของเขา แต่มันก็ยังเพิ่มขึ้นเรื่อย ๆ

กรุณาชี้ให้เห็นข้อผิดพลาดในคำตอบฉันไม่มีความเชี่ยวชาญในด้านนี้

ในบางกรณี JL และ SVD เป็นเหมือนแอปเปิ้ลและส้ม

1) ปัญหาที่พวกเขาแก้ไขแตกต่างอย่างสิ้นเชิง หนึ่งเกี่ยวข้องกับระยะทางคู่อื่น ๆ ที่มีการแสดงที่ดีที่สุด กรณีหนึ่งเป็นกรณีที่เลวร้ายที่สุดกรณีอื่นคือกรณีทั่วไป

(1)argminP{supu,v(|1||PuPv||2||uv||2|)}

(นี่ไม่แม่นยำฉันจะแสดงความคิดเห็นเพิ่มเติมในภายหลัง)

ปัญหาที่ SVD กำลังแก้ไขคือ (ให้มิติ ) k

argminP of dim k{Avg(||uPu||2)}

2) อินพุต: แม้ว่าอัลกอริธึมทั้งสองจะเอาต์พุตย่อย subspaces อินพุตที่พวกเขาต้องการนั้นแตกต่างกัน JL ต้องการความอดทน (ข้อผิดพลาดสูงสุดที่คุณยินดีที่จะยอมรับระหว่างระยะทางจริงและระยะทางในพื้นที่ย่อย) ในขณะที่ SVD ต้องการจำนวนมิติϵ

3) JL ไม่ใช่แบบไม่เป็นระเบียบ SVD เป็นสิ่งที่สร้างสรรค์ - ประเด็นนี้ค่อนข้างคลุมเครือเนื่องจากคำที่ไม่ชัดเจน มีอัลกอริทึมที่กำหนดไว้สำหรับการคำนวณ SVD แต่อัลกอริทึมสำหรับการค้นหาพื้นที่ JL เป็นแบบสุ่ม - ทำโปรเจ็คเตอร์แบบสุ่มถ้าคุณล้มเหลวลองอีกครั้ง

4) SVD ไม่ซ้ำกัน (พื้นที่ย่อยอาจไม่ซ้ำกัน แต่ค่าวัตถุประสงค์จะเหมือนกันสำหรับพื้นที่ย่อยทั้งหมด) Eqn (1) ด้านบนไม่แม่นยำในแง่ที่ว่า JL ไม่ได้พูดถึงการลดความคลาดเคลื่อนในระยะทางคู่ - ลดการรับประกันว่าการมีอยู่ของพื้นที่ย่อยขนาดเล็กที่ระยะทางจะสูงสุดแตกต่างจากของจริง ค่า อาจมี subspaces ดังกล่าวจำนวนมากบางแห่งอาจดีกว่าส่วนย่อยอื่น ๆϵ

(ดูความคิดเห็นสำหรับคำอธิบายเกี่ยวกับส่วนที่ถูกขีดทับของคำตอบ)

แก้ไข: @ john-myles-white ได้เขียนโพสต์เกี่ยวกับ JL เพื่อยืนยันการอ้างสิทธิ์และแสดงวิธีการสร้างโปรเจ็กต์: http://www.johnmyleswhite.com/notebook/2014/03/24/a-note- on-the-จอห์นสัน lindenstrauss-แทรก /


5
คำตอบของคุณมีข้อผิดพลาดจำนวนมาก (1) JL มีความคิดสร้างสรรค์สูงมาก: มีอัลกอริธึมทุกชนิดสำหรับการสร้างการแมป (2) มันไม่ได้รักษาความแตกต่าง แต่ความแตกต่างสัมพัทธ์ (อัตราส่วน) (3) JL lemma ได้รับ derandomized (4) งาน JL สำหรับชุดเวกเตอร์ใด ๆ : การก่อสร้างนั้นเป็นอิสระจากอินพุตที่แท้จริง ข้อมูลที่จำเป็นเท่านั้นคือจำนวนของเวกเตอร์
Suresh Venkat

ขอบคุณสุเรช ฉันได้รวมไว้ทั้งหมดยกเว้นข้อเสนอแนะสุดท้ายของคุณ อย่าลังเลที่จะแก้ไขคำตอบเพิ่มเติม ในจุดสุดท้ายฉันสับสน คุณกำลังบอกว่าแผนที่เดียวกันจะใช้ได้ไม่ว่าฉันจะให้เวกเตอร์ชุดใดให้คุณ
elexhobby

3
นั่นเป็นจุดที่บอบบางเล็กน้อย เมื่อคุณแก้ไขข้อผิดพลาดและจำนวนเวกเตอร์มีการแจกแจงความน่าจะเป็นคงที่บนแผนที่ซึ่งจะทำงานกับความน่าจะเป็นสูงสำหรับชุดเวกเตอร์ใด ๆ แน่นอนว่าไม่มีแผนที่เชิงเส้นคงที่แบบกำหนดค่าได้ที่สอดคล้องกับคุณสมบัตินี้
Sasho Nikolov

เป็นมูลค่าการตรวจสอบการดำเนินการ
scikit

ฉันต้องการเพิ่มที่ไม่เพียง แต่จะไม่มีอัลกอริทึมที่กำหนดขึ้นสำหรับการสร้าง JL ฝังทั่วไปมันมักจะห้ามคำนวณเพื่อตรวจสอบว่าเมทริกซ์ที่สร้างแบบสุ่มตามอัลกอริทึม JL จริงมีคุณสมบัติ "เกือบ isometry" (แม้ว่า มันมีความน่าจะเป็นสูงมาก) ดังนั้นฉันคิดว่ามันสมเหตุสมผลที่จะบอกว่าทฤษฎีบทของ JL นั้นไม่สร้างสรรค์ เปรียบเทียบกับอัลกอริทึม "เลือกจำนวนจริงแบบสุ่มระหว่างถึง " นี่ให้ตัวเลขยอดเยี่ยมที่มีความน่าจะเป็นแต่ฉันจะไม่เรียกมันว่าสร้างสรรค์ 011
Paul Siegel
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.