การค้นหาเวกเตอร์ที่คล้ายกันในเวลา subquadratic


9

ปล่อย d:{0,1}k×{0,1}kRเป็นหน้าที่ที่เราจะเรียกว่าเป็นฟังก์ชั่นที่คล้ายคลึงกัน ตัวอย่างของฟังก์ชันความคล้ายคลึงกันคือระยะทางโคไซน์ล.2 norm, ระยะทาง hamming, ความคล้ายคลึงกันของ Jaccard, ฯลฯ

พิจารณา n เวกเตอร์ไบนารีของความยาว k: โวลต์({0,1}k)n.

เป้าหมายของเราคือการจัดกลุ่มเวกเตอร์ที่คล้ายกัน ยิ่งกว่านั้นอย่างเป็นทางการเราต้องการคำนวณกราฟความเหมือนกันซึ่งโหนดเป็นเวกเตอร์และขอบแสดงเวกเตอร์ที่คล้ายกัน (d(โวลต์,ยู)ε)

n และ k มีจำนวนมากและเปรียบเทียบสองความยาว k เวกเตอร์มีราคาแพงเราไม่สามารถทำกำลังดุร้ายทั้งหมดได้ O(n2)การดำเนินงาน เราต้องการคำนวณกราฟความเหมือนกันด้วยการทำงานที่น้อยลงอย่างมาก

เป็นไปได้ไหม หากเราไม่สามารถคำนวณการประมาณกราฟที่มีขอบทั้งหมดในกราฟความเหมือนกันและอาจมากที่สุดO(1) ขอบอื่น ๆ


มันควรจะเป็น ε ค่อนข้างมากกว่า ε?
usul

@usul ขอบคุณสำหรับความคิดเห็นของคุณ :) ที่นี่เราสนใจที่จะจัดกลุ่มรายการที่คล้ายกันมาก ฉันได้แก้ไขคำถามฉันหวังว่าจะชัดเจนในขณะนี้
ราม

ฟังดูฉันเหมือนคุณสามารถใช้ Similarity Preserving Hashing ( arxiv.org/pdf/1311.7662v1.pdf ) เพื่อลดขนาดของปัญหา
RB

4
คำถามนี้ไม่ได้กำหนดไว้อย่างดีโปรดให้รายละเอียดเพิ่มเติม เช่นถ้าd ถูกกำหนดโดย oracle แน่นอนว่าคุณไม่สามารถทำได้ดีกว่า (n2).
domotorp

5
คุณทำงานกับทวิตเตอร์หรือไม่ blog.twitter.com/2014/all-pairs-similarity-via-dimsum อย่างจริงจังแม้ตรวจสอบว่ามีขอบในกราฟนี้ (เช่นว่ามันไม่ใช่ชุดของจุดยอดอิสระ) จะยากที่จะทำเร็วกว่าO(n2)สำหรับฟังก์ชันความคล้ายคลึงกันโดยพลการ
Ryan Williams

คำตอบ:


5

อาจมีวิธีที่จะทำให้เขาเข้าใจทฤษฎีบทของจอห์นสัน โดยพื้นฐานแล้ว JL ระบุว่าคุณสามารถฉายข้อมูลมิติสูงลงในช่องว่างมิติด้านล่างในลักษณะที่ระยะทางคู่จะถูกเก็บรักษาไว้เกือบ ในทางปฏิบัติแล้ว Achlioptas มีเอกสารที่เรียกว่าการสุ่มแบบเป็นมิตรกับฐานข้อมูล: Johnson-Lindenstrauss ด้วยเหรียญไบนารี่ที่ฉายภาพแบบสุ่มซึ่งใช้งานได้ดีในทางปฏิบัติ

ตอนนี้ฟังก์ชั่นความคล้ายคลึงกันของคุณไม่เหมือนกับสิ่งที่ตรงกับทฤษฎีบทของ JL อย่างไรก็ตามดูเหมือนว่าฟังก์ชันระยะทางและบางทีทฤษฎีบางอย่างด้านบนอาจช่วยได้

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.