วัดระยะทางที่ดีที่สุดที่จะใช้


12

บริบท

ฉันมีข้อมูลสองชุดที่ฉันต้องการเปรียบเทียบ แต่ละองค์ประกอบข้อมูลในทั้งสองชุดเป็นเวกเตอร์ที่มี 22 มุม (ทั้งหมดระหว่างและ ) มุมนั้นเกี่ยวข้องกับรูปแบบท่าถ่ายรูปของมนุษย์ที่กำหนดดังนั้นท่ามุมจึงถูกกำหนดโดยมุมต่อ 22 มุมเธππ

ในที่สุดสิ่งที่ฉันพยายามทำคือกำหนด "ความใกล้ชิด" ของข้อมูลสองชุด ดังนั้นสำหรับแต่ละท่า (เวกเตอร์ 22D) ในชุดเดียวฉันต้องการค้นหาเพื่อนบ้านที่ใกล้ที่สุดในชุดอื่นและสร้างพล็อตระยะทางสำหรับคู่ที่ใกล้ที่สุด

คำถาม

  • ฉันสามารถใช้ระยะทางแบบยุคลิดหรือไม่?
    • เพื่อให้มีความหมายฉันคิดว่าการวัดระยะทางจะต้องมีการกำหนดเป็น: , โดยที่คือค่าสัมบูรณ์และ mod คือ modulo แล้วใช้ที่เกิด 22 Thetas ผมสามารถดำเนินการคำนวณระยะทางยุคลิดมาตรฐาน2}| . . . | θ=|θ1θ2|modπ|...|t12+t22++t222
    • ถูกต้องหรือไม่
  • การวัดระยะทางอื่นจะมีประโยชน์มากกว่าเช่นไคสแควร์หรือ Bhattacharyya หรือการวัดอื่น ๆ ถ้าเป็นเช่นนั้นคุณช่วยกรุณาให้ข้อมูลเชิงลึกเกี่ยวกับสาเหตุ

3
ตามหมายเหตุด้านข้าง: ฉันไม่คิดว่าคุณหมายถึง\ บางสิ่งบางอย่างค่อนข้างชอบ\} |θ1θ2|modπmin{|θ1θ2|,2π|θ1θ2|}
Erik P.

4
แทนที่จะทำงานกับมุมฉันแนะนำให้เปลี่ยนเป็น (x, y) - หน่วยบนวงกลมหน่วยก่อน จากนั้นคุณสามารถคำนวณตามปกติ (ระยะทางและสิ่งที่คล้ายกัน) และการหาค่าเฉลี่ยไม่ใช่ปัญหาเช่นเดียวกับมุม
caracal

2
@Josh Erik P. ข้อเสนอแนะเป็นสิ่งที่ดี อีกทางหนึ่งให้พิจารณาแต่ละมุมให้เป็นจุดบนวงกลมหน่วยและคำนวณระยะทางแบบยุคลิดระหว่างพวกเขาโดยใช้สูตรปกติ (พีทาโกรัส) ความแตกต่างระหว่างระยะทางเหล่านี้กับระยะทางเชิงมุมไม่สำคัญ (ฉันเชื่อว่านี่อาจเป็นสิ่งที่ Caracal แนะนำเช่นกัน)θ(cos(θ),sin(θ))
whuber

2
@ Josh เฉลี่ยเช่น และเป็น\ในหลาย ๆ กรณีสิ่งนี้ไม่สมเหตุสมผลและควรเป็นแทน ในสถานการณ์เฉพาะของคุณนี้อาจจะไม่เป็นปัญหาตั้งแต่บางทีข้อต่อมนุษย์ไม่ได้มีช่วงของการเคลื่อนไหวในอดีต\นอกจากนี้ในกรณีของคุณคุณอาจต้องการให้ค่าเฉลี่ยข้างต้นเป็นเนื่องจากการเคลื่อนไหวร่วมเป็นทิศทางเดียว @ ข้อเสนอแนะของ whuber เป็นสิ่งที่ฉันต้องการ π/47π/4π0ππ
caracal

3
ปัญหาของคุณอาจจะง่ายขึ้นในการแก้หากคุณสามารถระบุผลของการ "ทำให้ผิด" ดังนั้นถ้าคุณบอกว่าชุดข้อมูลนั้นเหมือนหรือคล้ายกัน แต่จริงๆแล้วมันไม่ใช่สิ่งที่จะเกิดขึ้นกับคุณ การตัดสินใจของคุณขึ้นอยู่กับ "ความผิดพลาด" หรือไม่? จะเกิดอะไรขึ้นถ้าคุณประกาศข้อมูล / โพสที่แตกต่างกัน แต่ในความเป็นจริงมันเหมือนกันหรือคล้ายกัน? อะไรหายไป? การตอบคำถามเหล่านี้จะช่วยกำหนดสิ่งที่สำคัญสำหรับการเปรียบเทียบที่คุณต้องการ สิ่งนี้ทำให้มั่นใจได้ว่าคุณตอบคำถามที่ถูกต้อง
ความน่าจะเป็นทาง

คำตอบ:


5

คุณสามารถคำนวณเมทริกซ์ความแปรปรวนร่วมสำหรับแต่ละชุดแล้วคำนวณระยะห่างระหว่าง Hausdorff ทั้งสองชุดโดยใช้ระยะทาง Mahalanobis

ระยะทาง Mahalanobis เป็นวิธีที่มีประโยชน์ในการกำหนดความคล้ายคลึงกันของตัวอย่างที่ไม่รู้จักที่ตั้งค่าให้เป็นที่รู้จัก มันแตกต่างจากระยะทางแบบยุคลิดซึ่งคำนึงถึงความสัมพันธ์ของชุดข้อมูลและเป็นค่าคงที่ขนาด


3

คุณพยายามทำอะไรกับข้อมูลเพื่อนบ้านที่ใกล้ที่สุด?

ฉันจะตอบคำถามนั้นแล้วเปรียบเทียบการวัดระยะทางที่แตกต่างกันในแง่ของการวัดนั้น

ตัวอย่างเช่นสมมติว่าคุณกำลังพยายามจำแนกโพสท่าตามโครงร่างของข้อต่อและต้องการให้เวกเตอร์ร่วมจากโพสท่าเดียวกันเข้าด้วยกัน วิธีที่ตรงไปตรงมาในการประเมินความเหมาะสมของการวัดระยะทางที่แตกต่างกันคือการใช้แต่ละอย่างในลักษณนาม KNN และเปรียบเทียบความถูกต้องนอกตัวอย่างของแต่ละแบบจำลองที่ได้


2

ดูเหมือนว่าจะคล้ายกับแอปพลิเคชั่น Information Retrieval (IR) บางตัว ไม่กี่ปีที่ผ่านมาฉันได้เข้าร่วมพูดคุยเกี่ยวกับการจดจำการเดินที่คล้ายกับสิ่งที่คุณกำลังทำ ในการดึงข้อมูล "เอกสาร" (ในกรณีของคุณ: ข้อมูลมุมของบุคคล) ถูกเปรียบเทียบกับข้อความค้นหาบางอย่าง (ซึ่งในกรณีของคุณอาจเป็น "มีบุคคลที่มีข้อมูลมุม (.. , .. )") จากนั้นเอกสารจะแสดงรายการตามลำดับของเอกสารที่ตรงกับเอกสารที่ใกล้เคียงที่สุด ในทางกลับกันหมายความว่าองค์ประกอบกลางหนึ่งของ IR กำลังวางเอกสารในพื้นที่เวกเตอร์บางประเภท (ในกรณีของคุณ: พื้นที่มุม) และเปรียบเทียบกับแบบสอบถามหรือเอกสารตัวอย่างหนึ่งตัวอย่างหรือวัดระยะทาง (ดูด้านล่าง) หากคุณมีคำจำกัดความเสียงของระยะห่างระหว่างเวกเตอร์แต่ละตัว สิ่งที่คุณต้องทำคือการวัดระยะห่างของชุดข้อมูลสองชุด (ตามเนื้อผ้าใน IR ระยะทางในโมเดลอวกาศเวกเตอร์คำนวณโดยระยะทางโคไซน์หรือระยะทางแบบยุคลิด แต่ฉันจำไม่ได้ว่าพวกมันทำมันได้อย่างไรในกรณีนั้น) ใน IR ยังมีกลไกที่เรียกว่า ทำงานกับระยะทางของเอกสารสองชุด กลไกดังกล่าวโดยปกติจะใช้การวัดระยะทางซึ่งสรุประยะทางทั้งหมดของบุคคลทั้งหมดระหว่างเอกสารทุกคู่ (หรือในกรณีของคุณ: เวกเตอร์คน) บางทีนั่นอาจเป็นประโยชน์สำหรับคุณ

หน้าต่อไปนี้มีเอกสารบางส่วนที่ดูเหมือนเกี่ยวข้องกับปัญหาของคุณ: http://www.mpi-inf.mpg.de/~mmueller/index_publications.html โดยเฉพาะอย่างยิ่งหน้านี้http://www.mpi-inf.mpg.de/ ~ mmueller / สิ่งพิมพ์ / 2006_DemuthRoederMuellerEberhardt_MocapRetrievalSystem_ECIR.pdfดูน่าสนใจ การพูดคุยของMüllerที่ฉันเข้าร่วมกล่าวถึงมาตรการความคล้ายคลึงกันจาก Kovar และ Gleicher เรียกว่า "point cloud" (ดูhttp://portal.acm.org/citation.cfm?id=1186562.1015760&coll=DL&dl=ACM ) และหนึ่งเรียกว่า "quaternions" . หวังว่าจะช่วย


มันจะมีประโยชน์ที่จะมีการอ้างอิงถ้าคุณสามารถหาได้ ขอบคุณ
Josh

2

ปัญหานี้เรียกว่าการเรียนทางไกล การวัดระยะทางทุกครั้งสามารถแสดงเป็นโดยที่คือกึ่งบวกแน่นอน วิธีการภายใต้พื้นที่ย่อยนี้เรียนรู้ดีที่สุดสำหรับข้อมูลของคุณ ในความเป็นจริงถ้าดีที่สุดเกิดขึ้นกับเมทริกซ์เอกลักษณ์มันก็โอเคที่จะใช้ระยะทางแบบยุคลิด ถ้ามันเป็นความแปรปรวนแบบผกผันมันจะเป็นการดีที่สุดที่จะใช้ระยะทาง Mahalanobis และอื่น ๆ ดังนั้นต้องใช้วิธีการเรียนรู้การวัดระยะทางเพื่อเรียนรู้ดีที่สุดเพื่อเรียนรู้การวัดระยะทางที่เหมาะสม(xy)tA(xy)AAAA


0

ปัญหาอย่างหนึ่งของการใช้มุมเป็นพร็อกซีสำหรับรูปร่างคือการก่อกวนเล็ก ๆ ในมุมนั้นอาจนำไปสู่การก่อกวนขนาดใหญ่ในรูปร่าง นอกจากนี้การกำหนดค่ามุมที่แตกต่างกันอาจส่งผลให้มีรูปร่างเหมือนกัน (หรือคล้ายกัน)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.