อะไรคือความแตกต่างระหว่างการวิเคราะห์ความหมายแฝง (LSA), ดัชนีความหมายแฝง (LSI) และการสลายตัวของค่าเอกพจน์ (SVD)?


15

ข้อตกลงเหล่านี้มีอยู่มากมาย แต่ฉันอยากจะรู้ว่าคุณคิดว่าความแตกต่างคืออะไรถ้ามี

ขอบคุณ

คำตอบ:


12

ส่วนใหญ่ใช้ LSA และ LSI เหมือนกันกับชุมชนดึงข้อมูลมักจะอ้างถึงว่าเป็น LSI LSA / LSI ใช้ SVD เพื่อแยกเมทริกซ์เอกสารระยะ A ออกเป็นเมทริกซ์คำศัพท์ U, เมทริกซ์ค่าเอกพจน์ S และเมทริกซ์เอกสารแนวคิด V ในรูปแบบ: A = USV ' หน้าวิกิพีเดียมีรายละเอียดของการจัดทำดัชนีความหมายแฝง


8

โดยเฉพาะอย่างยิ่งในขณะที่ LSA และ LSI ใช้ SVD เพื่อทำเวทย์มนตร์ของพวกเขามีวิธีการคำนวณและแนวคิดที่ง่ายกว่าที่เรียกว่า HAL (Hyperspace Analogue to Language) ที่เลื่อนผ่านข้อความที่ติดตามก่อนและบริบทที่ตามมา เวกเตอร์จะถูกดึงออกมาจากเมทริกซ์ร่วมที่เกิดขึ้นเหล่านี้ (มักจะถ่วงน้ำหนัก) และมีการเลือกคำเฉพาะเพื่อทำดัชนีพื้นที่ความหมาย ในหลาย ๆ วิธีที่ฉันต้องเข้าใจว่ามันทำงานได้ดีเช่นเดียวกับ LSA โดยไม่ต้องใช้ขั้นตอนทางคณิตศาสตร์ / แนวคิดที่ซับซ้อนของ SVD ดูรายละเอียด Lund & Burgess, 1996


4
... สรุปงานก่อนโดย Finch and Chater (1992, 1994), Schütze (1993) และอื่น ๆ HAL, LSA และงานศิลปะอื่น ๆ ก่อนหน้านี้โดยการวัดความคล้ายคลึงกันของคำโดยการคำนวณความเหมือนบริบท (นี่คือความคล้ายคลึงกันของ 'ลำดับที่สอง' ของ Shephard: ความคล้ายคลึงกันของคำสั่งแรกคือเมื่อคำว่า a เกิดขึ้นใกล้คำ b; ความคล้ายคลึงกันของคำสั่งที่สองคือคำที่เกิดขึ้นใกล้กับคำประเภทเดียวกันกับคำ b
conjugateprior

3
การเปรียบเทียบและการตัดกัน: สำหรับ LSA บริบทเป็นเอกสารที่สมบูรณ์ สำหรับ HAL และอื่น ๆ มันเป็นหน้าต่างข้อความที่ล้อมรอบคำเป้าหมาย LSA วัดระยะทางในพื้นที่ย่อยเชิงเส้นที่แยกผ่าน SVD / PCA และข้อตกลงอื่น ๆ ที่มีระยะทางในพื้นที่ดั้งเดิมของการนับคำโดยรอบ
conjugateprior

6

NMF และ SVD เป็นอัลกอริทึมการแยกตัวประกอบแบบเมทริกซ์ วิกิพีเดียมีข้อมูลที่เกี่ยวข้องบางอย่างเกี่ยวกับ NMF

แผนกบริการและ PCA นั้นมีความเกี่ยวข้องอย่างใกล้ชิด สำหรับผู้เริ่มต้น PCA เป็นเพียงส่วนประกอบของความสัมพันธ์ SVD เป็นลักษณะทั่วไปของ eigendecomposition กับเมทริกซ์ที่ไม่ใช่สแควร์ ค่าเอกพจน์คือรากที่สองของค่าลักษณะเฉพาะของเมทริกซ์คูณด้วยการแปลงสภาพ (ทำให้เป็นสแควร์และคล้อยตาม eigendecomposition) นอกจากนี้หากเมทริกซ์เป็นปกติ ( ) ค่าเอกพจน์เป็นเพียงค่าสัมบูรณ์ของค่าลักษณะเฉพาะ ไม่ว่าในกรณีใดค่าเอกพจน์นั้นไม่เป็นลบและการสูญเสียเครื่องหมายของค่าลักษณะเฉพาะนั้นคือราคาที่คุณจ่ายสำหรับความสามารถในการทำงานกับเมทริกซ์ที่ไม่ใช่สแควร์A* * * *A=AA* * * *

ผู้เผชิญเหตุอื่น ๆ ได้ครอบคลุม LSI / LSA ...


มันควรเป็นเมทริกซ์ความแปรปรวนร่วมใช่ไหม ไม่ใช่เมทริกซ์สหสัมพันธ์
Rafael

ใช่เว้นแต่คุณจะวางตัวแปรไว้ที่ตำแหน่งแรก
Emre

หลังจากการทำให้เป็นมาตรฐานของตัวแปรมันจะกลายเป็นเมทริกซ์ความสัมพันธ์?
Rafael

การทำให้เป็นมาตรฐานอยู่ตรงกลางด้วยการปรับสเกล
Emre
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.