ในเอกสารต้นฉบับของpLSAผู้เขียนโทมัสฮอฟแมนวาดเส้นขนานระหว่าง pLSA และ LSA โครงสร้างข้อมูลที่ฉันต้องการจะพูดคุยกับคุณ
พื้นหลัง:
การได้รับแรงบันดาลใจจากการค้นคืนสารสนเทศคาดว่าเรามีการรวบรวม เอกสาร
คลัง สามารถแสดงโดย เมทริกซ์ของการอยู่ร่วมกัน
ในการวิเคราะห์ความหมายแฝงโดยSVDเมทริกซ์ เป็นตัวประกอบในสามเมทริกซ์:
การประมาณ LSA ของ
ใน pLSA เลือกชุดหัวข้อคงที่ (ตัวแปรแฝง) การประมาณของ คำนวณเป็น:
คำถามจริง:
ผู้เขียนกล่าวว่าความสัมพันธ์เหล่านี้มีอยู่:
และความแตกต่างที่สำคัญระหว่าง LSA และ pLSA คือฟังก์ชันวัตถุประสงค์ที่ใช้เพื่อกำหนดการสลายตัว / การประมาณค่าที่เหมาะสมที่สุด
ฉันไม่แน่ใจว่าเขาพูดถูกเพราะฉันคิดว่าเมทริกซ์สองตัว represemt แนวคิดที่แตกต่าง: ใน LSA เป็นการประมาณจำนวนครั้งที่คำหนึ่งปรากฏในเอกสารและใน pLSA เป็นความน่าจะเป็น (โดยประมาณ) ที่คำนั้นปรากฏในเอกสาร
คุณช่วยฉันอธิบายประเด็นนี้ได้ไหม
ยิ่งกว่านั้นสมมุติว่าเราคำนวณทั้งสองโมเดลบนคลังข้อมูลแล้วให้เอกสารใหม่ ใน LSA ฉันใช้เพื่อคำนวณมันประมาณ:
- สิ่งนี้ถูกต้องเสมอหรือไม่
- เหตุใดฉันจึงไม่ได้รับผลลัพธ์ที่มีความหมายโดยใช้กระบวนการเดียวกันกับ pLSA
ขอบคุณ.