parellel ระหว่าง LSA และ pLSA


9

ในเอกสารต้นฉบับของpLSAผู้เขียนโทมัสฮอฟแมนวาดเส้นขนานระหว่าง pLSA และ LSA โครงสร้างข้อมูลที่ฉันต้องการจะพูดคุยกับคุณ

พื้นหลัง:

การได้รับแรงบันดาลใจจากการค้นคืนสารสนเทศคาดว่าเรามีการรวบรวม N เอกสาร

D={d1,d2,....,dN}
และคำศัพท์ของ M เงื่อนไข
Ω={ω1,ω2,...,ωM}

คลัง X สามารถแสดงโดย N×M เมทริกซ์ของการอยู่ร่วมกัน

ในการวิเคราะห์ความหมายแฝงโดยSVDเมทริกซ์X เป็นตัวประกอบในสามเมทริกซ์:

X=UΣVT
ที่ไหน Σ=diag{σ1,...,σs} และ σi เป็นค่าเอกพจน์ของ X และ s คืออันดับของ X.

การประมาณ LSA ของ X

X^=U^Σ^VT^
คำนวณจากการตัดทอนเมทริกซ์ทั้งสามเป็นบางระดับ k<sดังแสดงในภาพ:

ป้อนคำอธิบายรูปภาพที่นี่

ใน pLSA เลือกชุดหัวข้อคงที่ (ตัวแปรแฝง) Z={z1,z2,...,zZ} การประมาณของ X คำนวณเป็น:

X=[P(di|zk)]×[diag(P(zk)]×[P(fj|zk)]T
โดยที่เมทริกซ์สามตัวนั้นเป็นเมทริกซ์ที่เพิ่มความน่าจะเป็นของโมเดล

คำถามจริง:

ผู้เขียนกล่าวว่าความสัมพันธ์เหล่านี้มีอยู่:

  • U=[P(di|zk)]
  • Σ^=[diag(P(zk)]
  • V=[P(fj|zk)]

และความแตกต่างที่สำคัญระหว่าง LSA และ pLSA คือฟังก์ชันวัตถุประสงค์ที่ใช้เพื่อกำหนดการสลายตัว / การประมาณค่าที่เหมาะสมที่สุด

ฉันไม่แน่ใจว่าเขาพูดถูกเพราะฉันคิดว่าเมทริกซ์สองตัว X^ represemt แนวคิดที่แตกต่าง: ใน LSA เป็นการประมาณจำนวนครั้งที่คำหนึ่งปรากฏในเอกสารและใน pLSA เป็นความน่าจะเป็น (โดยประมาณ) ที่คำนั้นปรากฏในเอกสาร

คุณช่วยฉันอธิบายประเด็นนี้ได้ไหม

ยิ่งกว่านั้นสมมุติว่าเราคำนวณทั้งสองโมเดลบนคลังข้อมูลแล้วให้เอกสารใหม่ dใน LSA ฉันใช้เพื่อคำนวณมันประมาณ:

d^=d×V×VT
  1. สิ่งนี้ถูกต้องเสมอหรือไม่
  2. เหตุใดฉันจึงไม่ได้รับผลลัพธ์ที่มีความหมายโดยใช้กระบวนการเดียวกันกับ pLSA
    d^=d×[P(fj|zk)]×[P(fj|zk)]T

ขอบคุณ.

คำตอบ:


12

เพื่อความเรียบง่ายฉันให้การเชื่อมต่อระหว่าง LSA กับการแยกตัวประกอบเมทริกซ์ที่ไม่เป็นลบ (NMF) จากนั้นแสดงให้เห็นว่าการแก้ไขอย่างง่ายของฟังก์ชันต้นทุนนำไปสู่ ​​pLSA ได้อย่างไร ตามที่ระบุไว้ก่อนหน้านี้ LSA และ pLSA เป็นวิธีการแยกตัวประกอบในแง่ที่ว่าการทำให้การย่อยสลายแถวลำดับต่ำสุดของเมทริกซ์ศัพท์เอกสารเป็นไปตามมาตรฐาน

X=UΣD

ใช้สัญลักษณ์ก่อนหน้า นอกจากนี้เทอมเมทริกซ์เอกสารสามารถเขียนได้เป็นผลคูณของเมทริกซ์สองตัว:

X=ABT

ที่ไหน AN×s และ BM×s. สำหรับ LSA การติดต่อกับสูตรก่อนหน้านั้นได้มาจากการตั้งค่า A=UΣ และ B=VΣ.

วิธีง่ายๆในการเข้าใจความแตกต่างระหว่าง LSA และ NMF คือการใช้การตีความทางเรขาคณิตของพวกเขา:

  • LSA เป็นวิธีการแก้ปัญหาของ:

    minA,BXABTF2,
  • NMF-L2 คือทางออกของ:

    minA0,B0XABTF2,
  • NMF-KL เทียบเท่ากับ pLSA และเป็นทางออกของ:

    minA0,B0KL(X||ABT).

ที่ไหน KL(X||Y)=ijxijlogxijyijคือKullback-Leibler divergence ระหว่างเมทริกซ์X และ Y. มันง่ายที่จะเห็นว่าปัญหาทั้งหมดข้างต้นไม่มีวิธีแก้ปัญหาที่ไม่เหมือนใครเนื่องจากสามารถคูณได้A ด้วยจำนวนบวกและหาร Bด้วยหมายเลขเดียวกันเพื่อให้ได้ค่าวัตถุประสงค์เดียวกัน ดังนั้น - ในกรณีของ LSA ผู้คนมักจะเลือกพื้นฐานมุมฉากเรียงตามค่า eigenvalues ​​ที่ลดลง สิ่งนี้ได้มาจากการสลายตัวของ SVD และระบุวิธีการแก้ปัญหา LSA แต่ตัวเลือกอื่น ๆ อาจเป็นไปได้เนื่องจากไม่มีผลกระทบต่อการดำเนินการส่วนใหญ่ (ความเหมือนโคไซน์ - ในกรณีของ NMF จะไม่สามารถสลายตัวแบบ orthogonal ได้ แต่เป็นแถวของA มักถูก จำกัด ให้รวมเป็นหนึ่งเดียวเนื่องจากมีการตีความความน่าจะเป็นโดยตรงเช่น p(zk|di). หากนอกจากนี้แถวของX ถูกทำให้เป็นมาตรฐาน (เช่นผลรวมของหนึ่ง) จากนั้นแถวของ B ต้องรวมเป็นหนึ่งนำไปสู่การตีความน่าจะเป็น p(fj|zk). มีความแตกต่างเล็กน้อยกับรุ่นของ pLSA ที่กำหนดในคำถามข้างต้นเนื่องจากคอลัมน์ของA ถูก จำกัด ให้รวมเป็นหนึ่งดังนั้นค่าใน A เป็น p(di|zk)แต่ความแตกต่างเป็นเพียงการเปลี่ยนแปลงของปัญหาที่เกิดขึ้นยังคงเหมือนเดิม

ตอนนี้เพื่อตอบคำถามเริ่มต้นมีบางสิ่งบางอย่างที่ลึกซึ้งในความแตกต่างระหว่าง LSA และ pLSA (และอัลกอริทึม NMF อื่น ๆ ): ข้อ จำกัด ที่ไม่ใช่การปฏิเสธทำให้เกิด "การจัดกลุ่มผล" ซึ่งไม่ถูกต้องในกรณี LSA แบบคลาสสิก โซลูชันการสลายตัวคือค่าคงที่แบบหมุนได้ ข้อ จำกัด ที่ไม่ใช่การปฏิเสธอย่างใดทำลายการแปรปรวนการหมุนนี้และให้ปัจจัยที่มีความหมายบางประเภท (หัวข้อในการวิเคราะห์ข้อความ) กระดาษแผ่นแรกที่อธิบายได้คือ:

Donoho, David L. และ Victoria C. Stodden "การแยกตัวประกอบเมทริกซ์ที่ไม่เป็นลบเมื่อใดจะให้การสลายตัวที่ถูกต้องออกเป็นส่วน ๆ " ความก้าวหน้าในระบบประมวลผลข้อมูลประสาทที่ 16: การดำเนินการของการประชุม 2003 กด MIT, 2004. [ลิงค์]

มิฉะนั้นความสัมพันธ์ระหว่าง PLSA และ NMF อธิบายไว้ที่นี่:

Ding, Chris, Tao Li และ Wei Peng "ความเท่าเทียมกันระหว่างการแยกตัวประกอบเมทริกซ์ที่ไม่เป็นลบและการจัดทำดัชนีความหมายแฝงน่าจะเป็น" สถิติการคำนวณและการวิเคราะห์ข้อมูล 52.8 (2008): 3913-3927 [ลิงค์]

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.