parellel ระหว่าง LSA และ pLSA

ในเอกสารต้นฉบับของpLSAผู้เขียนโทมัสฮอฟแมนวาดเส้นขนานระหว่าง pLSA และ LSA โครงสร้างข้อมูลที่ฉันต้องการจะพูดคุยกับคุณ

พื้นหลัง:

การได้รับแรงบันดาลใจจากการค้นคืนสารสนเทศคาดว่าเรามีการรวบรวม $N$ เอกสาร

D = {d_{1}, d_{2}, . . . ., d_{N}}

$D = \lbrace d_1, d_2, ...., d_N \rbrace$ และคำศัพท์ของ

M

$M$ เงื่อนไข

Ω = {ω_{1}, ω_{2}, . . ., ω_{M}}

$\Omega = \lbrace \omega_1, \omega_2, ..., \omega_M \rbrace$

คลัง $X$ สามารถแสดงโดย $N \times M$ เมทริกซ์ของการอยู่ร่วมกัน

ในการวิเคราะห์ความหมายแฝงโดยSVDเมทริกซ์ $X$ เป็นตัวประกอบในสามเมทริกซ์:

X = U Σ V^{T}

$X = U \Sigma V^T$ ที่ไหน

Σ = d i a g {σ_{1}, . . ., σ_{s}}

$\Sigma = diag \lbrace \sigma_1, ..., \sigma_s \rbrace$ และ

σ_{i}

$\sigma_i$ เป็นค่าเอกพจน์ของ

X

$X$ และ

s

$s$ คืออันดับของ

X

$X$ .

การประมาณ LSA ของ $X$

\hat{X} = \hat{U} \hat{Σ} \hat{V^{T}}

$\hat{X} = \hat{U}\hat{\Sigma}\hat{V^T}$ คำนวณจากการตัดทอนเมทริกซ์ทั้งสามเป็นบางระดับ

k < s

$k < s$ ดังแสดงในภาพ:

ป้อนคำอธิบายรูปภาพที่นี่

ใน pLSA เลือกชุดหัวข้อคงที่ (ตัวแปรแฝง) $Z = \lbrace z_1, z_2, ..., z_Z \rbrace$ การประมาณของ $X$ คำนวณเป็น:

X = [P (d_{i} | z_{k})] \times [d i a g (P (z_{k})] \times [P (f_{j} | z_{k})]^{T}

$X = [P(d_i | z_k)] \times [diag(P(z_k)] \times [P(f_j|z_k)]^T$ โดยที่เมทริกซ์สามตัวนั้นเป็นเมทริกซ์ที่เพิ่มความน่าจะเป็นของโมเดล

คำถามจริง:

ผู้เขียนกล่าวว่าความสัมพันธ์เหล่านี้มีอยู่:

$U = [P(d_i | z_k)]$
$\hat{\Sigma} = [diag(P(z_k)]$
$V = [P(f_j|z_k)]$

และความแตกต่างที่สำคัญระหว่าง LSA และ pLSA คือฟังก์ชันวัตถุประสงค์ที่ใช้เพื่อกำหนดการสลายตัว / การประมาณค่าที่เหมาะสมที่สุด

ฉันไม่แน่ใจว่าเขาพูดถูกเพราะฉันคิดว่าเมทริกซ์สองตัว $\hat{X}$ represemt แนวคิดที่แตกต่าง: ใน LSA เป็นการประมาณจำนวนครั้งที่คำหนึ่งปรากฏในเอกสารและใน pLSA เป็นความน่าจะเป็น (โดยประมาณ) ที่คำนั้นปรากฏในเอกสาร

คุณช่วยฉันอธิบายประเด็นนี้ได้ไหม

ยิ่งกว่านั้นสมมุติว่าเราคำนวณทั้งสองโมเดลบนคลังข้อมูลแล้วให้เอกสารใหม่ $d^*$ ใน LSA ฉันใช้เพื่อคำนวณมันประมาณ:

\hat{d^{*}} = d^{*} \times V \times V^{T}

$\hat{d^*} = d^*\times V \times V^T$

สิ่งนี้ถูกต้องเสมอหรือไม่
เหตุใดฉันจึงไม่ได้รับผลลัพธ์ที่มีความหมายโดยใช้กระบวนการเดียวกันกับ pLSA $\hat{d^{*}} = d^{*} \times [P (f_{j} | z_{k})] \times [P (f_{j} | z_{k})]^{T}$ $\hat{d^*} = d^*\times [P(f_j|z_k)] \times [P(f_j|z_k)]^T$

ขอบคุณ.

— Aslan986
แหล่งที่มา

เพื่อความเรียบง่ายฉันให้การเชื่อมต่อระหว่าง LSA กับการแยกตัวประกอบเมทริกซ์ที่ไม่เป็นลบ (NMF) จากนั้นแสดงให้เห็นว่าการแก้ไขอย่างง่ายของฟังก์ชันต้นทุนนำไปสู่ pLSA ได้อย่างไร ตามที่ระบุไว้ก่อนหน้านี้ LSA และ pLSA เป็นวิธีการแยกตัวประกอบในแง่ที่ว่าการทำให้การย่อยสลายแถวลำดับต่ำสุดของเมทริกซ์ศัพท์เอกสารเป็นไปตามมาตรฐาน

X = U Σ D

$X=U\Sigma D$

ใช้สัญลักษณ์ก่อนหน้า นอกจากนี้เทอมเมทริกซ์เอกสารสามารถเขียนได้เป็นผลคูณของเมทริกซ์สองตัว:

X = A B^{T}

$X = AB^T$

ที่ไหน $A\in\Re^{N\times s}$ และ $B\in\Re^{M\times s}$ . สำหรับ LSA การติดต่อกับสูตรก่อนหน้านั้นได้มาจากการตั้งค่า $A=U \sqrt{\Sigma}$ และ $B=V\sqrt{\Sigma}$ .

วิธีง่ายๆในการเข้าใจความแตกต่างระหว่าง LSA และ NMF คือการใช้การตีความทางเรขาคณิตของพวกเขา:

LSA เป็นวิธีการแก้ปัญหาของ:
$min_{A, B} ‖ X - A B^{T} ‖_{F}^{2},$ $\min_{A,B} \|X - AB^T \|_F^2,$
NMF- $L_2$ คือทางออกของ:
$min_{A \geq 0, B \geq 0} ‖ X - A B^{T} ‖_{F}^{2},$ $\min_{A\ge 0,B\ge 0} \|X - AB^T \|_F^2,$
NMF-KL เทียบเท่ากับ pLSA และเป็นทางออกของ:
$min_{A \geq 0, B \geq 0} K L (X | | A B^{T}) .$ $\min_{A\ge 0,B\ge 0} KL(X|| AB^T).$

ที่ไหน $KL(X||Y) = \sum_{ij} x_{ij}\log{\frac{x_{ij}}{y_{ij}}}$ คือKullback-Leibler divergence ระหว่างเมทริกซ์ $X$ และ $Y$ . มันง่ายที่จะเห็นว่าปัญหาทั้งหมดข้างต้นไม่มีวิธีแก้ปัญหาที่ไม่เหมือนใครเนื่องจากสามารถคูณได้ $A$ ด้วยจำนวนบวกและหาร $B$ ด้วยหมายเลขเดียวกันเพื่อให้ได้ค่าวัตถุประสงค์เดียวกัน ดังนั้น - ในกรณีของ LSA ผู้คนมักจะเลือกพื้นฐานมุมฉากเรียงตามค่า eigenvalues ที่ลดลง สิ่งนี้ได้มาจากการสลายตัวของ SVD และระบุวิธีการแก้ปัญหา LSA แต่ตัวเลือกอื่น ๆ อาจเป็นไปได้เนื่องจากไม่มีผลกระทบต่อการดำเนินการส่วนใหญ่ (ความเหมือนโคไซน์ - ในกรณีของ NMF จะไม่สามารถสลายตัวแบบ orthogonal ได้ แต่เป็นแถวของ $A$ มักถูก จำกัด ให้รวมเป็นหนึ่งเดียวเนื่องจากมีการตีความความน่าจะเป็นโดยตรงเช่น $p(z_k|d_i)$ . หากนอกจากนี้แถวของ $X$ ถูกทำให้เป็นมาตรฐาน (เช่นผลรวมของหนึ่ง) จากนั้นแถวของ $B$ ต้องรวมเป็นหนึ่งนำไปสู่การตีความน่าจะเป็น $p(f_j|z_k)$ . มีความแตกต่างเล็กน้อยกับรุ่นของ pLSA ที่กำหนดในคำถามข้างต้นเนื่องจากคอลัมน์ของ $A$ ถูก จำกัด ให้รวมเป็นหนึ่งดังนั้นค่าใน $A$ เป็น $p(d_i|z_k)$ แต่ความแตกต่างเป็นเพียงการเปลี่ยนแปลงของปัญหาที่เกิดขึ้นยังคงเหมือนเดิม

ตอนนี้เพื่อตอบคำถามเริ่มต้นมีบางสิ่งบางอย่างที่ลึกซึ้งในความแตกต่างระหว่าง LSA และ pLSA (และอัลกอริทึม NMF อื่น ๆ ): ข้อ จำกัด ที่ไม่ใช่การปฏิเสธทำให้เกิด "การจัดกลุ่มผล" ซึ่งไม่ถูกต้องในกรณี LSA แบบคลาสสิก โซลูชันการสลายตัวคือค่าคงที่แบบหมุนได้ ข้อ จำกัด ที่ไม่ใช่การปฏิเสธอย่างใดทำลายการแปรปรวนการหมุนนี้และให้ปัจจัยที่มีความหมายบางประเภท (หัวข้อในการวิเคราะห์ข้อความ) กระดาษแผ่นแรกที่อธิบายได้คือ:

Donoho, David L. และ Victoria C. Stodden "การแยกตัวประกอบเมทริกซ์ที่ไม่เป็นลบเมื่อใดจะให้การสลายตัวที่ถูกต้องออกเป็นส่วน ๆ " ความก้าวหน้าในระบบประมวลผลข้อมูลประสาทที่ 16: การดำเนินการของการประชุม 2003 กด MIT, 2004. [ลิงค์]

มิฉะนั้นความสัมพันธ์ระหว่าง PLSA และ NMF อธิบายไว้ที่นี่:

Ding, Chris, Tao Li และ Wei Peng "ความเท่าเทียมกันระหว่างการแยกตัวประกอบเมทริกซ์ที่ไม่เป็นลบและการจัดทำดัชนีความหมายแฝงน่าจะเป็น" สถิติการคำนวณและการวิเคราะห์ข้อมูล 52.8 (2008): 3913-3927 [ลิงค์]

— กีโยม
แหล่งที่มา