เมื่อใดจึงจะเลือก PCA กับ LSA / LSI


9

คำถาม:

มีแนวทางทั่วไปเกี่ยวกับคุณลักษณะของข้อมูลอินพุตที่สามารถใช้ในการตัดสินใจระหว่างการใช้ PCA กับ LSA / LSI หรือไม่

สรุปโดยย่อของ PCA กับ LSA / LSI:

การวิเคราะห์องค์ประกอบหลัก (PCA) และการวิเคราะห์ความหมายแฝง (LSA) หรือดัชนีความหมายแฝง (LSI) มีความคล้ายคลึงกันในแง่ที่ว่าพวกเขาทั้งหมดอาศัยพื้นฐานการประยุกต์ใช้การสลายตัวของค่าเอกฐาน (SVD) กับเมทริกซ์

LSA และ LSI เป็นเท่าที่ฉันสามารถบอกได้ในสิ่งเดียวกัน LSA แตกต่างจาก PCA ไม่ใช่พื้นฐาน แต่ในแง่ของวิธีการที่รายการเมทริกซ์จะถูกประมวลผลล่วงหน้าก่อนที่จะใช้ SVD

ใน LSA ขั้นตอนก่อนการประมวลผลโดยทั่วไปจะเกี่ยวข้องกับการทำให้เมทริกซ์การนับเป็นมาตรฐานที่คอลัมน์สอดคล้องกับ 'เอกสาร' และแถวสอดคล้องกับคำบางชนิด รายการอาจถูกคิดว่าเป็นการนับจำนวนการเกิดคำสำหรับเอกสาร

ใน PCA ขั้นตอนก่อนการประมวลผลเกี่ยวข้องกับการคำนวณเมทริกซ์ความแปรปรวนร่วมจากเมทริกซ์ดั้งเดิม เมทริกซ์ดั้งเดิมนั้นมีแนวคิด 'ทั่วไป' มากกว่าในกรณีของ LSA ในกรณีที่มีความกังวล PCA คอลัมน์มักจะพูดถึงการอ้างอิงตัวอย่างเวกเตอร์ทั่วไปและแถวจะกล่าวถึงตัวแปรแต่ละตัวที่ถูกวัด เมทริกซ์ความแปรปรวนร่วมนั้นเป็นไปตามนิยามสี่เหลี่ยมจัตุรัสและสมมาตรและในความเป็นจริงมันไม่จำเป็นที่จะใช้ SVD เพราะเมทริกซ์ความแปรปรวนร่วมนั้นสามารถย่อยสลายได้โดยการตัดทแยงมุม โดยเฉพาะอย่างยิ่งเมทริกซ์ PCA จะเกือบจะแน่นอนกว่าตัวแปร LSA / LSI - รายการศูนย์จะเกิดขึ้นเฉพาะที่ความแปรปรวนร่วมระหว่างกับตัวแปรเป็นศูนย์ซึ่งเป็นที่ที่ตัวแปรอิสระ

ในที่สุดอีกหนึ่งจุดอธิบายที่ทำค่อนข้างบ่อยครั้งเพื่อแยกความแตกต่างทั้งสองคือ

LSA พยายามหาพื้นที่ย่อยเชิงเส้นที่ดีที่สุดในมาตรฐาน Frobenius ในขณะที่ PCA มีจุดมุ่งหมายเพื่อพื้นที่ย่อยเชิงเส้นเลียนแบบที่ดีที่สุด

ไม่ว่าในกรณีใดความแตกต่างและความคล้ายคลึงกันของเทคนิคเหล่านี้ได้ถูกถกเถียงกันอย่างถึงพริกถึงขิงในฟอรัมต่างๆทั่วทั้ง Internets และเห็นได้ชัดว่ามีความแตกต่างที่เด่นชัดและเทคนิคทั้งสองนี้จะให้ผลลัพธ์ที่แตกต่างกัน

ดังนั้นฉันทำซ้ำคำถามของฉัน: มีแนวทางทั่วไปที่เกี่ยวกับลักษณะของข้อมูลที่นำเข้าซึ่งสามารถใช้ในการตัดสินใจระหว่างการใช้ PCA กับ LSA / LSI หรือไม่ หากฉันมีบางสิ่งที่คล้ายกับเมทริกซ์คำว่าเอกสาร LSA / LSI จะเป็นตัวเลือกที่ดีที่สุดเสมอหรือไม่ อาจคาดหวังว่าจะได้ผลลัพธ์ที่ดีขึ้นในบางกรณีโดยการเตรียมคำศัพท์ / doc matrix สำหรับ LSA / LSI แล้วใช้ PCA กับผลลัพธ์แทนการใช้ SVD โดยตรงหรือไม่


1
คำอธิบายของคุณเกี่ยวกับ LSA / LSI คล้ายกับฉันมากการวิเคราะห์การติดต่อ (CA) และฉันสงสัยว่าคำย่อการทำเหมืองข้อความ LSA ย่อมาจาก CA ในสถิติ CA และ PCA นั้นเกี่ยวข้องกันมาก
ttnphns

เฮ้แค่อยากรู้ว่าคุณเคยเจอคำตอบนี้ไหมฉันมีคำถามเดียวกันนี้แน่นอน
Pushpendre

คุณพยายามจะทำอะไร? นี่อาจให้ความคิดบางอย่างเกี่ยวกับสิ่งที่อาจใช้งานได้มากกว่า คุณสนใจที่จะหารูปแบบข้อความและความสัมพันธ์เชิงความหมายหรือพื้นที่ที่ซ่อนเร้นในมิติที่ต่ำกว่าทั้งในแง่ของเอกสารและคำศัพท์หรือไม่?
ui_90jax

คำตอบ:


2

ข้อแตกต่างประการหนึ่งที่ฉันสังเกตเห็นคือ PCA สามารถให้ความคล้ายคลึงกันกับคำศัพท์หรือเอกสารเอกสารเท่านั้น (ขึ้นอยู่กับว่าคุณคูณเมทริกซ์แกนประมวลผลหรือไม่ AA* * * * หรือ A* * * *A) แต่ SVD / LSA สามารถส่งได้ทั้งคู่เนื่องจากคุณมี eigenvector AA* * * * และ A* * * *A. จริงๆแล้วฉันไม่เห็นเหตุผลที่จะใช้ PCA มากกว่า SVD เลย

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.