คำถาม:
มีแนวทางทั่วไปเกี่ยวกับคุณลักษณะของข้อมูลอินพุตที่สามารถใช้ในการตัดสินใจระหว่างการใช้ PCA กับ LSA / LSI หรือไม่
สรุปโดยย่อของ PCA กับ LSA / LSI:
การวิเคราะห์องค์ประกอบหลัก (PCA) และการวิเคราะห์ความหมายแฝง (LSA) หรือดัชนีความหมายแฝง (LSI) มีความคล้ายคลึงกันในแง่ที่ว่าพวกเขาทั้งหมดอาศัยพื้นฐานการประยุกต์ใช้การสลายตัวของค่าเอกฐาน (SVD) กับเมทริกซ์
LSA และ LSI เป็นเท่าที่ฉันสามารถบอกได้ในสิ่งเดียวกัน LSA แตกต่างจาก PCA ไม่ใช่พื้นฐาน แต่ในแง่ของวิธีการที่รายการเมทริกซ์จะถูกประมวลผลล่วงหน้าก่อนที่จะใช้ SVD
ใน LSA ขั้นตอนก่อนการประมวลผลโดยทั่วไปจะเกี่ยวข้องกับการทำให้เมทริกซ์การนับเป็นมาตรฐานที่คอลัมน์สอดคล้องกับ 'เอกสาร' และแถวสอดคล้องกับคำบางชนิด รายการอาจถูกคิดว่าเป็นการนับจำนวนการเกิดคำสำหรับเอกสาร
ใน PCA ขั้นตอนก่อนการประมวลผลเกี่ยวข้องกับการคำนวณเมทริกซ์ความแปรปรวนร่วมจากเมทริกซ์ดั้งเดิม เมทริกซ์ดั้งเดิมนั้นมีแนวคิด 'ทั่วไป' มากกว่าในกรณีของ LSA ในกรณีที่มีความกังวล PCA คอลัมน์มักจะพูดถึงการอ้างอิงตัวอย่างเวกเตอร์ทั่วไปและแถวจะกล่าวถึงตัวแปรแต่ละตัวที่ถูกวัด เมทริกซ์ความแปรปรวนร่วมนั้นเป็นไปตามนิยามสี่เหลี่ยมจัตุรัสและสมมาตรและในความเป็นจริงมันไม่จำเป็นที่จะใช้ SVD เพราะเมทริกซ์ความแปรปรวนร่วมนั้นสามารถย่อยสลายได้โดยการตัดทแยงมุม โดยเฉพาะอย่างยิ่งเมทริกซ์ PCA จะเกือบจะแน่นอนกว่าตัวแปร LSA / LSI - รายการศูนย์จะเกิดขึ้นเฉพาะที่ความแปรปรวนร่วมระหว่างกับตัวแปรเป็นศูนย์ซึ่งเป็นที่ที่ตัวแปรอิสระ
ในที่สุดอีกหนึ่งจุดอธิบายที่ทำค่อนข้างบ่อยครั้งเพื่อแยกความแตกต่างทั้งสองคือ
LSA พยายามหาพื้นที่ย่อยเชิงเส้นที่ดีที่สุดในมาตรฐาน Frobenius ในขณะที่ PCA มีจุดมุ่งหมายเพื่อพื้นที่ย่อยเชิงเส้นเลียนแบบที่ดีที่สุด
ไม่ว่าในกรณีใดความแตกต่างและความคล้ายคลึงกันของเทคนิคเหล่านี้ได้ถูกถกเถียงกันอย่างถึงพริกถึงขิงในฟอรัมต่างๆทั่วทั้ง Internets และเห็นได้ชัดว่ามีความแตกต่างที่เด่นชัดและเทคนิคทั้งสองนี้จะให้ผลลัพธ์ที่แตกต่างกัน
ดังนั้นฉันทำซ้ำคำถามของฉัน: มีแนวทางทั่วไปที่เกี่ยวกับลักษณะของข้อมูลที่นำเข้าซึ่งสามารถใช้ในการตัดสินใจระหว่างการใช้ PCA กับ LSA / LSI หรือไม่ หากฉันมีบางสิ่งที่คล้ายกับเมทริกซ์คำว่าเอกสาร LSA / LSI จะเป็นตัวเลือกที่ดีที่สุดเสมอหรือไม่ อาจคาดหวังว่าจะได้ผลลัพธ์ที่ดีขึ้นในบางกรณีโดยการเตรียมคำศัพท์ / doc matrix สำหรับ LSA / LSI แล้วใช้ PCA กับผลลัพธ์แทนการใช้ SVD โดยตรงหรือไม่