LSA กับ PCA (การจัดกลุ่มเอกสาร)


25

ฉันกำลังตรวจสอบเทคนิคต่าง ๆ ที่ใช้ในการจัดกลุ่มเอกสารและฉันต้องการที่จะขจัดข้อสงสัยเกี่ยวกับ PCA (การวิเคราะห์องค์ประกอบหลัก) และ LSA (การวิเคราะห์ความหมายแฝง)

สิ่งแรก - อะไรคือความแตกต่างระหว่างพวกเขา? ฉันรู้ว่าใน PCA การสลายตัว SVD ถูกนำไปใช้กับเมทริกซ์ความแปรปรวนร่วมในขณะที่ LSA เป็นเมทริกซ์เอกสารระยะ มีอะไรอีกไหม?

สอง - บทบาทของพวกเขาในขั้นตอนการจัดกลุ่มเอกสารคืออะไร จากสิ่งที่ฉันได้อ่านจนถึงตอนนี้ฉันอนุมานได้ว่าจุดประสงค์ของพวกเขาคือการลดมิติการลดเสียงรบกวนและการรวมความสัมพันธ์ระหว่างคำต่างๆเข้าด้วยกัน หลังจากดำเนินการ PCA หรือ LSA อัลกอริธึมแบบดั้งเดิมเช่นวิธี k- หมายถึงหรือ agglomerative ถูกนำมาใช้ในพื้นที่ระยะลดลงและการวัดความคล้ายคลึงกันทั่วไปเช่นระยะทางโคไซน์ถูกนำมาใช้ โปรดแก้ไขฉันหากฉันผิด

ประการที่สาม - เป็นเรื่องสำคัญหรือไม่หากเวกเตอร์คำศัพท์ TF / IDF ถูกทำให้เป็นมาตรฐานก่อนใช้ PCA / LSA หรือไม่ และพวกเขาควรจะกลับสู่ภาวะปกติอีกครั้งหลังจากนั้น?

ข้อที่สี่ - สมมติว่าฉันได้ทำการจัดกลุ่มบางส่วนเกี่ยวกับพื้นที่คำที่ลดลงโดย LSA / PCA ตอนนี้ฉันจะกำหนดป้ายกำกับให้กับกลุ่มผลลัพธ์ได้อย่างไร เนื่องจากส่วนข้อมูลไม่ตรงกับคำที่แท้จริงจึงเป็นเรื่องยาก ความคิดเดียวที่อยู่ในใจของฉันคือการคำนวณเซนทรอยด์สำหรับแต่ละกลุ่มโดยใช้เวกเตอร์คำดั้งเดิมและการเลือกคำที่มีน้ำหนักสูงสุด แต่ก็ไม่มีประสิทธิภาพมากนัก มีวิธีแก้ไขปัญหาเฉพาะสำหรับปัญหานี้หรือไม่? ฉันหาอะไรไม่เจอ

ฉันจะขอบคุณมากสำหรับการชี้แจงปัญหาเหล่านี้


LSA หรือ LSI: เหมือนหรือต่างกัน หากคุณหมายถึง LSI = การจัดทำดัชนีความหมายแฝงโปรดแก้ไขและสร้างมาตรฐาน
Nick Cox

3
LSI และ LSA เป็นสองสิ่งที่แตกต่างกันหรือไม่? ฉันคิดว่าพวกเขาเทียบเท่า
user1315305

1
ฉันไม่รู้; ประเด็นคือ (โปรด) ใช้คำเดียวสำหรับสิ่งหนึ่งและไม่ใช่สองคำ มิฉะนั้นคำถามของคุณก็ยากที่จะเข้าใจ
Nick Cox

ตกลงฉันแก้ไขมัน alredy ขอบคุณสำหรับการชี้ให้เห็น :)
user1315305

3
Wikipediaให้ความประทับใจว่า LSA = LSI แต่ LSI เป็นการวิเคราะห์การติดต่อ (CA) CA เป็นศัพท์วิเคราะห์ทางสถิติเช่น PCA ในขณะที่ LSI / LSA เป็นศัพท์การทำเหมืองข้อความ ดังนั้นค้นหาบทความเปรียบเทียบ PCA และ CA
ttnphns

คำตอบ:


8
  1. PCA และ LSA เป็นการวิเคราะห์ที่ใช้ SVD PCA เป็นประเภทของการวิเคราะห์ทั่วไปและในหลักการสามารถนำไปใช้กับ corpora ข้อความที่ระบุในหลากหลายวิธี ในทางตรงกันข้าม LSA เป็นวิธีที่ระบุไว้อย่างชัดเจนในการวิเคราะห์และลดข้อความ ทั้งคู่ใช้ประโยชน์จากแนวคิดที่สามารถดึงความหมายจากบริบท ใน LSA บริบทมีให้ในตัวเลขผ่านเมทริกซ์เอกสารระยะ ใน PCA คุณเสนอบริบทให้เป็นตัวเลขผ่านการจัดเตรียมเมทริกซ์ความแปรปรวนร่วมระยะ (รายละเอียดของการสร้างซึ่งอาจบอกคุณได้มากขึ้นเกี่ยวกับความสัมพันธ์ระหว่าง PCA และ LSA ของคุณ) คุณอาจต้องการที่จะดูที่นี่สำหรับรายละเอียดเพิ่มเติม
  2. คุณกำลังติดตามที่นี่ เหตุผลที่แน่นอนที่ใช้จะขึ้นอยู่กับบริบทและเป้าหมายของผู้ที่เล่นกับข้อมูล
  3. คำตอบอาจขึ้นอยู่กับการใช้งานโพรซีเดอร์ที่คุณใช้
  4. อย่างระมัดระวังและมีศิลปะที่ยิ่งใหญ่ ส่วนใหญ่พิจารณาขนาดของโมเดลความหมายเหล่านี้ว่าไม่สามารถตีความได้ โปรดทราบว่าคุณเกือบจะคาดหวังว่าจะมีการอ้างอิงพื้นฐานมากกว่าหนึ่งมิติ เมื่อมีมากกว่าหนึ่งมิติในการวิเคราะห์ปัจจัยเราจะหมุนตัวแก้ปัญหาปัจจัยเพื่อให้ได้ปัจจัยที่คาดเดาได้ อย่างไรก็ตามด้วยเหตุผลบางอย่างสิ่งนี้ไม่ได้ทำโดยทั่วไปสำหรับรุ่นเหล่านี้ วิธีการของคุณฟังดูเหมือนเป็นวิธีการเริ่มต้นงานศิลปะของคุณ ... แม้ว่าฉันจะน้อยกว่าที่แน่นอนการปรับขนาดระหว่างมิตินั้นคล้ายกันมากพอที่จะเชื่อถือได้ในโซลูชันการวิเคราะห์คลัสเตอร์ หากคุณต้องการที่จะเล่นรอบกับความหมายคุณยังอาจพิจารณาวิธีการที่ง่ายในการที่เวกเตอร์มีความสัมพันธ์โดยตรงกับคำเฉพาะเช่นHAL

6

LSI ถูกคำนวณบนเมทริกซ์คำว่าเอกสารขณะที่ PCA คำนวณบนเมทริกซ์ความแปรปรวนร่วมซึ่งหมายความว่า LSI พยายามค้นหาสเปซย่อยเชิงเส้นที่ดีที่สุดเพื่ออธิบายชุดข้อมูลในขณะที่ PCA พยายามค้นหาสเปซเชิงเส้นตรงขนานที่ดีที่สุด


4
Nick คุณช่วยให้รายละเอียดเพิ่มเติมเกี่ยวกับความแตกต่างระหว่างสเปซเชิงเส้นตรงที่ดีที่สุดและสเปซเชิงเส้นตรงที่ดีที่สุดได้ไหม? สิ่งนี้เกี่ยวข้องกับความตั้งฉากหรือไม่? ฉันควรถามคำถามเหล่านี้เป็นคำถามใหม่หรือไม่?
russellpierce

1
ดีที่สุดในแง่ใด การลดบรรทัดฐาน Frobinius ของข้อผิดพลาดในการสร้างใหม่ลดลงหรือไม่ ในกรณีนั้นฟังดูเหมือน PCA กับฉัน
Andrew M

2

เพียงแค่การขยายไปสู่คำตอบของ russellpierce

1) LSA เป็นหลักคือ PCA นำไปใช้กับข้อมูลข้อความ เมื่อใช้ SVD สำหรับ PCA จะไม่ใช้กับเมทริกซ์ความแปรปรวนร่วม แต่เป็นเมทริกซ์ตัวอย่างคุณลักษณะโดยตรงซึ่งเป็นเพียงเมทริกซ์เอกสารระยะยาวใน LSA ความแตกต่างคือ PCA มักจะต้องการการทำให้เป็นมาตรฐานสำหรับข้อมูลในขณะที่ LSA ไม่ต้องการ

มีการบรรยายที่ดีโดย Andrew Ngที่แสดงให้เห็นถึงการเชื่อมต่อระหว่าง PCA และ LSA

2/3) เนื่องจากข้อมูลเอกสารมีความยาวหลายระดับจึงมักมีประโยชน์ในการทำให้ขนาดปกติเป็นปกติ นี่คือการทำให้เป็นมาตรฐานตัวอย่างที่ชาญฉลาดไม่ควรใช้การทำให้เป็นมาตรฐานของคุณลักษณะที่ชาญฉลาด ในทางปฏิบัติฉันพบว่ามีประโยชน์ในการทำให้เป็นมาตรฐานทั้งก่อนและหลัง LSI

ถ้าการจัดกลุ่มอัลกอริทึมการจัดกลุ่มไม่ได้ขึ้นอยู่กับขนาด (พูดระยะทางโคไซน์) ดังนั้นขั้นตอนการทำให้เป็นมาตรฐานสุดท้ายสามารถข้ามไปได้

4) มันคิดว่านี่เป็นปัญหาที่ยากมากที่จะได้รับฉลากที่มีความหมายจากกลุ่ม บางคนแยกคำ / วลีที่เพิ่มความแตกต่างในการกระจายระหว่างคลังข้อมูลและกลุ่ม อีกวิธีหนึ่งคือการใช้การจัดกลุ่มแบบกึ่งภายใต้การดูแลกับป้ายกำกับที่กำหนดไว้ล่วงหน้า

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.