สถิติและข้อมูลขนาดใหญ่ lsa

3

ฉันกำลังตรวจสอบเทคนิคต่าง ๆ ที่ใช้ในการจัดกลุ่มเอกสารและฉันต้องการที่จะขจัดข้อสงสัยเกี่ยวกับ PCA (การวิเคราะห์องค์ประกอบหลัก) และ LSA (การวิเคราะห์ความหมายแฝง) สิ่งแรก - อะไรคือความแตกต่างระหว่างพวกเขา? ฉันรู้ว่าใน PCA การสลายตัว SVD ถูกนำไปใช้กับเมทริกซ์ความแปรปรวนร่วมในขณะที่ LSA เป็นเมทริกซ์เอกสารระยะ มีอะไรอีกไหม? สอง - บทบาทของพวกเขาในขั้นตอนการจัดกลุ่มเอกสารคืออะไร จากสิ่งที่ฉันได้อ่านจนถึงตอนนี้ฉันอนุมานได้ว่าจุดประสงค์ของพวกเขาคือการลดมิติการลดเสียงรบกวนและการรวมความสัมพันธ์ระหว่างคำต่างๆเข้าด้วยกัน หลังจากดำเนินการ PCA หรือ LSA อัลกอริธึมแบบดั้งเดิมเช่นวิธี k- หมายถึงหรือ agglomerative ถูกนำมาใช้ในพื้นที่ระยะลดลงและการวัดความคล้ายคลึงกันทั่วไปเช่นระยะทางโคไซน์ถูกนำมาใช้ โปรดแก้ไขฉันหากฉันผิด ประการที่สาม - เป็นเรื่องสำคัญหรือไม่หากเวกเตอร์คำศัพท์ TF / IDF ถูกทำให้เป็นมาตรฐานก่อนใช้ PCA / LSA หรือไม่ และพวกเขาควรจะกลับสู่ภาวะปกติอีกครั้งหลังจากนั้น? ข้อที่สี่ - สมมติว่าฉันได้ทำการจัดกลุ่มบางส่วนเกี่ยวกับพื้นที่คำที่ลดลงโดย LSA / …

25 clustering pca data-mining svd lsa

4

ทางเลือกที่รวดเร็วสำหรับอัลกอริทึม EM

มีทางเลือกอื่น ๆ สำหรับอัลกอริทึม EM สำหรับการเรียนรู้รูปแบบที่มีตัวแปรแฝง (โดยเฉพาะ pLSA) หรือไม่? ฉันโอเคกับการเสียสละความแม่นยำเพื่อความเร็ว

13 machine-learning optimization expectation-maximization lsa

3

K- หมายถึงความคล้ายคลึงโคไซน์กับระยะทางแบบยุคลิด (LSA)

ฉันใช้การวิเคราะห์ความหมายแฝงเพื่อแสดงคลังข้อมูลของเอกสารในพื้นที่มิติต่ำกว่า ฉันต้องการจัดกลุ่มเอกสารเหล่านี้เป็นสองกลุ่มโดยใช้วิธี k หลายปีที่ผ่านมาฉันทำสิ่งนี้โดยใช้ gensim ของ Python และเขียนอัลกอริทึม k-mean ของฉันเอง ฉันกำหนดเซนทรอยด์ของคลัสเตอร์โดยใช้ระยะทางแบบยุคลิด แต่ก็ทำการจัดกลุ่มเอกสารตามความคล้ายคลึงกันของโคไซน์กับเซนทรอยด์ ดูเหมือนว่าจะทำงานได้ค่อนข้างดี ตอนนี้ฉันกำลังพยายามทำสิ่งนี้กับคลังเอกสารขนาดใหญ่กว่ามาก K-หมายถึงไม่ได้มาบรรจบกันและฉันสงสัยว่ามันเป็นข้อบกพร่องในรหัสของฉัน ฉันอ่านเมื่อเร็ว ๆ นี้ว่าคุณไม่ควรจัดกลุ่มโดยใช้ความเหมือนโคไซน์เพราะ k-mean ใช้งานได้กับระยะทางแบบยุคลิดเท่านั้น แม้ว่าตามที่ฉันได้กล่าวมาดูเหมือนว่าจะทำงานได้ดีในกรณีทดสอบขนาดเล็กของฉัน ตอนนี้ฉันเจอสิ่งนี้ในหน้าLSA Wikipedia : เอกสารและคำแทนเวกเตอร์สามารถจัดกลุ่มได้โดยใช้อัลกอริทึมการจัดกลุ่มแบบดั้งเดิมเช่น k- หมายถึงโดยใช้มาตรการความคล้ายคลึงกันเช่นโคไซน์ แล้วมันคืออะไร? ฉันสามารถใช้โคไซน์คล้ายคลึงกันได้หรือไม่?

10 k-means svd lsa cosine-distance cosine-similarity

1

parellel ระหว่าง LSA และ pLSA

ในเอกสารต้นฉบับของpLSAผู้เขียนโทมัสฮอฟแมนวาดเส้นขนานระหว่าง pLSA และ LSA โครงสร้างข้อมูลที่ฉันต้องการจะพูดคุยกับคุณ พื้นหลัง: การได้รับแรงบันดาลใจจากการค้นคืนสารสนเทศคาดว่าเรามีการรวบรวม NNN เอกสาร D={d1,d2,....,dN}D={d1,d2,....,dN}D = \lbrace d_1, d_2, ...., d_N \rbrace และคำศัพท์ของ MMM เงื่อนไข Ω={ω1,ω2,...,ωM}Ω={ω1,ω2,...,ωM}\Omega = \lbrace \omega_1, \omega_2, ..., \omega_M \rbrace คลัง XXX สามารถแสดงโดย N×MN×MN \times M เมทริกซ์ของการอยู่ร่วมกัน ในการวิเคราะห์ความหมายแฝงโดยSVDเมทริกซ์XXX เป็นตัวประกอบในสามเมทริกซ์: X=UΣVTX=UΣVTX = U \Sigma V^T ที่ไหน Σ=diag{σ1,...,σs}Σ=diag{σ1,...,σs}\Sigma = diag \lbrace \sigma_1, ..., \sigma_s …

9 machine-learning conditional-probability svd information-retrieval lsa

1

เมื่อใดจึงจะเลือก PCA กับ LSA / LSI

คำถาม: มีแนวทางทั่วไปเกี่ยวกับคุณลักษณะของข้อมูลอินพุตที่สามารถใช้ในการตัดสินใจระหว่างการใช้ PCA กับ LSA / LSI หรือไม่ สรุปโดยย่อของ PCA กับ LSA / LSI: การวิเคราะห์องค์ประกอบหลัก (PCA) และการวิเคราะห์ความหมายแฝง (LSA) หรือดัชนีความหมายแฝง (LSI) มีความคล้ายคลึงกันในแง่ที่ว่าพวกเขาทั้งหมดอาศัยพื้นฐานการประยุกต์ใช้การสลายตัวของค่าเอกฐาน (SVD) กับเมทริกซ์ LSA และ LSI เป็นเท่าที่ฉันสามารถบอกได้ในสิ่งเดียวกัน LSA แตกต่างจาก PCA ไม่ใช่พื้นฐาน แต่ในแง่ของวิธีการที่รายการเมทริกซ์จะถูกประมวลผลล่วงหน้าก่อนที่จะใช้ SVD ใน LSA ขั้นตอนก่อนการประมวลผลโดยทั่วไปจะเกี่ยวข้องกับการทำให้เมทริกซ์การนับเป็นมาตรฐานที่คอลัมน์สอดคล้องกับ 'เอกสาร' และแถวสอดคล้องกับคำบางชนิด รายการอาจถูกคิดว่าเป็นการนับจำนวนการเกิดคำสำหรับเอกสาร ใน PCA ขั้นตอนก่อนการประมวลผลเกี่ยวข้องกับการคำนวณเมทริกซ์ความแปรปรวนร่วมจากเมทริกซ์ดั้งเดิม เมทริกซ์ดั้งเดิมนั้นมีแนวคิด 'ทั่วไป' มากกว่าในกรณีของ LSA ในกรณีที่มีความกังวล PCA คอลัมน์มักจะพูดถึงการอ้างอิงตัวอย่างเวกเตอร์ทั่วไปและแถวจะกล่าวถึงตัวแปรแต่ละตัวที่ถูกวัด เมทริกซ์ความแปรปรวนร่วมนั้นเป็นไปตามนิยามสี่เหลี่ยมจัตุรัสและสมมาตรและในความเป็นจริงมันไม่จำเป็นที่จะใช้ …

9 machine-learning pca lsa

คำถามติดแท็ก lsa