คำถามติดแท็ก text-summarization

1
อัตราส่วน Log-likelihood ในการสรุปเอกสาร
ตอนแรกฉันถามสิ่งนี้เกี่ยวกับการล้นสแต็กและถูกส่งต่อไปยังไซต์นี้ดังนั้นต่อไปนี้: ฉันกำลังใช้วิธีการสรุปเอกสารตามเนื้อหาที่เลือกไม่ได้รับอนุญาตและคลายบีบอัดและฉันสับสนเกี่ยวกับสิ่งที่ตำราเรียนของฉันเรียกว่า หนังสือการพูดและการประมวลผลภาษาโดย Jurafsky & Martin อธิบายสั้น ๆ ดังนี้: LLR สำหรับคำหนึ่งเรียกว่าแลมบ์ดา (w) เป็นอัตราส่วนระหว่างความน่าจะเป็นในการสังเกต w ทั้งอินพุตและพื้นหลังคลังข้อมูลสมมติว่ามีความน่าจะเป็นเท่ากันทั้งใน corpora และความน่าจะเป็นในการสังเกต w ในทั้งสอง w ในอินพุตและคลังข้อมูลพื้นหลัง เมื่อสรุปลงมาแล้วเรามีตัวเศษ: "ความน่าจะเป็นในการสังเกต w ทั้งในอินพุทและในคอร์ปัสเบื้องหลังสมมติว่ามีความน่าจะเป็นเท่ากันทั้งใน corpora" - ฉันจะคำนวณความน่าจะเป็นที่จะใช้ที่นี่ได้อย่างไร และตัวส่วน: "ความน่าจะเป็นของการสังเกต w ในทั้งคู่โดยสมมติความน่าจะเป็นที่แตกต่างกันสำหรับ w ในอินพุตและคลังข้อมูลพื้นหลัง" - นี่ง่ายเหมือนความน่าจะเป็นของคำที่เกิดขึ้นในอินพุทคูณกับความน่าจะเป็นของคำที่เกิดขึ้นในคลังข้อมูลหรือไม่? อดีต: (นับ (คำ, อินพุต) / คำทั้งหมดในอินพุต) * (นับ (คำ, คลังข้อมูล) / คำทั้งหมดในคลัง) ฉันได้ดูกระดาษเอกสารอ้างอิงของฉันวิธีการที่ถูกต้องสำหรับสถิติของความประหลาดใจและความบังเอิญ (Dunning …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.