ตอนแรกฉันถามสิ่งนี้เกี่ยวกับการล้นสแต็กและถูกส่งต่อไปยังไซต์นี้ดังนั้นต่อไปนี้:
ฉันกำลังใช้วิธีการสรุปเอกสารตามเนื้อหาที่เลือกไม่ได้รับอนุญาตและคลายบีบอัดและฉันสับสนเกี่ยวกับสิ่งที่ตำราเรียนของฉันเรียกว่า หนังสือการพูดและการประมวลผลภาษาโดย Jurafsky & Martin อธิบายสั้น ๆ ดังนี้:
LLR สำหรับคำหนึ่งเรียกว่าแลมบ์ดา (w) เป็นอัตราส่วนระหว่างความน่าจะเป็นในการสังเกต w ทั้งอินพุตและพื้นหลังคลังข้อมูลสมมติว่ามีความน่าจะเป็นเท่ากันทั้งใน corpora และความน่าจะเป็นในการสังเกต w ในทั้งสอง w ในอินพุตและคลังข้อมูลพื้นหลัง
เมื่อสรุปลงมาแล้วเรามีตัวเศษ: "ความน่าจะเป็นในการสังเกต w ทั้งในอินพุทและในคอร์ปัสเบื้องหลังสมมติว่ามีความน่าจะเป็นเท่ากันทั้งใน corpora" - ฉันจะคำนวณความน่าจะเป็นที่จะใช้ที่นี่ได้อย่างไร
และตัวส่วน: "ความน่าจะเป็นของการสังเกต w ในทั้งคู่โดยสมมติความน่าจะเป็นที่แตกต่างกันสำหรับ w ในอินพุตและคลังข้อมูลพื้นหลัง" - นี่ง่ายเหมือนความน่าจะเป็นของคำที่เกิดขึ้นในอินพุทคูณกับความน่าจะเป็นของคำที่เกิดขึ้นในคลังข้อมูลหรือไม่? อดีต:
(นับ (คำ, อินพุต) / คำทั้งหมดในอินพุต) * (นับ (คำ, คลังข้อมูล) / คำทั้งหมดในคลัง)
ฉันได้ดูกระดาษเอกสารอ้างอิงของฉันวิธีการที่ถูกต้องสำหรับสถิติของความประหลาดใจและความบังเอิญ (Dunning 1993) แต่ฉันพบว่ามันยากที่จะเกี่ยวข้องกับปัญหาของการคำนวณค่า LLR สำหรับแต่ละคำในการสรุปโดยใช้การสรุป การชี้แจงใด ๆ ที่นี่จะได้รับการชื่นชมจริงๆ