อัตราส่วน Log-likelihood ในการสรุปเอกสาร

ตอนแรกฉันถามสิ่งนี้เกี่ยวกับการล้นสแต็กและถูกส่งต่อไปยังไซต์นี้ดังนั้นต่อไปนี้:

ฉันกำลังใช้วิธีการสรุปเอกสารตามเนื้อหาที่เลือกไม่ได้รับอนุญาตและคลายบีบอัดและฉันสับสนเกี่ยวกับสิ่งที่ตำราเรียนของฉันเรียกว่า หนังสือการพูดและการประมวลผลภาษาโดย Jurafsky & Martin อธิบายสั้น ๆ ดังนี้:

LLR สำหรับคำหนึ่งเรียกว่าแลมบ์ดา (w) เป็นอัตราส่วนระหว่างความน่าจะเป็นในการสังเกต w ทั้งอินพุตและพื้นหลังคลังข้อมูลสมมติว่ามีความน่าจะเป็นเท่ากันทั้งใน corpora และความน่าจะเป็นในการสังเกต w ในทั้งสอง w ในอินพุตและคลังข้อมูลพื้นหลัง

เมื่อสรุปลงมาแล้วเรามีตัวเศษ: "ความน่าจะเป็นในการสังเกต w ทั้งในอินพุทและในคอร์ปัสเบื้องหลังสมมติว่ามีความน่าจะเป็นเท่ากันทั้งใน corpora" - ฉันจะคำนวณความน่าจะเป็นที่จะใช้ที่นี่ได้อย่างไร

และตัวส่วน: "ความน่าจะเป็นของการสังเกต w ในทั้งคู่โดยสมมติความน่าจะเป็นที่แตกต่างกันสำหรับ w ในอินพุตและคลังข้อมูลพื้นหลัง" - นี่ง่ายเหมือนความน่าจะเป็นของคำที่เกิดขึ้นในอินพุทคูณกับความน่าจะเป็นของคำที่เกิดขึ้นในคลังข้อมูลหรือไม่? อดีต:

(นับ (คำ, อินพุต) / คำทั้งหมดในอินพุต) * (นับ (คำ, คลังข้อมูล) / คำทั้งหมดในคลัง)

ฉันได้ดูกระดาษเอกสารอ้างอิงของฉันวิธีการที่ถูกต้องสำหรับสถิติของความประหลาดใจและความบังเอิญ (Dunning 1993) แต่ฉันพบว่ามันยากที่จะเกี่ยวข้องกับปัญหาของการคำนวณค่า LLR สำหรับแต่ละคำในการสรุปโดยใช้การสรุป การชี้แจงใด ๆ ที่นี่จะได้รับการชื่นชมจริงๆ

natural-language text-summarization

— ริชาร์ด
แหล่งที่มา

คุณบอกเราได้ไหมว่าหนังสือเล่มนี้คืออะไร?

— onestop

การประมวลผลคำพูดและภาษาโดย Jurafsky & Martin

— Richard

ด้วยความรู้ที่ จำกัด ของฉันฉันคิดว่า:

"ความน่าจะเป็นของการสังเกต w ในอินพุต" ต้องการการแจกแจงเพื่อคำนวณค่า
"ความน่าจะเป็นในการสังเกต w ทั้งอินพุตและเบื้องหลังคลังข้อมูลสมมติว่ามีความเป็นไปได้ที่เท่าเทียมกันใน corpora ทั้งสอง" หมายถึง "โอกาสในการสังเกต w ... เนื่องจากความน่าจะเป็นของ w นั้นเท่ากับทั้ง corpora"

นี่คือสูตรของฉันมัน

กำหนดปัญหาเล็กน้อย:

สมมติฐานที่ 1: P (w ในอินพุต) = P (w ในพื้นหลัง) = p
สมมติฐาน 2: P (w ในอินพุต) = p1 และ P (w ในพื้นหลัง) = p2 และ p1 $\ne$ P2

ส่วนที่สำคัญคือคุณจะต้องมีการกระจายที่นี่ แบบง่ายเราถือว่าการแจกแจงแบบทวินามสำหรับสร้าง w ในข้อความ กำหนด sampledata เราสามารถใช้การประมาณค่าความน่าจะเป็นสูงสุดในการคำนวณค่าสำหรับ p, p1 และ p2 และนี่คือ:

p = (จำนวนของ -w-in-input + จำนวนของ -w-in-background) / (ขนาดอินพุต + ขนาดพื้นหลัง) = (c1 + c2) / (N1 + N2)
p1 = c1 / N1
p2 = c2 / N2

เราต้องการทราบว่าสมมติฐานใดที่มีโอกาสมากขึ้น ดังนั้นเราจึงคำนวณความน่าจะเป็นของสมมติฐานแต่ละข้อและเปรียบเทียบกัน (ซึ่งโดยพื้นฐานแล้วอัตราส่วนความน่าจะเป็น)

เนื่องจากเราถือว่าการกระจายตัวแบบทวินามเราสามารถคำนวณความน่าจะเป็นที่จะมี c1 และ c2

สำหรับสมมติฐาน 1:

L (c1) = ความน่าจะเป็นของการสังเกต w ในอินพุต = ความน่าจะเป็นของการบรรลุ c1 เมื่อมีคำ N1 สมมติว่ามีความเป็นไปได้ p (หรือกล่าวอีกนัยหนึ่งการเลือก w สำหรับ c1 คูณด้วย N1 ครั้ง) คือ b (N1, c1 , p) - โปรดดูสูตรความน่าจะเป็นทวินามที่นี่

L (c2) = ความน่าจะเป็นของการสังเกต w เป็นพื้นหลัง = ความน่าจะเป็นที่จะได้ c2 เมื่อมีคำ N2 สมมติว่าความน่าจะเป็น p คือ b (N2, c2, p)

สำหรับสมมติฐาน 2 เราสามารถใช้ p1 และ p2 แทน

ตอนนี้เราต้องการทราบว่าสมมติฐานใดที่มีโอกาสมากขึ้น เราจะต้องเปรียบเทียบวิธีการเปรียบเทียบมูลค่าส่งออกจากแต่ละสมมติฐาน

แต่สมมติฐานแต่ละข้อมี 2 ค่าคือ L (c1) และ L (c2) เราจะเปรียบเทียบสมมติฐานใดที่มีโอกาสมากขึ้น? --- เราเลือกที่จะคูณพวกมันเข้าด้วยกันเพื่อให้ได้ผลลัพธ์ที่มีค่าเดียว (เพราะมันคล้ายกับเรขาคณิตฉันเดา)

— ธานินทร์
แหล่งที่มา

ในรายการของคุณ p, p1 และ p2 เป็นค่าประมาณของ p, p1 และ p2 ใช่ไหม

— ซีอาน

ใช่ที่ถูกต้อง. การพูดเชิงสถิติเป็นค่าประมาณความน่าจะเป็นสูงสุดที่ได้จากข้อมูลตัวอย่างและการแจกแจงทวินาม

— ธานินทร์

ขอบคุณสำหรับการชี้ให้เห็น btw ฉันได้ปรับปรุงคำตอบ

— ธานินทร์