จากสิ่งที่ฉันได้เห็นสูตรการปรับให้เรียบของ Kneser-Ney (ลำดับที่สอง) ไม่ทางใดก็ทางหนึ่ง
กับ normalizing factorให้เป็น
และความน่าจะเป็นอย่างต่อเนื่องของคำ
ที่คือจำนวนของบริบทที่เห็นในหรือ simplier จำนวนคำที่แตกต่างกันที่นำหน้าคำที่กำหนดWจากสิ่งที่ฉันเข้าใจสามารถใช้สูตรซ้ำได้
ตอนนี้จะจัดการกับคำที่รู้จักในบริบทที่ไม่รู้จักอย่างชัดเจนสำหรับความยาว n-gram ที่แตกต่างกัน แต่สิ่งที่ไม่ได้อธิบายคือสิ่งที่ต้องทำเมื่อมีคำที่ไม่อยู่ในพจนานุกรม ฉันพยายามต่อไปตัวอย่างนี้ซึ่งระบุว่าในขั้นตอนการเรียกซ้ำสำหรับ unigrams, {V} เอกสารที่ใช้แล้วนี้ - quoting เฉินและสามี - จะปรับสูตรข้างต้นเป็น(w)
ฉันไม่เห็นวิธีการทำงานออกมาในการปรากฏตัวของคำที่ไม่รู้จักแม้ว่า ในกรณีเหล่านี้เนื่องจากเห็นได้ชัดว่าคำที่ไม่รู้จักไม่ได้ดำเนินการใด ๆ เกี่ยวกับชุดฝึกอบรม ในทำนองเดียวกันนับ n-กรัมจะเป็น0
นอกจากนี้ทั้งอาจจะเป็นศูนย์ถ้าเรียงลำดับของคำที่ไม่รู้จัก - พูดว่าเป็นคำตอบของ OOD -
ฉันกำลังคิดถึงอะไร