ในการปรับให้เรียบของ Kneser-Ney มีการจัดการคำที่มองไม่เห็นอย่างไร

15

จากสิ่งที่ฉันได้เห็นสูตรการปรับให้เรียบของ Kneser-Ney (ลำดับที่สอง) ไม่ทางใดก็ทางหนึ่ง

$\begin{align} P^2_{KN}(w_n|w_{n-1}) &= \frac{\max \left\{ C\left(w_{n-1}, w_n\right) - D, 0\right\}}{\sum_{w'} C\left(w_{n-1}, w'\right)} + \lambda(w_{n-1}) \times P_{cont}(w_n) \end{align}$

กับ normalizing factorให้เป็น $\lambda(w_{n-1})$

$\begin{align} \lambda(w_{n-1}) &= \frac{D}{\sum_{w'} C\left(w_{n-1}, w'\right)} \times N_{1+}\left(w_{n-1}\bullet\right) \end{align}$

และความน่าจะเป็นอย่างต่อเนื่อง $P_{cont}(w_n)$ ของคำ $w_n$

$\begin{align} P_{cont}(w_n) &= \frac{N_{1+}\left(\bullet w_{n}\right)}{\sum_{w'} N_{1+}\left(\bullet w'\right)} \end{align}$

ที่ $N_{1+}\left(\bullet w\right)$ คือจำนวนของบริบท $w$ ที่เห็นในหรือ simplier จำนวนคำที่แตกต่างกัน $\bullet$ ที่นำหน้าคำที่กำหนดW $w$ จากสิ่งที่ฉันเข้าใจสามารถใช้สูตรซ้ำได้

ตอนนี้จะจัดการกับคำที่รู้จักในบริบทที่ไม่รู้จักอย่างชัดเจนสำหรับความยาว n-gram ที่แตกต่างกัน แต่สิ่งที่ไม่ได้อธิบายคือสิ่งที่ต้องทำเมื่อมีคำที่ไม่อยู่ในพจนานุกรม ฉันพยายามต่อไปตัวอย่างนี้ซึ่งระบุว่าในขั้นตอนการเรียกซ้ำสำหรับ unigrams, $P_{cont}(/) = P^0_{KN}(/) = \frac{1}{V}$ {V} เอกสารที่ใช้แล้วนี้ - quoting เฉินและสามี - จะปรับสูตรข้างต้นเป็น $P^1_{KN}(w) = P_{cont}(w)$ (w)

ฉันไม่เห็นวิธีการทำงานออกมาในการปรากฏตัวของคำที่ไม่รู้จัก $w = \text{unknown}$ แม้ว่า ในกรณีเหล่านี้ $P_{cont}(\text{unknown}) = \frac{0}{\text{something}}$ เนื่องจากเห็นได้ชัดว่าคำที่ไม่รู้จักไม่ได้ดำเนินการใด ๆ เกี่ยวกับชุดฝึกอบรม ในทำนองเดียวกันนับ n-กรัมจะเป็น $C\left(w_{n-1}, \text{unknown}\right) = 0$ 0

นอกจากนี้ทั้ง $\sum_{w'} C\left(w_{n-1}, w'\right)$ อาจจะเป็นศูนย์ถ้าเรียงลำดับของคำที่ไม่รู้จัก - พูดว่าเป็นคำตอบของ OOD -

ฉันกำลังคิดถึงอะไร

— sunside
แหล่งที่มา

ฉันกำลังดิ้นรนกับเคเอ็นด้วยเช่นกัน ฉันคิดว่าความน่าจะเป็นของ bigram ที่มองไม่เห็น P (w1w2) สามารถย้อนกลับไปที่ความน่าจะเป็นแบบต่อเนื่องของ unigram w2 ล่าสุด เมื่อคุณถูกทิ้งให้อยู่กับ unigram unseen ที่คุณไม่มีอะไร จะทำอย่างไรต่อไป ฉันไม่รู้

— momobo

ฉันกำลังพยายามติดตั้ง KN ด้วยตัวเองในขณะนี้และติดอยู่กับปัญหาเดียวกันนี้ คุณสองคนในการหาทางออกหรือไม่?

— jbaiter

ฉันกลับไปที่การปรับให้เรียบแบบ Good-Turing เพื่อให้มองไม่เห็น unigrams (ปรับฟังก์ชั่นพลังงานให้เหมาะสมกับความถี่และความถี่ของความถี่) ... ด้วยผลลัพธ์ที่แตกต่างกัน

— ซันไซด์

6

Dan Jurafsky ได้ตีพิมพ์บทเกี่ยวกับโมเดลของ N-Gramซึ่งพูดถึงปัญหานี้เล็กน้อย:

เมื่อสิ้นสุดการเรียกซ้ำยูนิโค้ดจะถูกสอดแทรกการกระจายแบบสม่ำเสมอ:

$\begin{align} P_{KN}(w) = \frac{\max(c_{KN}(w)-d,0)}{\sum_{w'}c_{KN}(w')}+\lambda(\epsilon)\frac{1}{|V|} \end{align}$

ถ้าเราต้องการที่จะรวมคำที่ไม่รู้จัก<UNK>มันก็แค่รวมเป็นรายการคำศัพท์ปกติที่มีการนับศูนย์และด้วยเหตุนี้ความน่าจะเป็นของมันคือ:

$\begin{align} \frac{\lambda(\epsilon)}{|V|} \end{align}$

ฉันได้พยายามที่จะหาสิ่งนี้หมายถึง แต่ฉันไม่แน่ใจว่าเพียงหมายถึง x หากเป็นกรณีนี้และคุณคิดว่าเมื่อจำนวนถึงศูนย์อาจเป็นไปที่ตาม: $\epsilon$ $\lim_{x\rightarrow0}x$ $\lambda(\epsilon)$ $d$

$\begin{align} \lambda(w_{i-1}) = \frac{d}{c(w_{i-1})}\vert\{w:c(w_{i-1},w)>0\}\vert \end{align}$

จากนั้นคำที่ไม่รู้จักเพิ่งได้รับมอบหมายเศษส่วนของส่วนลดคือ:

$\begin{align} \frac{\lambda(\epsilon)}{|V|} = \frac{d}{|V|} \end{align}$

ฉันไม่มั่นใจเกี่ยวกับคำตอบนี้ แต่ต้องการออกไปที่นั่นในกรณีที่มันทำให้เกิดความคิดเพิ่มเติม

อัปเดต: ขุดรอบ ๆ ดูเหมือนว่าโดยทั่วไปแล้วจะใช้เพื่อแสดงสตริงว่าง ("") แต่ก็ยังไม่ชัดเจนว่าสิ่งนี้มีผลต่อการคำนวณอย่างไร ยังคงเป็นเดาที่ดีที่สุดของฉัน $\epsilon$ $\lambda$ $\frac{d}{|V|}$

— abroekhof
แหล่งที่มา

2

คำตอบที่ดี แต่เหมือนคุณฉันไม่มั่นใจ 100% ฉันใช้เวอร์ชันของการวิจัยสคริปต์ perl Perl_en -us/um/redmond/groups/srg/papers/ ในภาษาไพ ธ อน - แต่รู้ว่ามันใช้ได้เฉพาะถ้าคุณมีคำศัพท์ปิด ) - เช่น unigrams ทดสอบทั้งหมดอยู่ในรถไฟด้วย เป็นข้อเสนอแนะโดยแจlagunita.stanford.edu/c4x/Engineering/CS-224N/asset/slp4.pdfฉันแทนที่ตัวอย่างแรกของแต่ละคำด้วย <UNK> ในช่วงก่อนการประมวลผล อย่างไรก็ตามเมื่อทำการแบ่งพาร์ติชันจะมี unigrams ทดสอบบางอย่างที่ไม่ได้อยู่ในขบวนเช่น "goofedup" ดังนั้นฉันใช้ d / | V | ที่นี่ ขอบคุณ!

— Josh Morel

1

มีหลายวิธีในการฝึกอบรมรุ่นที่มีอยู่<UNK>แม้ว่า Jurafsky <UNK>แนะนำให้เลือกคำที่เกิดขึ้นน้อยมากในการฝึกอบรมครั้งและเพียงแค่เปลี่ยนให้พวกเขา

จากนั้นก็ฝึกความน่าจะเป็นได้ตามปกติ

ดูวิดีโอนี้เริ่มต้นที่ 3:40 -

https://class.coursera.org/nlp/lecture/19

อีกวิธีหนึ่งคือพิจารณาคำว่าเป็น<UNK>ครั้งแรกที่เห็นในการฝึกอบรม แต่จากประสบการณ์ของฉันวิธีนี้กำหนดความน่าจะเป็นให้กับมวลมาก<UNK>เกินไป

— มีตัณหา
แหล่งที่มา

0

เพียงไม่กี่ความคิดฉันยังห่างไกลจากการเป็นผู้เชี่ยวชาญในเรื่องนี้ดังนั้นฉันไม่ได้ตั้งใจที่จะตอบคำถาม แต่เพื่อวิเคราะห์

$\lambda(\epsilon)$ $\lambda(\epsilon)$

λ (ϵ) = 1 - \frac{\sum_{w} m a x (C_{K N} (w) - d, 0)}{\sum_{w^{'}} C_{K N} (w)}

$\lambda(\epsilon)=1-\frac{\sum_w{max(C_{KN}(w) - d, 0)}}{\sum_{w'}{C_{KN}(w)}}$

C_{K N} (w)

$C_{KN}(w)$

อีกทางเลือกหนึ่งคือการประเมิน<unk>ความน่าจะเป็นด้วยวิธีการที่แรนดี้กล่าวถึงและถือเป็นโทเค็นปกติ

$\frac{\lambda(\epsilon)}{|V|}$

— Daniel Villegas
แหล่งที่มา

คำตอบนั้นน่าจะเป็นคำตอบที่แท้จริง

— Michael R. Chernick