n-g ใดบ้างที่ทำให้เกิดการต่อต้าน

13

เมื่อทำการประมวลผลภาษาธรรมชาติเราสามารถใช้คลังข้อมูลและประเมินความน่าจะเป็นของคำถัดไปที่เกิดขึ้นในลำดับ n โดยปกติแล้ว n จะถูกเลือกเป็น 2 หรือ 3 (bigrams และ trigrams)

มีจุดที่รู้กันหรือไม่ว่าการติดตามข้อมูลสำหรับห่วงโซ่ที่ n กลายเป็นการต่อต้านเนื่องจากระยะเวลาที่ใช้ในการจำแนกคลังข้อมูลเฉพาะครั้งเดียวในระดับนั้น หรือให้เวลาในการค้นหาความน่าจะเป็นจากพจนานุกรม (โครงสร้างข้อมูล)?

text-mining natural-language

— jonsca
แหล่งที่มา

เกี่ยวข้องกับหัวข้ออื่น ๆ นี้เกี่ยวกับคำสาปของมิติ

— แอนทอน

2

มีจุดที่รู้กันหรือไม่ว่าการติดตามข้อมูลสำหรับห่วงโซ่ที่ n กลายเป็นการต่อต้านเนื่องจากระยะเวลาที่ใช้ในการจำแนกคลังข้อมูลเฉพาะครั้งเดียวในระดับนั้น

คุณควรจะมองหาฉงนสนเท่ห์ขนาดเทียบกับ n กรัมตารางหรือแปลง

ตัวอย่าง:

http://www.itl.nist.gov/iad/mig/publications/proceedings/darpa97/html/seymore1/image2.gif :

http://images.myshared.ru/17/1041315/slide_16.jpg :

http://images.slideplayer.com/13/4173894/slides/slide_45.jpg :

ความสับสนนั้นขึ้นอยู่กับรุ่นภาษาขนาดกแกรมและชุดข้อมูลของคุณ ตามปกติจะมีการแลกเปลี่ยนระหว่างคุณภาพของรูปแบบภาษาและระยะเวลาที่ใช้ในการรัน โมเดลภาษาที่ดีที่สุดในปัจจุบันนี้ใช้เครือข่ายประสาทดังนั้นการเลือกขนาด n-gram จึงเป็นปัญหาน้อยลง (แต่คุณต้องเลือกขนาดตัวกรองหากคุณใช้ CNN ท่ามกลางพารามิเตอร์อื่น ๆ …)

— Franck Dernoncourt
แหล่งที่มา

12

การวัดของคุณสำหรับ "การต่อต้านการผลิต" อาจเป็นไปตามอำเภอใจเช่น ด้วยหน่วยความจำที่รวดเร็วจำนวนมากมันสามารถประมวลผลได้เร็วขึ้น (สมเหตุสมผลกว่า)

หลังจากพูดอย่างนั้นการเติบโตแบบเลขชี้กำลังจะเกิดขึ้นและจากการสังเกตของฉันเองดูเหมือนว่าจะอยู่ที่ประมาณ 3-4 เครื่องหมาย (ฉันไม่ได้เห็นการศึกษาที่เฉพาะเจาะจง)

Trigrams มีข้อได้เปรียบมากกว่า bigrams แต่มันมีขนาดเล็ก ฉันไม่เคยใช้ 4 กรัม แต่การปรับปรุงจะน้อยกว่านี้มาก อาจเป็นลำดับที่คล้ายกันของการลดขนาด เช่น. หากตรีโกณฯ ปรับปรุงสิ่งต่าง ๆ มากกว่า 10% ของบิ๊กแกรมการประมาณที่เหมาะสมสำหรับ 4 กรัมอาจจะดีขึ้น 1% เมื่อเทียบกับไตรกส์

$10,000$ $10000^2$ $10000^3$ $10000^4$

คุณจะต้องใช้คลังข้อมูลขนาดใหญ่เพื่อชดเชยผลกระทบการเจือจาง แต่กฎของ Zipfกล่าวว่าคลังข้อมูลขนาดใหญ่ก็จะมีคำที่เป็นเอกลักษณ์มากยิ่งขึ้น ...

ฉันคาดการณ์ว่านี่คือเหตุผลที่เราเห็นโมเดลบิกแกรมและทรัมแกรมจำนวนมากการใช้งานและการสาธิต แต่ไม่มีตัวอย่าง 4 กรัมที่ทำงานได้อย่างสมบูรณ์

— Winwaed
แหล่งที่มา

2

สรุปที่ดี หน้า 48-53 ("long rambling cynical diatribe") ของบทความต่อไปนี้ให้รายละเอียดเพิ่มเติมเกี่ยวกับเรื่องนั้น (บทความนี้รวมถึงผลลัพธ์บางประการสำหรับคำสั่งซื้อที่สูงขึ้น n-g เช่นกัน) research.microsoft.com/~joshuago/longcombine.pdf

— Yevgeny

2

ลิงค์ตาย นี่คือข้อมูลอ้างอิงและลิงก์ไปยังเวอร์ชัน arXiv: Joshua T. Goodman (2001) ความคืบหน้าเล็กน้อยในการสร้างแบบจำลองภาษา: เวอร์ชันเพิ่มเติม การวิจัยของ Microsoft: Redmond, WA (สหรัฐอเมริกา) รายงานทางเทคนิค MSR-TR-2001-72

— scozy