Gazetteer หรือตัวเลือกอื่น ๆ ของคุณสมบัติขนาดคงที่โดยเจตนาดูเหมือนจะเป็นวิธีที่นิยมมากใน เอกสารวิชาการเมื่อคุณมีปัญหาขนาด จำกัด ตัวอย่างเช่น NER ในคลังถาวรหรือการติดแท็ก POS หรืออย่างอื่น ฉันจะไม่คิดว่ามันเป็นการโกงเว้นแต่คุณสมบัติเดียวที่คุณจะใช้คือการจับคู่ Gazetteer
อย่างไรก็ตามเมื่อคุณฝึกรูปแบบ NLP ทุกรูปแบบซึ่งพึ่งพาพจนานุกรมในขณะฝึกอบรมคุณอาจได้รับประสิทธิภาพการทำงานในโลกแห่งความเป็นจริงต่ำกว่าการทดสอบเริ่มต้นของคุณจะรายงานเว้นแต่คุณจะสามารถรวมวัตถุทั้งหมดที่น่าสนใจลงในราชกิจจานุเบกษา ต้องการโมเดลนั้นหรือไม่) เนื่องจากโมเดลที่ได้รับการฝึกอบรมของคุณจะขึ้นอยู่กับคุณสมบัติในบางจุดและในกรณีที่คุณลักษณะอื่น ๆ นั้นอ่อนแอเกินไปหรือไม่สื่อความหมายวัตถุใหม่ที่น่าสนใจจะไม่ได้รับการยอมรับ
หากคุณใช้ Gazetteer ในแบบจำลองของคุณคุณควรตรวจสอบให้แน่ใจว่าคุณลักษณะนั้นมีคุณสมบัติตัวนับเพื่อให้ความสมดุลของแบบจำลองด้วยตัวเองดังนั้นการจับคู่พจนานุกรมอย่างง่ายจะไม่เป็นคุณลักษณะเฉพาะของคลาสในเชิงบวกเท่านั้น จับคู่ไม่เพียง แต่ตัวอย่างเชิงบวก แต่ยังรวมถึงรายการเชิงลบด้วย)
ตัวอย่างเช่นสมมติว่าคุณมีชื่อเต็มรูปแบบที่ไม่สิ้นสุดของชื่อบุคคลทั้งหมดซึ่งทำให้บุคคลทั่วไปไม่เกี่ยวข้อง NER แต่ตอนนี้คุณพยายามตัดสินใจว่าวัตถุที่กล่าวถึงในข้อความสามารถร้องเพลงได้หรือไม่ คุณจะต้องพึ่งพาคุณสมบัติของการรวมเข้าไปในราชกิจจานุเบกษาบุคคลของคุณซึ่งจะให้ผลบวกปลอมมากมาย จากนั้นคุณจะเพิ่มคุณสมบัติกริยาเป็นศูนย์กลางของ " Is Subject of verb ร้องเพลง " และนั่นอาจจะให้ผลบวกปลอมจากวัตถุทุกประเภทเช่นนกท้องของคุณเมื่อคุณหิวและเพื่อนเมาที่คิดว่าเขาสามารถร้องเพลงได้ (แต่ขอพูดตรงๆนะเขาไม่สามารถทำได้) - แต่คุณสมบัติกริยาที่เป็นศูนย์กลางจะสร้างความสมดุลให้กับนักหนังสือพิมพ์ของคุณเพื่อกำหนด 'นักร้อง' ให้กับบุคคลไม่ใช่สัตว์หรือวัตถุอื่น ๆ แม้ว่ามันจะไม่ได้แก้ปัญหากรณีของนักแสดงเมา