NLP - Gazetteer โกงหรือไม่?


16

ใน NLP มีแนวคิดGazetteerที่จะมีประโยชน์มากสำหรับการสร้างคำอธิบายประกอบ เท่าที่ฉันเข้าใจ:

นักหนังสือพิมพ์ประกอบด้วยชุดของรายการที่มีชื่อของเอนทิตีเช่นเมือง, องค์กร, วันของสัปดาห์ ฯลฯ รายการเหล่านี้จะใช้ในการเกิดขึ้นของชื่อเหล่านี้ในข้อความเช่นสำหรับงานของการรับรู้นิติบุคคลที่มีชื่อ

ดังนั้นมันจึงเป็นการค้นหา การโกงแบบนี้ไม่ใช่หรือ ถ้าเราใช้Gazetteerสำหรับการตรวจสอบหน่วยงานที่ชื่อนั้นมีไม่มากNatural Language Processingที่เกิดขึ้น เป็นการดีที่ฉันต้องการตรวจสอบเอนทิตีที่มีชื่อโดยใช้NLPเทคนิค มิฉะนั้นแล้วมันจะดีกว่าตัวจับรูปแบบ regex อย่างไร


2
ฉันจะไม่เรียกมันว่าการโกงต่อ se ... เว้นแต่คุณจะได้รับการออกแบบมาโดยเฉพาะให้ใช้วิธีการค้นหาที่ไม่ใช่พจนานุกรม ฉันจะไม่เรียกมันว่า NLP แบบดั้งเดิม แต่คุณไม่ควรมองข้ามระยะทางที่สำคัญคุณสามารถแก้ปัญหาง่ายๆได้
ไคล์

1
คุณอาจจะใช้มันเพื่อฝึกฝนตัวจำแนกชื่อที่มีชื่อ นักหนังสือพิมพ์ของคุณจะทำอะไรกับสิ่งที่ไม่ได้อยู่ในคลังของมัน?
เอ็ม

ฉันหวังว่าการใช้แท็ก pos และคำนามอย่างถูกต้องฉันไม่จำเป็นต้องมีนักหนังสือพิมพ์ เป็นไปได้ไหม
2559

2
ในอุตสาหกรรมไม่มีการโกง :-) แต่อย่างไรก็ตามหากคุณต้องการ "วิธีการทั่วไป" คุณต้องเริ่มต้นด้วยข้อมูลที่มีคำอธิบายประกอบด้วยมือเช่นเมล็ดข้อมูลเพื่อเรียนรู้บริบทที่ปรากฏใน NE เพื่อเรียนรู้เพิ่มเติม
Adam Bittlingmayer

คำตอบ:


15

Gazetteer หรือตัวเลือกอื่น ๆ ของคุณสมบัติขนาดคงที่โดยเจตนาดูเหมือนจะเป็นวิธีที่นิยมมากใน เอกสารวิชาการเมื่อคุณมีปัญหาขนาด จำกัด ตัวอย่างเช่น NER ในคลังถาวรหรือการติดแท็ก POS หรืออย่างอื่น ฉันจะไม่คิดว่ามันเป็นการโกงเว้นแต่คุณสมบัติเดียวที่คุณจะใช้คือการจับคู่ Gazetteer

อย่างไรก็ตามเมื่อคุณฝึกรูปแบบ NLP ทุกรูปแบบซึ่งพึ่งพาพจนานุกรมในขณะฝึกอบรมคุณอาจได้รับประสิทธิภาพการทำงานในโลกแห่งความเป็นจริงต่ำกว่าการทดสอบเริ่มต้นของคุณจะรายงานเว้นแต่คุณจะสามารถรวมวัตถุทั้งหมดที่น่าสนใจลงในราชกิจจานุเบกษา ต้องการโมเดลนั้นหรือไม่) เนื่องจากโมเดลที่ได้รับการฝึกอบรมของคุณจะขึ้นอยู่กับคุณสมบัติในบางจุดและในกรณีที่คุณลักษณะอื่น ๆ นั้นอ่อนแอเกินไปหรือไม่สื่อความหมายวัตถุใหม่ที่น่าสนใจจะไม่ได้รับการยอมรับ

หากคุณใช้ Gazetteer ในแบบจำลองของคุณคุณควรตรวจสอบให้แน่ใจว่าคุณลักษณะนั้นมีคุณสมบัติตัวนับเพื่อให้ความสมดุลของแบบจำลองด้วยตัวเองดังนั้นการจับคู่พจนานุกรมอย่างง่ายจะไม่เป็นคุณลักษณะเฉพาะของคลาสในเชิงบวกเท่านั้น จับคู่ไม่เพียง แต่ตัวอย่างเชิงบวก แต่ยังรวมถึงรายการเชิงลบด้วย)

ตัวอย่างเช่นสมมติว่าคุณมีชื่อเต็มรูปแบบที่ไม่สิ้นสุดของชื่อบุคคลทั้งหมดซึ่งทำให้บุคคลทั่วไปไม่เกี่ยวข้อง NER แต่ตอนนี้คุณพยายามตัดสินใจว่าวัตถุที่กล่าวถึงในข้อความสามารถร้องเพลงได้หรือไม่ คุณจะต้องพึ่งพาคุณสมบัติของการรวมเข้าไปในราชกิจจานุเบกษาบุคคลของคุณซึ่งจะให้ผลบวกปลอมมากมาย จากนั้นคุณจะเพิ่มคุณสมบัติกริยาเป็นศูนย์กลางของ " Is Subject of verb ร้องเพลง " และนั่นอาจจะให้ผลบวกปลอมจากวัตถุทุกประเภทเช่นนกท้องของคุณเมื่อคุณหิวและเพื่อนเมาที่คิดว่าเขาสามารถร้องเพลงได้ (แต่ขอพูดตรงๆนะเขาไม่สามารถทำได้) - แต่คุณสมบัติกริยาที่เป็นศูนย์กลางจะสร้างความสมดุลให้กับนักหนังสือพิมพ์ของคุณเพื่อกำหนด 'นักร้อง' ให้กับบุคคลไม่ใช่สัตว์หรือวัตถุอื่น ๆ แม้ว่ามันจะไม่ได้แก้ปัญหากรณีของนักแสดงเมา


4

การใช้รายการเอนทิตีมีข้อเสียเล็กน้อย:

  • รายการถูกปิด
  • รายการไม่คำนึงถึงบริบท คุณต้องการบริบทเพื่อที่จะแตกต่างระหว่าง "ทำเนียบขาว" และ "ทำเนียบขาว"
  • สร้างรายต้องใช้แรงงานจำนวนมาก
  • รายการอาจมีข้อผิดพลาด
  • มันรู้สึกเหมือนโกง (หรือที่รายการไม่มีข้อมูลเชิงลึก NLP ใช้)

คุณสามารถรับมือกับข้อเสียเหล่านี้ได้โดยทำตามคำแนะนำ @emre และใช้รายการเพื่อเรียนรู้ลักษณนาม

ตัวอย่างเช่นคุณสามารถใช้โทเค็นใกล้กับเอนทิตี้และเรียนรู้กฎเช่น "I live at X" เป็นตัวบ่งชี้สถานที่และ "ฉันพูดคุยกับ X" เป็นตัวบ่งชี้บุคคล คุณสามารถเล่นเกมนี้ได้สองสามรอบโดยเพิ่มรายชื่อของคุณตามจำนวนของกฎและใช้รายการใหม่เพื่อเรียนรู้กฎเพิ่มเติม

โปรดอย่าว่าในการเรียนรู้นี้คุณจะส่งเสียงดังไปยังข้อมูลดังนั้นในกรณีส่วนใหญ่การเรียนรู้ควรตรงไปตรงมา

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.