ความช่วยเหลือเกี่ยวกับ NER ใน NLTK

12

ฉันทำงานใน NLTK มาระยะหนึ่งแล้วโดยใช้ Python ปัญหาที่ฉันพบคือพวกเขาไม่มีความช่วยเหลือในการฝึกอบรม NER ใน NLTK ด้วยข้อมูลที่กำหนดเองของฉัน พวกเขาใช้ MaxEnt และฝึกฝนบน ACE corpus ฉันค้นหาบนเว็บเป็นจำนวนมาก แต่ไม่พบวิธีที่สามารถใช้ในการฝึกอบรม NER ของ NLTK ได้

หากทุกคนสามารถให้ลิงก์ / บทความ / บล็อกอื่น ๆ ให้ฉันซึ่งสามารถนำฉันไปยังรูปแบบชุดข้อมูลการฝึกอบรมที่ใช้ในการฝึกอบรม NER ของ NLTK เพื่อให้ฉันสามารถเตรียมชุดข้อมูลของฉันในรูปแบบเฉพาะนั้น และถ้าฉันถูกนำไปยังลิงก์ / บทความ / บล็อก ฯลฯ ซึ่งสามารถช่วยฉันได้ NER ของ TRAIN NLTK สำหรับข้อมูลของฉันเอง

นี่คือคำถามที่ค้นหากันอย่างกว้างขวางและตอบน้อยที่สุด อาจเป็นประโยชน์สำหรับใครบางคนในอนาคตที่ทำงานกับ NER

machine-learning python nlp

— Sarmad
แหล่งที่มา

ข้ามโพสต์บนquora.com/Help-on-training-NLTKs-NER

— Franck Dernoncourt

4

การฝึกอบรมรูปแบบที่เกี่ยวข้องกับการดึงข้อมูลโดยทั่วไปและการรับรู้ / การจำแนกกิจการที่มีชื่อ (NER)โดยเฉพาะมีการอธิบายในรายละเอียดในบทที่ 7ของหนังสือ NLTKซึ่งมีให้ทางออนไลน์ที่ URL นี้: http: //www.nltk .org

นอกจากนี้ฉันคิดว่าคุณอาจพบว่าคำตอบที่เกี่ยวข้องของฉันมีประโยชน์ในไซต์ที่ได้รับการตรวจสอบข้าม มีการอ้างอิงถึงแหล่งข้อมูลที่เกี่ยวข้องใน NER และหัวข้อที่เกี่ยวข้องรวมถึงเครื่องมือซอฟต์แวร์ที่เกี่ยวข้องมากมาย

— อเล็กซานเดอร์ Blekh
แหล่งที่มา

พวกเขาไม่ได้พูดถึงวิธีการฝึกอบรมโมเดล NER เกี่ยวกับข้อมูลที่กำหนดเองคุณสามารถบอกได้อย่างไรว่าจะทำอย่างไร

— Hima Varsha

1

@HimaVarsha ฉันไม่ใช่ผู้เชี่ยวชาญในเรื่องนี้ อย่างไรก็ตาม ... ฉันคิดว่ารูปแบบ NLTK NER นั้นได้รับการฝึกฝนมาล่วงหน้าในคลังข้อมูลconll2000ดังนั้นจึงไม่มีข้อมูลในหนังสือ NLTK ตรวจสอบทรัพยากรต่อไปนี้: 1. nltk-trainer.readthedocs.io (ส่วนใหญ่เป็นสิ่งที่คุณต้องการ; อาจเป็นส่วนของIOB Chunkers Training ) 2. sujitpal.blogspot.com/2012/11/… (อาจเป็นประโยชน์เช่นกัน) 3. nlp.stanford.edu/software/crf-faq.shtml#a (ในกรณีที่คุณใช้หรือจะตัดสินใจใช้ซอฟต์แวร์ Stanford NER)

— Aleksandr Blekh

ฉันคิดว่าการใช้ stanfordcrf ใช้ข้อมูลที่กำหนดเอง แต่ NTLK NER มาก่อนการฝึกอบรม การฝึกอบรม IOB Chunkers เป็นเพียงแค่ chunking ใช่ไหม? หรือมันจะทำ NER?

— Hima Varsha

@HimaVarsha โปรดให้ความสนใจกับคำแนะนำที่คุณได้รับมากขึ้น หากคุณอ่านโพสต์ผ่านลิงก์ # 2 ด้านบนอย่างระมัดระวังคุณจะเห็นว่ารหัสนั้นมีทั้งการฝึกอบรมและการใช้งานโมเดล NER ฉันไม่คิดว่าฉันสามารถช่วยคุณได้มากกว่าคำแนะนำข้างต้น

— Aleksandr Blekh

3

บทความนี้ดีพอหรือไม่ http://www.succeed-project.eu/wiki/index.php/NLTK#Input_format_for_training

มีคำอธิบายเกี่ยวกับวิธีที่คลังข้อมูลควรมีลักษณะอย่างไร

ข้อมูลของคุณต้องอยู่ในรูปแบบ IOB (แท็กคำว่า chunktag) เพื่อให้สามารถใช้งานได้
Eric NNP B-PERSON
เป็น VB O CEO
AT B-NP
NN I-NP
ของ IN O
Google NNP B-ORGANIZATION

— MaticDiba
แหล่งที่มา

1

มันจะเหมาะที่จะโพสต์สรุปสั้น ๆ ของบทความในคำตอบนี้

— sheldonkreger

1

ฉันพบว่าบทช่วยสอนนี้มีประโยชน์มาก: คู่มือฉบับสมบูรณ์เพื่อสร้าง Named Entity Recognizer ของคุณเองด้วย Python เขาใช้คลังข้อมูล Groningen Meaning Bank (GMB) เพื่อฝึกฝนก้อน NER ของเขา

หลังจากนั้นคุณสามารถตรวจสอบบทช่วยสอนนี้จากบุคคลเดียวกัน: การฝึกอบรมระบบ NER โดยใช้ชุดข้อมูลขนาดใหญ่ซึ่งเขาใช้ scikit เรียนรู้เพื่อปรับปรุงประสิทธิภาพของระบบของเขา

ในที่สุดบางบทเรียนที่มีประโยชน์จริงๆสามารถพบได้ที่นี่: การสอน NLTK ผู้ชายคนนี้มีช่อง YouTube ที่มีการสอนจำนวนมากในหลายวิชา (ML, NLP, Python ... )

หวังว่ามันจะช่วย

— Iraklis Moutidis
แหล่งที่มา