ชุดข้อมูลสำหรับการจดจำเอนทิตีที่มีชื่อในข้อความที่ไม่เป็นทางการ

ขณะนี้ฉันกำลังค้นหาชุดข้อมูลที่มีป้ายกำกับเพื่อฝึกโมเดลเพื่อแยกเอนทิตีที่มีชื่อออกจากข้อความที่ไม่เป็นทางการ (คล้ายกับทวีต) เนื่องจากการใช้ตัวพิมพ์ใหญ่และไวยากรณ์มักขาดเอกสารในชุดข้อมูลของฉันฉันจึงมองหาข้อมูลในโดเมนที่ค่อนข้าง "ไม่เป็นทางการ" มากกว่าบทความข่าวและรายการบันทึกประจำวันที่ระบบการรู้จำชื่อนิติบุคคลที่ทันสมัยในปัจจุบันหลายแห่ง ได้รับการฝึกฝน

คำแนะนำใด ๆ จนถึงตอนนี้ฉันสามารถค้นหาโทเค็น 50k จาก twitter ที่เผยแพร่ที่นี่เท่านั้น

dataset nlp

— เมดิสันพฤษภาคม
แหล่งที่มา

แนะนำให้ถามในopendata.stackexchange.com

— Air

@Madison May คุณพบชุดข้อมูลหรือไม่ ฉันกำลังมองหาสิ่งที่คล้ายกัน ขอบคุณ

— ahoffer

ฉันต้องทำกับคลังข้อมูล twitter ner จาก U. Washington (เชื่อมโยงกับโพสต์ต้นฉบับ)

— Madison พฤษภาคม

FYI Corpus ของข้อความที่ติดแท็ก (หนังสือพิมพ์ภาษาอังกฤษหรือข้อความที่ติดแท็กใด ๆ )

— Franck Dernoncourt

มีคลังข้อมูลภาษาอังกฤษที่ดีใด ๆ

— Achyuta nanda sahoo

คำตอบ:

ดังที่ฉันเข้าใจแล้วนี่เป็นคุณสมบัติที่คุณกำลังมองหาในชุดข้อมูลตัวอย่าง:

ข้อมูลตัวอักษร
ควรเป็นทางการคือมีคำผิดคำสแลงและโดยทั่วไปสิ่งที่ไม่ได้รับการแก้ไขอย่างมืออาชีพ
อย่างอื่นที่ไม่ใช่ Twitter (ฉันไม่ได้ตำหนิคุณ Twitter เป็นแหล่งข้อมูลตัวอย่างที่มีประโยชน์ แต่มีวิธีมากเกินไปในการทำเหมืองข้อความ)

นี่คือคำแนะนำบางส่วน:

อีเมลจากคลังข้อมูล SpamAssassin - โปรดทราบว่าทั้งชุด "แฮม" (ไม่ใช่สแปม) และชุดข้อมูลสแปมมีให้บริการ
ชุดข้อมูล microblogPCUจาก UCI ซึ่งเป็นข้อมูลที่คัดลอกมาจากไมโครบล็อกของผู้ใช้ Sina Weibo - โปรดทราบว่าข้อมูลข้อความดิบเป็นการผสมผสานระหว่างภาษาจีนและภาษาอังกฤษ (คุณสามารถแปลภาษาจีนเป็นภาษาอังกฤษกรองเป็นภาษาอังกฤษเท่านั้น อย่างที่เป็น)
Amazon Commerce รีวิวชุดข้อมูลจาก UCI
ภายในชุดข้อมูลถุงคำให้ลองใช้อีเมล Enron
ชุดข้อมูลThe Twenty Newsgroups
คอลเลกชันที่ดีของสแปม SMS
คุณสามารถขูด (แยก) ข้อมูลข้อความของคุณเองจากอินเทอร์เน็ตได้ตลอดเวลา ฉันไม่แน่ใจว่าภาษาหรือแพคเกจทางสถิติที่คุณใช้ แต่แพคเกจ XPath ตามที่มีอยู่ใน R ( rvest, scrapeRฯลฯ ) และ Python เพื่อบรรลุนี้

— สับ-R
แหล่งที่มา

ชุดข้อมูลเหล่านี้มีหมายเหตุประกอบกับเอนทิตีที่ระบุชื่อหรือไม่ ฉันเชื่อว่านั่นคือสิ่งที่ OP มองหา

— นายฟิล

ตรวจสอบสิ่งเหล่านี้:

พื้นที่เก็บข้อมูลของโดเมนทดสอบสำหรับการแยกข้อมูล: http://www.isi.edu/info-agents/RISE/repository.html

DBpedia: http://wiki.dbpedia.org/Downloads32 ( มิเรอร์ )

ลิงค์อัปเดต:

http://www.isi.edu/integration/RISE/

https://github.com/dbpedia/extraction-framework/wiki/The-DBpedia-Data-Set

— Sreejithc321
แหล่งที่มา

โปรดอัปเดตลิงก์เหล่านี้เนื่องจากไม่มีลิงค์ใดทำงานอีกต่อไป

— นายฟิล

แหล่งข้อมูลบางส่วนที่ฉันใช้:

The CONLL Corpus คลาสสิก: ชุดข้อมูล CONLL
แหล่ง Kaggle หนึ่งแหล่งที่ควรลองใช้: Kaggle NER Corpus
ลงใน Release 5.0: ไปยังโน้ต
งานการรับรู้ทางชีวภาพ : เอนทิตีทางชีวภาพ
ชุดข้อมูลที่เกี่ยวข้องกับอีเมลอื่น: ชุดข้อมูลอีเมลของ Enron

ฉันคิดว่าชุดข้อมูลเหล่านี้จะเป็นประโยชน์อย่างมากสำหรับงานของคุณ

— Gyan Ranjan
แหล่งที่มา