ชุดข้อมูลสำหรับการจดจำเอนทิตีที่มีชื่อในข้อความที่ไม่เป็นทางการ


18

ขณะนี้ฉันกำลังค้นหาชุดข้อมูลที่มีป้ายกำกับเพื่อฝึกโมเดลเพื่อแยกเอนทิตีที่มีชื่อออกจากข้อความที่ไม่เป็นทางการ (คล้ายกับทวีต) เนื่องจากการใช้ตัวพิมพ์ใหญ่และไวยากรณ์มักขาดเอกสารในชุดข้อมูลของฉันฉันจึงมองหาข้อมูลในโดเมนที่ค่อนข้าง "ไม่เป็นทางการ" มากกว่าบทความข่าวและรายการบันทึกประจำวันที่ระบบการรู้จำชื่อนิติบุคคลที่ทันสมัยในปัจจุบันหลายแห่ง ได้รับการฝึกฝน

คำแนะนำใด ๆ จนถึงตอนนี้ฉันสามารถค้นหาโทเค็น 50k จาก twitter ที่เผยแพร่ที่นี่เท่านั้น


2
แนะนำให้ถามในopendata.stackexchange.com
Air

@Madison May คุณพบชุดข้อมูลหรือไม่ ฉันกำลังมองหาสิ่งที่คล้ายกัน ขอบคุณ
ahoffer

ฉันต้องทำกับคลังข้อมูล twitter ner จาก U. Washington (เชื่อมโยงกับโพสต์ต้นฉบับ)
Madison พฤษภาคม


มีคลังข้อมูลภาษาอังกฤษที่ดีใด ๆ
Achyuta nanda sahoo

คำตอบ:


6

ดังที่ฉันเข้าใจแล้วนี่เป็นคุณสมบัติที่คุณกำลังมองหาในชุดข้อมูลตัวอย่าง:

  1. ข้อมูลตัวอักษร
  2. ควรเป็นทางการคือมีคำผิดคำสแลงและโดยทั่วไปสิ่งที่ไม่ได้รับการแก้ไขอย่างมืออาชีพ
  3. อย่างอื่นที่ไม่ใช่ Twitter (ฉันไม่ได้ตำหนิคุณ Twitter เป็นแหล่งข้อมูลตัวอย่างที่มีประโยชน์ แต่มีวิธีมากเกินไปในการทำเหมืองข้อความ)

นี่คือคำแนะนำบางส่วน:

  1. อีเมลจากคลังข้อมูล SpamAssassin - โปรดทราบว่าทั้งชุด "แฮม" (ไม่ใช่สแปม) และชุดข้อมูลสแปมมีให้บริการ
  2. ชุดข้อมูล microblogPCUจาก UCI ซึ่งเป็นข้อมูลที่คัดลอกมาจากไมโครบล็อกของผู้ใช้ Sina Weibo - โปรดทราบว่าข้อมูลข้อความดิบเป็นการผสมผสานระหว่างภาษาจีนและภาษาอังกฤษ (คุณสามารถแปลภาษาจีนเป็นภาษาอังกฤษกรองเป็นภาษาอังกฤษเท่านั้น อย่างที่เป็น)
  3. Amazon Commerce รีวิวชุดข้อมูลจาก UCI
  4. ภายในชุดข้อมูลถุงคำให้ลองใช้อีเมล Enron
  5. ชุดข้อมูลThe Twenty Newsgroups
  6. คอลเลกชันที่ดีของสแปม SMS
  7. คุณสามารถขูด (แยก) ข้อมูลข้อความของคุณเองจากอินเทอร์เน็ตได้ตลอดเวลา ฉันไม่แน่ใจว่าภาษาหรือแพคเกจทางสถิติที่คุณใช้ แต่แพคเกจ XPath ตามที่มีอยู่ใน R ( rvest, scrapeRฯลฯ ) และ Python เพื่อบรรลุนี้

1
ชุดข้อมูลเหล่านี้มีหมายเหตุประกอบกับเอนทิตีที่ระบุชื่อหรือไม่ ฉันเชื่อว่านั่นคือสิ่งที่ OP มองหา
นายฟิล

3

ตรวจสอบสิ่งเหล่านี้:

พื้นที่เก็บข้อมูลของโดเมนทดสอบสำหรับการแยกข้อมูล: http://www.isi.edu/info-agents/RISE/repository.html

DBpedia: http://wiki.dbpedia.org/Downloads32 ( มิเรอร์ )

ลิงค์อัปเดต:

http://www.isi.edu/integration/RISE/

https://github.com/dbpedia/extraction-framework/wiki/The-DBpedia-Data-Set


1
โปรดอัปเดตลิงก์เหล่านี้เนื่องจากไม่มีลิงค์ใดทำงานอีกต่อไป
นายฟิล

0

แหล่งข้อมูลบางส่วนที่ฉันใช้:

ฉันคิดว่าชุดข้อมูลเหล่านี้จะเป็นประโยชน์อย่างมากสำหรับงานของคุณ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.