ขณะนี้ฉันกำลังค้นหาชุดข้อมูลที่มีป้ายกำกับเพื่อฝึกโมเดลเพื่อแยกเอนทิตีที่มีชื่อออกจากข้อความที่ไม่เป็นทางการ (คล้ายกับทวีต) เนื่องจากการใช้ตัวพิมพ์ใหญ่และไวยากรณ์มักขาดเอกสารในชุดข้อมูลของฉันฉันจึงมองหาข้อมูลในโดเมนที่ค่อนข้าง "ไม่เป็นทางการ" มากกว่าบทความข่าวและรายการบันทึกประจำวันที่ระบบการรู้จำชื่อนิติบุคคลที่ทันสมัยในปัจจุบันหลายแห่ง ได้รับการฝึกฝน
คำแนะนำใด ๆ จนถึงตอนนี้ฉันสามารถค้นหาโทเค็น 50k จาก twitter ที่เผยแพร่ที่นี่เท่านั้น