สำหรับการทดลองเราต้องการใช้Emoji ที่ฝังอยู่ในทวีตจำนวนมากเพื่อเป็นข้อมูลจริง / การฝึกอบรมสำหรับการวิเคราะห์เชิงปริมาณอย่างง่าย ทวีตมักจะไม่มีโครงสร้างเกินกว่าที่ NLP จะทำงานได้ดี
อย่างไรก็ตามมี 722 Emoji ใน Unicode 6.0 และอาจเพิ่ม 250 อีกอันใน Unicode 7.0
มีฐานข้อมูล (เช่น SentiWordNet) ที่มีหมายเหตุประกอบไว้สำหรับพวกเขาหรือไม่?
(โปรดทราบว่า SentiWordNet อนุญาตสำหรับความหมายที่ไม่ชัดเจนเช่นกันพิจารณาเช่นตลกซึ่งไม่เพียง แต่เป็นบวก: "รสชาตินี้ตลก" อาจไม่เป็นบวก ... เช่นเดียวกันจะถือ;-)
เป็นตัวอย่าง แต่ฉันไม่คิดว่ามันยากกว่า สำหรับ Emoji มากกว่าสำหรับคำปกติ ... )
นอกจากนี้หากคุณมีประสบการณ์ในการใช้พวกเขาสำหรับการวิเคราะห์ความเชื่อมั่นฉันก็อยากจะได้ยิน