ฉันมีโครงการด้านนี้ที่ฉันรวบรวมข้อมูลเว็บไซต์ข่าวท้องถิ่นในประเทศของฉันและต้องการสร้างดัชนีอาชญากรรมและดัชนีความไม่มั่นคงทางการเมือง ฉันได้ครอบคลุมส่วนการดึงข้อมูลของโครงการแล้ว แผนของฉันคือการทำ:
- การแยกหัวข้อที่ไม่ได้รับอนุญาต
- ใกล้การตรวจจับรายการที่ซ้ำกัน
- การจำแนกประเภทและระดับเหตุการณ์ภายใต้การดูแล (อาชญากรรม / การเมือง - สูง / ปานกลาง / ต่ำ)
ฉันจะใช้ python และ sklearn และได้ทำการวิจัยขั้นตอนวิธีที่ฉันสามารถใช้สำหรับงานเหล่านั้นแล้ว ฉันคิดว่า 2. สามารถให้ความเกี่ยวข้องกับเรื่องเล่าแก่ฉันได้: ยิ่งมีกระดาษข่าวจำนวนมากเผยแพร่เกี่ยวกับเรื่องราวหรือหัวข้อที่เกี่ยวข้องมากขึ้นสำหรับวันนั้น
ขั้นตอนต่อไปของฉันคือการสร้างดัชนีรายเดือนรายสัปดาห์และรายวัน (ทั่วประเทศและต่อเมือง) ตามคุณลักษณะที่ฉันมีและฉันหลงทางเล็กน้อยเพราะ "ความไวต่อความไม่เสถียร" อาจเพิ่มขึ้นตามเวลา ฉันหมายถึงดัชนีจากเหตุการณ์ความไม่มั่นคงที่สำคัญของปีที่แล้วอาจน้อยกว่าดัชนีสำหรับปีนี้ นอกจากนี้หากใช้ระดับคงที่ 0-100 หรือไม่
ต่อมาฉันต้องการที่จะสามารถทำนายเหตุการณ์ที่เกิดขึ้นตามสิ่งนี้เช่นว่าการสืบทอดเหตุการณ์ในสัปดาห์ที่ผ่านมาจะนำไปสู่เหตุการณ์ที่สำคัญหรือไม่ แต่ตอนนี้ฉันจะมีความสุขกับการแบ่งประเภทการทำงานและสร้างแบบจำลองดัชนี
ฉันขอขอบคุณตัวชี้ไปที่กระดาษการอ่านหรือความคิดที่เกี่ยวข้อง ขอบคุณ
PD: ขออภัยหากคำถามไม่ได้อยู่ที่นี่
อัปเดต : ฉันยังไม่ได้ "สร้าง" แต่เมื่อเร็ว ๆ นี้มีข่าวเกี่ยวกับกลุ่มนักวิทยาศาสตร์ที่ทำงานในระบบเพื่อทำนายเหตุการณ์โดยใช้คลังข่าวและเผยแพร่กระดาษที่เกี่ยวข้องการทำเหมืองเว็บเพื่อทำนายเหตุการณ์ในอนาคต (PDF )