ฉันต้องการสร้างดัชนีอาชญากรรมและดัชนีความไม่มั่นคงทางการเมืองตามข่าว


17

ฉันมีโครงการด้านนี้ที่ฉันรวบรวมข้อมูลเว็บไซต์ข่าวท้องถิ่นในประเทศของฉันและต้องการสร้างดัชนีอาชญากรรมและดัชนีความไม่มั่นคงทางการเมือง ฉันได้ครอบคลุมส่วนการดึงข้อมูลของโครงการแล้ว แผนของฉันคือการทำ:

  • การแยกหัวข้อที่ไม่ได้รับอนุญาต
  • ใกล้การตรวจจับรายการที่ซ้ำกัน
  • การจำแนกประเภทและระดับเหตุการณ์ภายใต้การดูแล (อาชญากรรม / การเมือง - สูง / ปานกลาง / ต่ำ)

ฉันจะใช้ python และ sklearn และได้ทำการวิจัยขั้นตอนวิธีที่ฉันสามารถใช้สำหรับงานเหล่านั้นแล้ว ฉันคิดว่า 2. สามารถให้ความเกี่ยวข้องกับเรื่องเล่าแก่ฉันได้: ยิ่งมีกระดาษข่าวจำนวนมากเผยแพร่เกี่ยวกับเรื่องราวหรือหัวข้อที่เกี่ยวข้องมากขึ้นสำหรับวันนั้น

ขั้นตอนต่อไปของฉันคือการสร้างดัชนีรายเดือนรายสัปดาห์และรายวัน (ทั่วประเทศและต่อเมือง) ตามคุณลักษณะที่ฉันมีและฉันหลงทางเล็กน้อยเพราะ "ความไวต่อความไม่เสถียร" อาจเพิ่มขึ้นตามเวลา ฉันหมายถึงดัชนีจากเหตุการณ์ความไม่มั่นคงที่สำคัญของปีที่แล้วอาจน้อยกว่าดัชนีสำหรับปีนี้ นอกจากนี้หากใช้ระดับคงที่ 0-100 หรือไม่

ต่อมาฉันต้องการที่จะสามารถทำนายเหตุการณ์ที่เกิดขึ้นตามสิ่งนี้เช่นว่าการสืบทอดเหตุการณ์ในสัปดาห์ที่ผ่านมาจะนำไปสู่เหตุการณ์ที่สำคัญหรือไม่ แต่ตอนนี้ฉันจะมีความสุขกับการแบ่งประเภทการทำงานและสร้างแบบจำลองดัชนี

ฉันขอขอบคุณตัวชี้ไปที่กระดาษการอ่านหรือความคิดที่เกี่ยวข้อง ขอบคุณ

PD: ขออภัยหากคำถามไม่ได้อยู่ที่นี่

อัปเดต : ฉันยังไม่ได้ "สร้าง" แต่เมื่อเร็ว ๆ นี้มีข่าวเกี่ยวกับกลุ่มนักวิทยาศาสตร์ที่ทำงานในระบบเพื่อทำนายเหตุการณ์โดยใช้คลังข่าวและเผยแพร่กระดาษที่เกี่ยวข้องการทำเหมืองเว็บเพื่อทำนายเหตุการณ์ในอนาคต (PDF )


สำหรับส่วนทางเทคนิค (เครื่องมือ) ฉันอยากจะแนะนำหนังสือสองเล่มให้เป็นจุดที่น่าสนใจทั้งจาก O'Reiley: Collective Intelligence (พร้อมรหัส Python) การเรียนรู้ของเครื่อง (พร้อมรหัส R) ... หัวข้อการจับภาพที่เกี่ยวข้องกับคุณ ขั้นตอนต่อไปอาจเป็นเว็บไซต์ Manning ... สำหรับส่วนวิธีการฉันขอแนะนำ Semantic Web group บน LinkedIn
Radu Marius Florin

สุดยอดมากเหมือนคำถามนี้ อัพเดทเราอยู่เสมอ !!
เอนโทรปี

คำตอบ:


1

พิจารณาความหลากหลายของคะแนน GINI

มันเป็นมาตรฐานและเอาท์พุทช่วงจาก 0 ถึง 1

แก้ไข:

เหตุใด GINI จึง“ เจ๋ง” หรืออย่างน้อยก็อาจเหมาะสม:

มันเป็นตัวชี้วัดของความไม่เท่าเทียมกันหรือความไม่เท่าเทียมกัน มันถูกใช้เป็นมาตรวัดฟรีขนาดเพื่อกำหนดลักษณะที่แตกต่างของเครือข่ายฟรีขนาดรวมถึงเครือข่ายที่ไม่มีที่สิ้นสุดและแบบสุ่ม มันมีประโยชน์ในการสร้างต้นไม้ CART เพราะเป็นการวัดพลังการแยกของการแบ่งข้อมูลที่เฉพาะเจาะจง

เพราะช่วง:

  • มีข้อผิดพลาด roundoff น้อยกว่า ช่วงที่อยู่ห่างจาก 1.0 มักจะประสบปัญหาตัวเลข
  • มันเป็นมนุษย์อ่านได้และมนุษย์เข้าถึงได้มากขึ้น มนุษย์มีความเข้าใจวัตถุของวัตถุมากกว่าที่เป็นพันล้าน

เพราะมันเป็นมาตรฐาน:

  • การเปรียบเทียบคะแนนนั้นมีความหมาย 0.9 ในประเทศใดประเทศหนึ่งหมายถึงระดับของความไม่เท่าเทียมกันในระดับเดียวกับ 0.9 ในประเทศอื่น ๆ
  • มันถูกทำให้เป็นมาตรฐานเทียบกับเส้นโค้ง Lorenz สำหรับความสม่ำเสมอที่สมบูรณ์แบบดังนั้นค่าจึงเป็นตัวบ่งชี้ที่เกี่ยวข้องของความสัมพันธ์ของการแจกแจงค่าที่น่าสนใจกับเส้นโค้ง Lorenz

อ้างอิง:


4
ยินดีต้อนรับสู่เว็บไซต์ @EngrStudent คุณจะช่วยบอกอีกเล็กน้อยเกี่ยวกับค่าสัมประสิทธิ์ GINI และทำไมมันถึงเป็นคำตอบที่ถูกต้องที่นี่? เนื่องจากคุณใหม่ที่นี่และเริ่มมีส่วนร่วมคุณอาจต้องการอ่านคำถามที่พบบ่อยของเราซึ่งมีข้อมูลจำนวนมากเกี่ยวกับเว็บไซต์
gung - Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.