ฉันกำลังทำงานเกี่ยวกับปัญหาการจำแนกอนุกรมเวลาที่อินพุตเป็นข้อมูลการใช้เสียงอนุกรมเวลา (เป็นวินาที) สำหรับ 21 วันแรกของบัญชีโทรศัพท์มือถือ ตัวแปรเป้าหมายที่สอดคล้องกันคือยกเลิกบัญชีนั้นในช่วง 35-45 วันหรือไม่ ดังนั้นมันจึงเป็นปัญหาการจำแนกเลขฐานสอง
ฉันได้รับผลลัพธ์ที่แย่มากจากวิธีการทั้งหมดที่ฉันได้ลองมา (จนถึงระดับที่แตกต่างกัน) ก่อนอื่นฉันลองจำแนก k-NN (ด้วยการดัดแปลงต่าง ๆ ) และได้ผลลัพธ์ที่แย่มาก สิ่งนี้นำฉันไปสู่การแยกคุณลักษณะต่างๆจากอนุกรมเวลา - นั่นคือค่าเฉลี่ยความแปรปรวนค่าสูงสุดนาทีค่าศูนย์รวมจำนวนวันที่เป็นศูนย์ทั้งหมดความแตกต่างระหว่างค่าเฉลี่ยครึ่งปีแรกและค่าเฉลี่ยครึ่งปีหลังเป็นต้น วันเป็นศูนย์และศูนย์วันทั้งหมดต่อท้าย (โดยใช้อัลกอริทึมการจำแนกประเภทต่างๆ) สิ่งนี้ทำได้ดีที่สุด แต่ประสิทธิภาพก็ยังไม่ดีนัก
กลยุทธ์ต่อไปของฉันคือการใช้งานอินสแตนซ์เชิงลบในชุดการฝึกอบรมของฉันเนื่องจากมีจำนวนน้อยมาก สิ่งนี้ส่งผลให้การทำนายการยกเลิกถูกต้องมากขึ้น
ฉันเริ่มคิดว่าบางทีข้อมูลการใช้อนุกรมเวลาอาจไม่สามารถคาดการณ์ได้มากนัก (แม้ว่าสามัญสำนึกบอกว่าควรจะเป็น) บางทีอาจมีตัวแปรแฝงที่ฉันไม่ได้พิจารณา การดูข้อมูลยังแสดงพฤติกรรมแปลก ๆ นั่นคือตัวอย่างบางส่วนแสดงการใช้งานน้อยมากหรือลดลง (หรือบางครั้งไม่มีเลย) และอย่ายกเลิกและบางคนแสดงการใช้งานที่เพิ่มขึ้นซึ่งยกเลิก บางทีพฤติกรรมที่ขัดแย้งนี้ไม่ได้สร้างขอบเขตการตัดสินใจที่ชัดเจนมากสำหรับตัวจําแนก
แหล่งที่มาที่เป็นไปได้สำหรับข้อผิดพลาดคือข้อเท็จจริงที่ว่าตัวอย่างการฝึกอบรมจำนวนมากกระจัดกระจายมาก (เช่นหลายวันที่มีการใช้งาน 0 ครั้ง) แนวคิดหนึ่งที่ฉันยังไม่ได้ลองคือการแบ่งซีรีย์เวลาออกเป็นเซ็กเมนต์และสร้างคุณลักษณะบางอย่างในแบบนั้น แต่ฉันไม่มีความหวังสูง