ตัวชี้วัดการประเมินผลการทำนายสำหรับข้อมูลแผง / ยาว
ฉันต้องการประเมินแบบจำลองต่างๆที่ให้การคาดการณ์พฤติกรรมในระดับรายเดือน ข้อมูลมีความสมดุลและ 100,000 และ 12 ผลลัพธ์คือการเข้าร่วมคอนเสิร์ตในเดือนที่กำหนดดังนั้นจึงเป็นศูนย์สำหรับ ~ 80% ของผู้คนในเดือนใด ๆ แต่มีผู้ใช้งานจำนวนมาก การคาดการณ์ที่ฉันไม่ได้ดูเหมือนจะเคารพธรรมชาติการนับของผลลัพธ์: คอนเสิร์ตที่เป็นเศษส่วนนั้นแพร่หลายn=n=n=T=T=T= ฉันไม่รู้อะไรเกี่ยวกับแบบจำลอง ฉันสังเกตการคาดการณ์กล่องดำ 6 แบบที่แตกต่างกันสำหรับแต่ละคนต่อเดือน ฉันมีข้อมูลเพิ่มเติมอีกหนึ่งปีที่ผู้สร้างแบบจำลองไม่ได้มีไว้สำหรับการประเมิน (แม้ว่าผู้ชมคอนเสิร์ตจะยังคงเหมือนเดิม) และฉันอยากจะวัดว่าแต่ละคนทำงานได้ดีแค่ไหน (ในแง่ของความแม่นยำและความแม่นยำ) ตัวอย่างเช่นแบบจำลองบางแบบทำนายผลได้ดีสำหรับผู้ที่มาชมคอนเสิร์ตบ่อยครั้ง แต่ล้มเหลวในการทานมันฝรั่งหรือไม่? การทำนายเดือนมกราคมดีกว่าการคาดการณ์ในเดือนธันวาคมหรือไม่? หรือจะเป็นการดีถ้าได้รู้ว่าการคาดคะเนทำให้ฉันสามารถจัดอันดับคนได้อย่างถูกต้องตามความเป็นจริงแม้ว่าขนาดที่แน่นอนไม่น่าเชื่อถือy^1,...,y^6y^1,...,y^6\hat y_1,...,\hat y_6 ความคิดแรกของฉันคือการเรียกใช้ผลกระทบคงที่ของจริงในการคาดการณ์และเวลาหุ่นและดู RMSEs หรือสำหรับแต่ละรุ่น แต่นั่นไม่ได้ตอบคำถามเกี่ยวกับว่าแต่ละรุ่นทำงานได้ดีหรือไม่หรือถ้าความแตกต่างนั้นสำคัญ (เว้นแต่ฉันจะบูต RMSE) การกระจายของผลลัพธ์ยังทำให้ฉันกังวลด้วยวิธีนี้R2R2R^2 ความคิดที่สองของฉันคือการทิ้งผลลัพธ์ลงใน 0, 1-3 และ 3+ และคำนวณเมทริกซ์ความสับสน แต่สิ่งนี้จะละเว้นมิติเวลายกเว้นว่าฉันทำ 12 ข้อเหล่านี้ มันก็ค่อนข้างหยาบ ฉันตระหนักถึงคำสั่ง Stata concordโดย TJ Steichen และ …