ตัวชี้วัดการประเมินผลการทำนายสำหรับข้อมูลแผง / ยาว


11

ฉันต้องการประเมินแบบจำลองต่างๆที่ให้การคาดการณ์พฤติกรรมในระดับรายเดือน ข้อมูลมีความสมดุลและ 100,000 และ 12 ผลลัพธ์คือการเข้าร่วมคอนเสิร์ตในเดือนที่กำหนดดังนั้นจึงเป็นศูนย์สำหรับ ~ 80% ของผู้คนในเดือนใด ๆ แต่มีผู้ใช้งานจำนวนมาก การคาดการณ์ที่ฉันไม่ได้ดูเหมือนจะเคารพธรรมชาติการนับของผลลัพธ์: คอนเสิร์ตที่เป็นเศษส่วนนั้นแพร่หลายn=T=

ฉันไม่รู้อะไรเกี่ยวกับแบบจำลอง ฉันสังเกตการคาดการณ์กล่องดำ 6 แบบที่แตกต่างกันสำหรับแต่ละคนต่อเดือน ฉันมีข้อมูลเพิ่มเติมอีกหนึ่งปีที่ผู้สร้างแบบจำลองไม่ได้มีไว้สำหรับการประเมิน (แม้ว่าผู้ชมคอนเสิร์ตจะยังคงเหมือนเดิม) และฉันอยากจะวัดว่าแต่ละคนทำงานได้ดีแค่ไหน (ในแง่ของความแม่นยำและความแม่นยำ) ตัวอย่างเช่นแบบจำลองบางแบบทำนายผลได้ดีสำหรับผู้ที่มาชมคอนเสิร์ตบ่อยครั้ง แต่ล้มเหลวในการทานมันฝรั่งหรือไม่? การทำนายเดือนมกราคมดีกว่าการคาดการณ์ในเดือนธันวาคมหรือไม่? หรือจะเป็นการดีถ้าได้รู้ว่าการคาดคะเนทำให้ฉันสามารถจัดอันดับคนได้อย่างถูกต้องตามความเป็นจริงแม้ว่าขนาดที่แน่นอนไม่น่าเชื่อถือy^1,...,y^6

ความคิดแรกของฉันคือการเรียกใช้ผลกระทบคงที่ของจริงในการคาดการณ์และเวลาหุ่นและดู RMSEs หรือสำหรับแต่ละรุ่น แต่นั่นไม่ได้ตอบคำถามเกี่ยวกับว่าแต่ละรุ่นทำงานได้ดีหรือไม่หรือถ้าความแตกต่างนั้นสำคัญ (เว้นแต่ฉันจะบูต RMSE) การกระจายของผลลัพธ์ยังทำให้ฉันกังวลด้วยวิธีนี้R2

ความคิดที่สองของฉันคือการทิ้งผลลัพธ์ลงใน 0, 1-3 และ 3+ และคำนวณเมทริกซ์ความสับสน แต่สิ่งนี้จะละเว้นมิติเวลายกเว้นว่าฉันทำ 12 ข้อเหล่านี้ มันก็ค่อนข้างหยาบ

ฉันตระหนักถึงคำสั่ง Stata concordโดย TJ Steichen และ NJ Cox - ซึ่งมีby()ตัวเลือก แต่นั่นจะต้องยุบข้อมูลเป็นผลรวมประจำปี สิ่งนี้จะคำนวณดัชนีความสัมพันธ์สอดคล้องของหลินด้วยช่วงความเชื่อมั่นและสถิติที่มีประโยชน์อื่น ๆ CCC มีตั้งแต่ -1 ถึง 1 โดยมีข้อตกลงที่สมบูรณ์แบบที่ 1

นอกจากนี้ยังมีของ Harrell (คำนวณ โดย R. Newson) ซึ่งมีตัวเลือก แต่ฉันไม่แน่ใจว่าจะอนุญาตให้ฉันจัดการกับข้อมูลพาเนล สิ่งนี้จะช่วยให้คุณมั่นใจในช่วงเวลา Harrell's c เป็นลักษณะทั่วไปของพื้นที่ภายใต้ ROC curve (AUC) เพื่อผลลัพธ์ที่ต่อเนื่อง มันเป็นสัดส่วนของคู่ทั้งหมดที่สามารถสั่งซื้อได้เช่นกันว่าตัวแบบที่มีการทำนายสูงกว่านั้นจะมีผลที่สูงกว่า ดังนั้นc = 0.5สำหรับการทำนายแบบสุ่มc = 1สำหรับรูปแบบการแบ่งแยกที่สมบูรณ์แบบ ดูหนังสือของ Harrell , p.493csomersdclusterc=0.5c=1

คุณจะแก้ไขปัญหานี้อย่างไร คุณขอแนะนำให้คำนวณสถิติเช่น MAPE ที่ใช้กันทั่วไปในการคาดการณ์หรือไม่


พบสิ่งที่มีประโยชน์:

  • สไลด์บนค่าที่วัดซ้ำของค่าสัมประสิทธิ์สหสัมพันธ์ของหลิน

เราจะต้องรู้เพิ่มเติมเกี่ยวกับพฤติกรรมมันเป็นลำดับ / ไบนารี / มูลค่าอย่างต่อเนื่อง? เนื่องจากการทดลองนี้เป็นแนวยาวความสนใจของคุณอยู่ที่การคาดการณ์หรือทำนายผลลัพธ์ในบุคคลหรือไม่ แบบจำลองเอฟเฟกต์แบบผสมใช้สำหรับการอนุมานไม่ใช่การทำนาย พวกมันใช้งานไม่ได้เพราะในการคาดการณ์คุณต้องมีการประเมินเอฟเฟกต์แบบสุ่ม
AdamO

พฤติกรรมที่แท้จริงอาจนับหรือต่อเนื่อง การคาดการณ์ทั้งหมดอย่างต่อเนื่อง ฉันต้องการดูว่าการทำนายรายเดือนระดับบุคคลดีเพียงใด
Dimitriy V. Masterov

Yi=12^=f(Xi=12,11,,1,Yi=11,10,,1Yi=I^=f(Xi=I,I1,,1,Yi=I1,I2,,1Yi^=f(Xi)

iY^i,1=f(Yi,t1,Xi,t).Y^i,2=f(Y^i,1,Xi,2)Yi,tY^i,t

การประมาณค่าหมายถึงการประมาณค่าพารามิเตอร์ซึ่งอาจเป็นส่วนหนึ่งของ "การฝึกอบรม" สำหรับแบบจำลองการทำนาย แต่ฉันคิดว่าคุณหมายถึงการบอกว่าตัวอย่างของคุณใช้สำหรับการฝึกอบรมแบบจำลองการทำนาย สิ่งที่คุณระบุที่นี่คือกระบวนการเซมิ - มาร์คอฟแบบมีเงื่อนไขและมีแอปพลิเคชั่นเฉพาะในการพยากรณ์
AdamO

คำตอบ:


1

ในการประเมินความสามารถในการคาดการณ์การพยากรณ์ของกึ่งมาร์คอฟนั้นมีวิธีการมากมายขึ้นอยู่กับขนาดตัวอย่างและข้อมูลอื่น ๆ ที่มี

สำหรับการประเมินรูปแบบการคาดการณ์ / พยากรณ์ใด ๆ คุณมีตัวเลือกของการตรวจสอบความถูกต้องไขว้ (โดยเฉพาะการตรวจสอบความถูกต้องแบบแยกตัวอย่างแบบข้ามครั้งเดียวหรือแบบซ้ำ) โดยที่แบบจำลองนั้นถูกประเมินในตัวอย่าง "การฝึกอบรม" ตัวอย่าง. ขึ้นอยู่กับการกระจายของผลลัพธ์มีจำนวนของการวัดที่คุณสามารถเลือกแบบจำลองได้จากแบบจำลองที่มีสิทธิ์ สำหรับมาตรการทั่วไปที่ไม่ใช่พารามิเตอร์สำหรับการเลือกแบบจำลองคนชอบ AIC และ BIC โดยเฉพาะอย่างยิ่งมาตรการหลัง

CCC และ c-stats ถูกนำมาใช้ในการประเมินการคาดการณ์แบบตัดขวางแบบไบนารีเช่นจากการทดสอบ / การทดสอบดังนั้นคุณจะต้องแยกแยะออกหากคุณทำนายการพูด BMI หรือ IQ พวกเขาวัดการสอบเทียบ (เช่นการทดสอบ Hosmer Lemeshow) และสิ่งที่เรียกว่าความสามารถในการแบ่งชั้นความเสี่ยง ไม่มีการเชื่อมต่อที่ใช้งานง่ายกับผลลัพธ์อย่างต่อเนื่องที่นั่นอย่างน้อยก็ไม่ไกลเท่าที่ฉันจะบอกได้

ในอีกด้านหนึ่ง RMSE ใช้เพื่อประเมินการคาดการณ์อย่างต่อเนื่อง (บันทึกกรณีของการทำนายความเสี่ยงซึ่ง RMSE เรียกว่าคะแนน Brier ซึ่งเป็นเครื่องมือประเมินแบบจำลองที่ล้าสมัยและเลิกใช้แล้ว) นี่เป็นเครื่องมือที่ยอดเยี่ยมและอาจใช้ในการปรับเทียบแบบจำลองการทำนายมากกว่า 80% ที่เราพบทุกวัน (พยากรณ์อากาศการจัดอันดับพลังงาน MPG สำหรับยานพาหนะ ฯลฯ )

ข้อแม้ในการตรวจสอบตัวอย่างแบบแยกหรือการสุ่มใหม่สำหรับการประเมินแบบจำลองการพยากรณ์คือคุณอาจสนใจผลลัพธ์ในอนาคตเมื่อตัวอย่างของคุณปล่อยให้คุณทำนายผลลัพธ์ที่ผ่านมาเท่านั้น อย่าทำอย่างนี้! มันไม่ได้สะท้อนให้เห็นถึงแอปพลิเคชั่นโมเดลและสามารถเลือกได้อย่างมากมายในทางลบ นำเสนอข้อมูลที่มีอยู่ทั้งหมดและทำนายอนาคตผลลัพธ์ที่ไม่ได้ตรวจสอบในทุกกรณี

หนังสือแบบจำลองเชิงเส้นที่นำมาใช้นั้นจะครอบคลุมการทำนาย RMSE และความแตกต่างของการฝึกอบรมและแบบจำลองการตรวจสอบความถูกต้อง การเริ่มต้นที่ดีคือ Kutner, Nachtsheim, Neter, Li ยังพิจารณา "การวิเคราะห์อนุกรมเวลา" ของ Diggle, Diggle Heagerty Zeger Li's, "การวิเคราะห์ข้อมูลตามยาว" และ "กลยุทธ์การสร้างแบบจำลองการถดถอย" ของ Harrell


CCC และ Harrell สามารถใช้ได้กับผลลัพธ์อย่างต่อเนื่อง CCC ยังมีมาตรการดำเนินการซ้ำแล้วซ้ำอีก ดูการอ้างอิง / ลิงค์ที่ฉันเพิ่มเข้าไปในคำถาม
Dimitriy V. Masterov

ไม่เป็นไร คุณไม่ได้จัดประเภท
AdamO
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.