วิธีการเปรียบเทียบความแม่นยำของแบบจำลองที่แตกต่างกันสองแบบโดยใช้นัยสำคัญทางสถิติ


10

ฉันกำลังทำงานกับการทำนายอนุกรมเวลา ฉันมีสองชุดข้อมูลและ\} ฉันมีสามรูปแบบการทำนาย:M3 ทั้งหมดของรูปแบบเหล่านี้จะได้รับการฝึกฝนโดยใช้ตัวอย่างในชุดข้อมูลและประสิทธิภาพการทำงานของพวกเขาจะวัดโดยใช้กลุ่มตัวอย่างในชุดข้อมูลD2สมมติว่าตัวชี้วัดประสิทธิภาพคือ MSE (หรืออย่างอื่น) ค่า MSE ของแบบจำลองเหล่านั้นเมื่อวัดสำหรับชุดข้อมูลมีและMSE_3ฉันจะทดสอบได้อย่างไรว่าการปรับปรุงโมเดลหนึ่งเหนืออีกโมเดลหนึ่งนั้นมีนัยสำคัญทางสถิติD1={x1,x2,....xn}D2={xn+1,xn+2,xn+3,....,xn+k}M1,M2,M3D1D2D2MSE1,MSE2,MSE3

ตัวอย่างเช่นสมมติว่า , ,และจำนวนตัวอย่างทั้งหมดในชุดข้อมูลตามที่คำนวณ MSE เหล่านั้นคือ 2000 ฉันจะทดสอบได้อย่างไรว่า ,และแตกต่างกันอย่างมีนัยสำคัญ . ฉันจะขอบคุณมากถ้าใครสามารถช่วยฉันในปัญหานี้MSE1=200MSE2=205MSE3=210D2MSE1MSE2MSE3

คำตอบ:


1

หนึ่งในโพสต์ที่เชื่อมโยงเหนือ alludes ถึงการใช้การทดสอบอัตราส่วนความน่าจะเป็นแม้ว่าโมเดลของคุณจะต้องซ้อนกันเพื่อให้ทำงานได้ (เช่นพารามิเตอร์ทั้งหมดในหนึ่งในโมเดลต้องแสดงในแบบจำลองที่คุณกำลังทดสอบ) .

RMSE เป็นการวัดว่าโมเดลเหมาะสมกับข้อมูลได้ดีเพียงใด อย่างไรก็ตามอัตราส่วนความน่าจะเป็นก็เป็นเช่นนั้น ความน่าจะเป็นสำหรับคนที่ได้รับคือนางเฉินพูดว่าเป็นความน่าจะเป็นที่คน ๆ หนึ่งที่มีพารามิเตอร์ทั้งหมดของเธอมีผลลัพธ์ที่เธอมี โอกาสร่วมของชุดข้อมูลคือความเป็นไปได้ของนางเฉิน * ความเป็นไปได้ของนางกุนเดอเซ็น * โอกาสของนางจอห์นสัน * ...

การเพิ่มโควาเรียตหรือจำนวนโควาเรียไม่สามารถทำให้อัตราส่วนความน่าจะเป็นแย่ลงได้ฉันไม่คิด แต่สามารถปรับปรุงอัตราส่วนความน่าจะเป็นได้ด้วยจำนวนที่ไม่สำคัญ แบบจำลองที่เหมาะสมยิ่งขึ้นจะมีโอกาสสูงขึ้น คุณสามารถทดสอบอย่างเป็นทางการว่าแบบ A เหมาะกับรุ่น B ดีกว่าหรือไม่ คุณควรมีฟังก์ชั่นการทดสอบ LR ในซอฟต์แวร์ที่คุณใช้ แต่โดยทั่วไปแล้วสถิติการทดสอบของ LR คือ -2 * ความแตกต่างของบันทึกของความน่าจะเป็นและมันกระจายไคสแควร์ด้วย df = ความแตกต่างของจำนวน ของพารามิเตอร์

นอกจากนี้การเปรียบเทียบ AIC หรือ BIC ของทั้งสองรุ่นและการค้นหาอันที่ต่ำที่สุดก็เป็นที่ยอมรับเช่นกัน AIC และ BIC นั้นมีความเป็นไปได้ที่จะถูกลงโทษสำหรับจำนวนพารามิเตอร์

ฉันไม่แน่ใจเกี่ยวกับการใช้ t-test สำหรับ RMSEs และฉันจะเอนตัวไปหามันเว้นแต่คุณจะพบงานทางทฤษฎีที่ทำในพื้นที่ โดยพื้นฐานแล้วคุณรู้หรือไม่ว่าค่าของ RMSE มีการกระจายแบบไม่เชิงเส้น ฉันไม่แน่ใจ. มีการอภิปรายเพิ่มเติมที่นี่:

http://www.stata.com/statalist/archive/2012-11/index.html#01017


0

คำตอบนี้ไม่ได้คำนึงถึงความจริงว่าข้อมูลของคุณเป็นอนุกรมเวลา แต่ฉันไม่คิดว่านี่จะเป็นปัญหา

เมื่อใช้ RMSE โพสต์นี้แนะนำให้ใช้ t-test: การทดสอบความสำคัญของ RMSE ของแบบจำลอง

คุณสามารถใช้สหสัมพันธ์ของเพียร์สันเพื่อประเมินความฟิตของคุณ ตามโพสต์นี้คุณสามารถใช้การทดสอบ t ของ Wolfe สำหรับสิ่งนั้น: นัยสำคัญทางสถิติของการเพิ่มความสัมพันธ์

ฉันกำลังพยายามเรียนรู้เกี่ยวกับปัญหาเดียวกัน ฉันขอขอบคุณคำตอบที่ละเอียดยิ่งขึ้นด้วยตนเอง


0

มีสองวิธีหลักในการทำเช่นนี้ แต่ก่อนอื่นฉันจะท้าทายความคิดที่คุณต้องการเลือกเพียงวิธีเดียว เป็นไปได้มากว่าชุดรูปแบบของทั้งสามรุ่นจะได้รับประสิทธิภาพที่ดีที่สุด

วิธีที่สำคัญที่สุดที่ควรทำคือใช้แบบจำลองเพื่อให้ได้ช่วงความมั่นใจรอบตัวชี้วัดการประเมิน โดยทั่วไปจะทำผ่านbootstrapping ( หรือ Poisson bootstrap )

อีกวิธีคือใช้การทดสอบทางสถิติ การทดสอบทุกครั้งทำให้สมมติฐานแตกต่างกันและสิ่งเหล่านี้มักใช้เพื่อเปรียบเทียบค่าหรือตัวอย่างที่นำมาจากการแจกแจงแทนที่จะเป็นการประเมินแบบจุดเดียว การทดสอบทางสถิติจำนวนมากเหล่านี้ต้องการความเป็นอิสระซึ่งโดยปกติแล้วคุณจะไม่ได้รับเมื่อเปรียบเทียบผลลัพธ์หลายรายการของรุ่นเดียวกันหรือหลายรุ่นในช่วงข้อมูลอนุกรมเวลา

ด้วยการคาดการณ์อนุกรมเวลาโดยเฉพาะคุณควรทำการทดสอบย้อนกลับด้วยการตรวจสอบความถูกต้องข้ามและประเมินข้อผิดพลาดของรถไฟและการทดสอบในแต่ละครั้ง ( ตัวอย่าง ) เมื่อคุณทำเช่นนี้ฉันสงสัยว่าแบบจำลองของคุณจะทำงานคล้ายกันจนคุณต้องทดสอบทางสถิติเพื่อแยกความแตกต่าง เป็นไปได้มากว่าคุณจะเห็นความแตกต่างมากมาย

โปรดทราบว่าเมตริกการประเมินประวัติ (การเปรียบเทียบจริงกับการคาดการณ์) เพียงอย่างเดียวนั้นไม่เพียงพอสำหรับการประเมินการทำนาย เมื่อได้รับการคาดการณ์สองแบบที่ตรงกับข้อมูลทางประวัติศาสตร์ที่เป็นที่รู้จักอย่างสมบูรณ์แบบ แต่มีสิ่งหนึ่งที่ตรงกับความเชื่อเดิมเกี่ยวกับอนาคตและการละเมิดอื่น ๆ อย่างชัดเจน (เช่นหากหนึ่งหายไปเป็นศูนย์ แต่คุณมีเหตุผลที่เชื่อว่า ที่ตรงกับที่คุณดีกว่าก่อน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.