คำถามติดแท็ก model-evaluation

ในการประเมินแบบจำลองทั้งในตัวอย่างหรือนอกตัวอย่าง

1
การประเมินประสิทธิภาพของตัวแบบการถดถอยโดยใช้ชุดฝึกอบรมและชุดทดสอบ?
ฉันมักจะได้ยินเกี่ยวกับการประเมินประสิทธิภาพของรูปแบบการจำแนกประเภทโดยถือชุดทดสอบและฝึกอบรมแบบจำลองในชุดฝึกอบรม จากนั้นสร้างเวกเตอร์ 2 ตัวหนึ่งรายการสำหรับค่าที่คาดการณ์และอีกหนึ่งรายการสำหรับค่าจริง เห็นได้ชัดว่าการเปรียบเทียบช่วยให้ผู้ตัดสินประสิทธิภาพของแบบจำลองโดยใช้พลังการทำนายโดยใช้สิ่งต่าง ๆ เช่นคะแนน F, สถิติ Kappa, ความแม่นยำ & การเรียกคืน, เส้นโค้ง ROC เป็นต้น สิ่งนี้เปรียบเทียบกับการประเมินการทำนายตัวเลขเช่นการถดถอยอย่างไร ฉันจะสมมติว่าคุณสามารถฝึกรูปแบบการถดถอยในชุดฝึกอบรมใช้เพื่อทำนายค่าจากนั้นเปรียบเทียบค่าที่ทำนายเหล่านี้กับค่าจริงที่อยู่ในชุดทดสอบ เห็นได้ชัดว่าการวัดประสิทธิภาพจะต้องแตกต่างกันเนื่องจากนี่ไม่ใช่งานจัดหมวดหมู่ สถิติทั่วไปและเหลือเป็นมาตรการที่ชัดเจน แต่มีวิธีที่ดีกว่า / ดีกว่าในการประเมินประสิทธิภาพสำหรับตัวแบบการถดถอยหรือไม่? ดูเหมือนว่าการจัดประเภทมีตัวเลือกมากมาย แต่การถดถอยถูกปล่อยไว้ที่และส่วนที่เหลือR2R2R^2R2R2R^2

1
ฉันจะรวมเอานวัตกรรมล้ำสมัยที่การสังเกตที่ 48 ในโมเดล ARIMA ของฉันได้อย่างไร
ฉันกำลังทำงานกับชุดข้อมูล หลังจากใช้เทคนิคการระบุตัวแบบบางอย่างฉันก็ออกมาพร้อมกับแบบจำลอง ARIMA (0,2,1) ผมใช้detectIOฟังก์ชั่นในแพคเกจTSAในการวิจัยที่จะตรวจพบนวัตกรรมขอบเขต (IO) ที่สังเกต 48th ของชุดข้อมูลเดิมของฉัน ฉันจะรวมค่าผิดปกตินี้ไว้ในแบบจำลองของฉันเพื่อที่ฉันจะสามารถใช้เพื่อวัตถุประสงค์ในการพยากรณ์ได้อย่างไร ฉันไม่ต้องการใช้แบบจำลอง ARIMAX เนื่องจากฉันอาจไม่สามารถคาดการณ์ได้จากสิ่งนั้นใน R มีวิธีอื่นที่ฉันสามารถทำได้หรือไม่ นี่คือค่านิยมของฉันตามลำดับ: VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

3
วิธีการเปรียบเทียบความแม่นยำของแบบจำลองที่แตกต่างกันสองแบบโดยใช้นัยสำคัญทางสถิติ
ฉันกำลังทำงานกับการทำนายอนุกรมเวลา ฉันมีสองชุดข้อมูลและ\} ฉันมีสามรูปแบบการทำนาย:M3 ทั้งหมดของรูปแบบเหล่านี้จะได้รับการฝึกฝนโดยใช้ตัวอย่างในชุดข้อมูลและประสิทธิภาพการทำงานของพวกเขาจะวัดโดยใช้กลุ่มตัวอย่างในชุดข้อมูลD2สมมติว่าตัวชี้วัดประสิทธิภาพคือ MSE (หรืออย่างอื่น) ค่า MSE ของแบบจำลองเหล่านั้นเมื่อวัดสำหรับชุดข้อมูลมีและMSE_3ฉันจะทดสอบได้อย่างไรว่าการปรับปรุงโมเดลหนึ่งเหนืออีกโมเดลหนึ่งนั้นมีนัยสำคัญทางสถิติD 1 = { x1, x2, . . . . xn}D1={x1,x2,....xn}D1=\{x_1, x_2,....x_n\}D 2 = { xn+ 1 , xn+ 2 , xn+ 3 , . . . , xn+ k }D2={xn+1,xn+2,xn+3,....,xn+k}D2=\{x_n+1, x_n+2, x_n+3,...., x_n+k\}M1 , M2 , M3M1,M2,M3M1, M2, M3D 1D1D1D 2D2D2D …

3
วิธีการเมื่อเรียนรู้จากชุดข้อมูลขนาดใหญ่?
โดยทั่วไปมีสองวิธีทั่วไปในการเรียนรู้กับชุดข้อมูลขนาดใหญ่ (เมื่อคุณเผชิญกับข้อ จำกัด ด้านเวลา / พื้นที่): การโกง :) - ใช้ชุดย่อยที่ "จัดการได้" เพื่อการฝึกอบรม การสูญเสียความถูกต้องอาจเล็กน้อยเนื่องจากกฎของผลตอบแทนลดลง - ประสิทธิภาพการทำนายของตัวแบบมักจะแบนนานก่อนที่ข้อมูลการฝึกอบรมทั้งหมดจะถูกรวมเข้าไป การคำนวณแบบขนาน - แบ่งปัญหาออกเป็นส่วนเล็ก ๆ และแก้ปัญหาแต่ละเรื่องด้วยเครื่อง / โปรเซสเซอร์ที่แยกต่างหาก คุณต้องใช้อัลกอริทึมรุ่นขนาน แต่ข่าวดีก็คือว่าอัลกอริทึมทั่วไปจำนวนมากนั้นขนานกันตามธรรมชาติ: เพื่อนบ้านที่ใกล้ที่สุดต้นไม้ตัดสินใจ ฯลฯ มีวิธีอื่นไหม มีกฎของหัวแม่มือเมื่อใช้แต่ละ? ข้อเสียของแต่ละวิธีคืออะไร?

3
วิธีที่ดีที่สุดในการประเมินวิธีการประมาณ PDF
ฉันต้องการทดสอบความคิดของฉันที่ฉันคิดว่าดีกว่าสิ่งที่ฉันได้เห็น ฉันอาจจะผิด แต่ฉันต้องการที่จะทดสอบความคิดของฉันและเอาชนะข้อสงสัยของฉันโดยการสังเกตเพิ่มเติมบางอย่าง สิ่งที่ฉันคิดที่จะทำคือ: วิเคราะห์กำหนดชุดของการแจกแจง บางส่วนเป็นแบบง่าย ๆ เช่น Gaussian, uniform, หรือ Tophat แต่สิ่งเหล่านี้ต้องยากและท้าทายเช่นการจำหน่ายซิมป์สัน ใช้งานซอฟต์แวร์ตามการแจกแจงเชิงวิเคราะห์และใช้เพื่อสร้างตัวอย่างบางส่วน เนื่องจากการแจกแจงนั้นถูกกำหนดไว้ในการวิเคราะห์ฉันจึงรู้นิยาม PDF ที่แท้จริงของพวกมันอยู่แล้ว มันเยี่ยมมาก จากนั้นฉันจะทดสอบวิธีการประมาณ PDF ต่อไปนี้กับตัวอย่างด้านบน: วิธีการประมาณค่า PDF ที่มีอยู่ (เช่น KDE ที่มีเมล็ดและแบนด์วิดท์ต่างๆ) ความคิดของฉันเองที่ฉันคิดว่าคุ้มค่าที่จะลอง จากนั้นฉันจะวัดข้อผิดพลาดของการประมาณกับ PDF จริง จากนั้นฉันจะรู้ว่าวิธีการประมาณ PDF แบบใดดีกว่า คำถามของฉันคือ: คำถามที่ 1:มีการปรับปรุงแผนของฉันข้างต้นหรือไม่ Q2:ฉันพบว่ามันยากสำหรับฉันที่จะวิเคราะห์ PDF จริงหลาย ๆ อย่าง มีรายการที่ครอบคลุมของ PDF จริงที่กำหนดไว้มากมายที่วิเคราะห์ด้วยความยากลำบากที่แตกต่างกัน (รวมถึงไฟล์ที่ยากมาก) ที่ฉันสามารถนำกลับมาใช้ใหม่ได้หรือไม่?

1
การประเมินประสิทธิภาพการทำนายอนุกรมเวลา
ฉันมี Dynamic Naive Bayes Model ที่ได้รับการฝึกอบรมเกี่ยวกับตัวแปรทางโลกสองสามอย่าง ผลลัพธ์ของตัวแบบคือการทำนายP(Event) @ t+1โดยประมาณที่แต่ละtตัว พล็อตของP(Event)แทนที่จะtimeเป็นได้รับในรูปด้านล่าง ในรูปนี้เส้นสีดำแสดงถึงP(Event)แบบจำลองที่ทำนายไว้ เส้นสีแดงในแนวนอนหมายถึงความน่าจะเป็นสิ่งที่เกิดขึ้นก่อนเหตุการณ์; และเส้นแนวตั้งประเป็นตัวแทนเหตุการณ์ที่เกิดขึ้นห้าเหตุการณ์ในอนุกรมเวลา โดยหลักการแล้วฉันต้องการเห็นP(Event)จุดสูงสุดที่คาดการณ์ไว้ก่อนที่จะสังเกตเหตุการณ์ใด ๆ และอยู่ใกล้กับศูนย์เมื่อไม่มีโอกาสของเหตุการณ์ ฉันต้องการรายงานว่าแบบจำลองของฉัน (เส้นสีดำ) ทำงานได้ดีเพียงใดในการทำนายเหตุการณ์ที่เกิดขึ้น ผู้สมัครที่ชัดเจนที่จะเปรียบเทียบรูปแบบของฉันที่มีคือความน่าจะเป็นของเหตุการณ์ก่อน (เส้นสีแดง) ซึ่งหากใช้เป็น predictor- tจะทำนายค่าความน่าจะเป็นเหมือนกันสำหรับทุก อะไรคือสิ่งที่ดีที่สุดวิธีการอย่างเป็นทางการเพื่อให้บรรลุการเปรียบเทียบนี้? PS:ขณะนี้ฉันกำลังใช้การให้คะแนน (ใช้งานง่าย) ตามรหัสด้านล่างโดยที่คะแนนที่ต่ำกว่าโดยรวมบ่งบอกถึงประสิทธิภาพการทำนายที่ดีกว่า ฉันพบว่าจริง ๆ แล้วมันค่อนข้างยากที่จะเอาชนะก่อนด้วยการให้คะแนนนี้: # Get prediction performance model_score = 0; prior_score=0; for t in range(len(timeSeries)): if(timeSeries[t]== event): # event has happened cur_model_score …

2
การวัดประสิทธิภาพลักษณนามที่รวมความไวและความจำเพาะ?
ฉันมีข้อมูลป้ายกำกับ 2 ชั้นซึ่งฉันจัดหมวดหมู่โดยใช้ตัวแยกประเภทหลายตัว และชุดข้อมูลมีความสมดุลดี เมื่อประเมินประสิทธิภาพของตัวจําแนกฉันต้องพิจารณาความถูกต้องของตัวจําแนกในการพิจารณาไม่เพียง แต่บวกที่แท้จริง แต่เชิงลบที่แท้จริงยัง ดังนั้นถ้าฉันใช้ความถูกต้องและถ้าลักษณนามมีความเอนเอียงไปทางบวกและจำแนกทุกอย่างเป็นบวกฉันจะได้ความแม่นยำประมาณ 50% แม้ว่ามันจะล้มเหลวในการจำแนกเชิงลบจริงก็ตาม คุณสมบัตินี้ถูกขยายให้มีความแม่นยำและเรียกคืนตามที่พวกเขามุ่งเน้นไปที่หนึ่งคลาสเท่านั้นและกลับไปที่คะแนน F1 (นี่คือสิ่งที่ฉันเข้าใจแม้จากบทความนี้เช่น " เกินความแม่นยำคะแนน F และ ROC: ครอบครัวของมาตรการแบ่งแยกสำหรับการประเมินผลงาน ") ดังนั้นฉันสามารถใช้ความไวและความเฉพาะเจาะจง (TPR และ TNR) เพื่อดูว่าตัวแยกประเภทดำเนินการสำหรับแต่ละคลาสได้อย่างไรโดยที่ฉันตั้งใจจะเพิ่มค่าเหล่านี้ให้มากที่สุด คำถามของฉันคือฉันกำลังมองหาการวัดที่รวมค่าทั้งสองนี้เข้าด้วยกันในการวัดที่มีความหมายเดียว ฉันตรวจดูมาตรการที่ให้ไว้ในบทความนั้น แต่ฉันคิดว่ามันไม่สำคัญ และจากความเข้าใจของฉันฉันสงสัยว่าทำไมเราไม่สามารถใช้บางอย่างเช่นคะแนน F แต่แทนที่จะใช้ความแม่นยำและการเรียกคืนฉันจะใช้ความไวและความเฉพาะเจาะจง ดังนั้นสูตรจะเป็น และเป้าหมายของฉันจะเพิ่มสูงสุด วัดนี้ ฉันคิดว่ามันจะเป็นตัวแทนมาก มีสูตรที่คล้ายกันอยู่แล้ว? และนี่จะสมเหตุสมผลหรือเป็นเสียงทางคณิตศาสตร์หรือไม่การวัดประสิทธิภาพของฉัน=2 * ความไว* เฉพาะเจาะจงความไว+ จำเพาะการวัดประสิทธิภาพของฉัน=2* * * *ความไว* * * *ความจำเพาะความไว+ความจำเพาะ \text{my Performance Measure} …

5
วิธีการวัดประสิทธิภาพของลักษณนามเมื่อใกล้ถึง 100% ของเลเบลคลาสเป็นของคลาสเดียว?
ในข้อมูลของฉันฉันมีตัวแปรคลาสแสดงเป็นCค่าตัวแปรคลาสนี้คือ (ไบนารี) การสำรวจเกือบทั้งหมดเป็น 0 (ใกล้ 100% แม่นยำยิ่งขึ้น 97%) ฉันต้องการทดสอบ "ประสิทธิภาพ" สำหรับแบบจำลองการจำแนกประเภทที่แตกต่างกัน (อาจเป็นความแม่นยำ) สิ่งที่ฉันกลัวว่าจะเกิดขึ้นคือถ้าฉันมีรูปแบบการจำแนกที่จำแนกประเภทการสังเกตใด ๆ ในคลาส 0 เสมอโมเดลนั้นจะมีความแม่นยำ 97% (แม้ว่ามันจะไม่เคยพิจารณาตัวแปรอื่น ๆ ก็ตาม)คCC0 , 10,1{0, 1}คCC มีการทดสอบประสิทธิภาพที่รู้จักกันดีสำหรับแบบจำลองการจำแนกประเภทในการจัดการข้อมูลกับเหตุการณ์ที่เกิดขึ้นน้อยมากหรือไม่?

2
การเรียนรู้ที่เพิ่มขึ้นสำหรับโมเดลอนุกรมเวลา LOESS
ขณะนี้ฉันกำลังทำงานกับข้อมูลอนุกรมเวลาฉันรู้ว่าฉันสามารถใช้แบบจำลอง LOESS / ARIMA ข้อมูลถูกเขียนไปยังเวกเตอร์ที่มีความยาว 1,000 ซึ่งเป็นคิวการอัพเดททุก 15 นาที ดังนั้นข้อมูลเก่าจะโผล่ออกมาในขณะที่ข้อมูลใหม่พุชในเวกเตอร์ ฉันสามารถรันโมเดลทั้งหมดบนตัวกำหนดตารางเวลาอีกครั้งเช่นฝึกอบรมใหม่ทุก ๆ 15 นาทีนั่นคือใช้ค่าทั้งหมด 1,000 เพื่อฝึกแบบจำลอง LOESS อย่างไรก็ตามมันไม่มีประสิทธิภาพมากเพราะทุกครั้งที่ใส่ค่าเพียงหนึ่งในขณะที่อีก 999 vlaues ยังคงเหมือนเดิม ดังนั้นฉันจะบรรลุประสิทธิภาพที่ดีขึ้นได้อย่างไร ขอบคุณมาก
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.