คำถามติดแท็ก model-comparison

การเปรียบเทียบแบบจำลองตั้งแต่สองรุ่นขึ้นไปจะเหมาะสมกับชุดข้อมูลทั่วไป อาจเป็นส่วนหนึ่งของกระบวนการ "การเลือกแบบจำลอง"

3
สิ่งที่จำเป็นต้องมีสำหรับการเปรียบเทียบแบบจำลอง AIC
อะไรคือสิ่งที่จำเป็นต้องมีซึ่งจำเป็นต้องทำให้สำเร็จสำหรับการเปรียบเทียบแบบจำลอง AIC กับการทำงาน ฉันเพิ่งพบคำถามนี้เมื่อฉันเปรียบเทียบเช่นนี้ > uu0 = lm(log(usili) ~ rok) > uu1 = lm(usili ~ rok) > AIC(uu0) [1] 3192.14 > AIC(uu1) [1] 14277.29 วิธีนี้ผมธรรมการเปลี่ยนแปลงของตัวแปรlog usiliแต่ฉันไม่รู้ว่าฉันสามารถเปรียบเทียบแบบจำลอง AIC ได้หรือไม่ตัวอย่างเช่นตัวแปรตามนั้นแตกต่างกันหรือไม่? คำตอบในอุดมคติจะรวมรายการของสิ่งที่จำเป็นต้องมี (ข้อสมมติฐานทางคณิตศาสตร์)

3
ข้อผิดพลาดของแบบผสมเชิงเส้น
ข้อผิดพลาดหลักของการใช้โมเดลเอฟเฟกต์แบบผสมคืออะไร อะไรคือสิ่งสำคัญที่สุดในการทดสอบ / ระวังในการประเมินความเหมาะสมของแบบจำลองของคุณ เมื่อเปรียบเทียบแบบจำลองของชุดข้อมูลเดียวกันสิ่งที่สำคัญที่สุดที่ควรมองหาคืออะไร

3
ความคล้ายคลึงกันของสองฟูเรียร์ tranforms ต่อเนื่อง
ในการสร้างแบบจำลองสภาพภูมิอากาศคุณกำลังมองหาโมเดลที่สามารถถ่ายทอดสภาพภูมิอากาศของโลกได้อย่างเพียงพอ ซึ่งรวมถึงรูปแบบการแสดงที่มีลักษณะกึ่งวัฏจักร: สิ่งต่าง ๆ เช่น El Nino Southern Oscillation แต่โดยทั่วไปการตรวจสอบรูปแบบเกิดขึ้นในช่วงเวลาสั้น ๆ ซึ่งมีข้อมูลการสังเกตที่เหมาะสม (ในช่วง 150 ปีที่ผ่านมา) ซึ่งหมายความว่าแบบจำลองของคุณสามารถแสดงรูปแบบที่ถูกต้อง แต่อยู่นอกระยะเช่นการเปรียบเทียบเชิงเส้นเช่นความสัมพันธ์จะไม่เกิดขึ้นเมื่อแบบจำลองนั้นทำงานได้ดี .. การแปลงฟูริเยร์แบบไม่ต่อเนื่องมักใช้เพื่อวิเคราะห์ข้อมูลสภาพภูมิอากาศ ( นี่คือตัวอย่าง ) เพื่อรับรูปแบบวงจรดังกล่าว มีการวัดมาตรฐานของความคล้ายคลึงกันของ DFT สองตัวที่สามารถใช้เป็นเครื่องมือตรวจสอบ (เช่นการเปรียบเทียบระหว่าง DFT สำหรับแบบจำลองและแบบจำลองสำหรับการสังเกต) หรือไม่ มันจะสมเหตุสมผลไหมที่จะใช้อินทิกรัลของค่าต่ำสุดของ DFTs สองมาตรฐานที่กำหนดพื้นที่ (โดยใช้ค่าจริงที่แน่นอน) ฉันคิดว่าสิ่งนี้จะส่งผลให้คะแนนโดยที่x = 1x ∈ [ 0 , 1 ]x∈[0,1]x\in[0,1]x = 1⟹x=1⟹x=1\impliesรูปแบบเหมือนกันทุกประการและx = 0⟹x=0⟹x=0\impliesรูปแบบที่แตกต่างกันโดยสิ้นเชิง ข้อเสียของวิธีการดังกล่าวอาจเป็นอย่างไร

5
เมื่อใดที่จะใช้หลายรุ่นสำหรับการทำนาย?
นี่เป็นคำถามที่ค่อนข้างทั่วไป: ฉันมักจะพบว่าการใช้แบบจำลองที่แตกต่างกันหลายแบบมีประสิทธิภาพสูงกว่าแบบจำลองเดียวเมื่อพยายามทำนายอนุกรมเวลาจากตัวอย่าง มีเอกสารที่ดีที่แสดงให้เห็นว่าการรวมกันของแบบจำลองจะดีกว่าแบบจำลองเดียวหรือไม่? มีวิธีปฏิบัติที่ดีที่สุดในการรวมหลายรุ่นหรือไม่ อ้างอิงบางส่วน: Hui Zoua, Yuhong Yang "การรวมตัวแบบอนุกรมเวลาสำหรับการพยากรณ์" International Journal of Forecasting 20 (2004) 69–84

1
ความแตกต่างระหว่างการคาดการณ์“ ในตัวอย่าง” และ“ หลอกออกจากตัวอย่าง”
มีความแตกต่างอย่างชัดเจนระหว่างการคาดการณ์ในตัวอย่างและการคาดการณ์ออกจากตัวอย่างหลอก ทั้งสองมีความหมายในบริบทของการประเมินและเปรียบเทียบแบบจำลองการพยากรณ์

2
จำนวนพารามิเตอร์ในโมเดลมาร์คอฟ
ฉันต้องการใช้ BIC สำหรับการเลือกรุ่น HMM: BIC = -2*logLike + num_of_params * log(num_of_data) ดังนั้นฉันจะนับจำนวนพารามิเตอร์ในโมเดล HMM ได้อย่างไร พิจารณา HMM แบบ 2 สถานะง่ายๆโดยที่เรามีข้อมูลต่อไปนี้: data = [1 2 1 1 2 2 2 1 2 3 3 2 3 2 1 2 2 3 4 5 5 3 3 2 6 6 5 6 4 …

4
ความสัมพันธ์ระหว่าง ANOVA เพื่อเปรียบเทียบวิธีการของหลายกลุ่มและ ANOVA เพื่อเปรียบเทียบแบบจำลองที่ซ้อนกันคืออะไร?
ฉันเคยเห็น ANOVA ใช้สองวิธี: อันดับแรกในข้อความสถิติเบื้องต้นของฉัน ANOVA ถูกนำมาใช้เป็นวิธีเปรียบเทียบกลุ่มสามกลุ่มหรือมากกว่านั้นเพื่อปรับปรุงมากกว่าการเปรียบเทียบแบบคู่เพื่อที่จะตัดสินว่าหนึ่งในวิธีนั้นมีความแตกต่างอย่างมีนัยสำคัญทางสถิติหรือไม่ ประการที่สองในข้อความการเรียนรู้เชิงสถิติของฉันฉันเคยเห็น ANOVA เคยใช้แบบจำลองซ้อนกันสอง (หรือมากกว่า) เพื่อตรวจสอบว่าแบบจำลอง 1 ซึ่งใช้ชุดย่อยของตัวทำนายรุ่น 2 เหมาะกับข้อมูลเท่ากันหรือเต็ม รุ่น 2 ยอดเยี่ยม ตอนนี้ฉันคิดว่าในทางใดทางหนึ่งหรือทั้งสองสิ่งนี้คล้ายกันจริง ๆ เพราะพวกเขาทั้งสองใช้การทดสอบ ANOVA แต่บนพื้นผิวพวกเขาดูเหมือนจะแตกต่างกันมากสำหรับฉัน สำหรับหนึ่งการใช้งานครั้งแรกเปรียบเทียบสามกลุ่มขึ้นไปในขณะที่วิธีที่สองสามารถใช้เพื่อเปรียบเทียบเพียงสองรุ่น มีใครบ้างที่โปรดอธิบายการเชื่อมต่อระหว่างการใช้งานทั้งสองนี้

2
การเปรียบเทียบตัวแบบการถดถอยเชิงเส้นสองแบบ
ฉันต้องการเปรียบเทียบแบบจำลองการถดถอยเชิงเส้นสองแบบซึ่งเป็นตัวแทนของอัตราการลดลงของ mRNA เมื่อเวลาผ่านไปภายใต้เงื่อนไขที่แตกต่างกันสองแบบ ข้อมูลสำหรับแต่ละรุ่นรวบรวมอย่างอิสระ นี่คือชุดข้อมูล บันทึกเวลา (ชั่วโมง) (การรักษา A) บันทึก (การรักษา B) 0 2.02 1.97 0 2.04 2.06 0 1.93 1.96 2 2.02 1.91 2 2.00 1.95 2 2.07 1.82 4 1.96 1.97 4 2.02 1.99 4 2.02 1.99 6 1.94 1.90 6 1.94 1.97 6 1.86 1.88 8 1.93 …

3
การเปรียบเทียบตัวแบบการถดถอยกับข้อมูลการนับ
ฉันเพิ่งพอดีแบบจำลองการถดถอย 4 แบบสำหรับข้อมูลตัวทำนาย / ตอบกลับเดียวกัน รุ่นที่ฉันพอดีกับการถดถอยของปัวซอง model.pois <- glm(Response ~ P1 + P2 +...+ P5, family=poisson(), ...) model.pois.inter <- glm(Response ~ (P1 + P2 +...+ P5)^2, family=poisson(), ...) แบบจำลองสองแบบที่ฉันพอดีกับการถดถอยแบบทวินาม library(MASS) model.nb <- glm.nb(Response ~ P1 + P2 +...+ P5, ...) model.nb.inter <- glm.nb(Response ~ (P1 + P2 +...+ P5)^2, ...) …

1
ฉันจะรวมเอานวัตกรรมล้ำสมัยที่การสังเกตที่ 48 ในโมเดล ARIMA ของฉันได้อย่างไร
ฉันกำลังทำงานกับชุดข้อมูล หลังจากใช้เทคนิคการระบุตัวแบบบางอย่างฉันก็ออกมาพร้อมกับแบบจำลอง ARIMA (0,2,1) ผมใช้detectIOฟังก์ชั่นในแพคเกจTSAในการวิจัยที่จะตรวจพบนวัตกรรมขอบเขต (IO) ที่สังเกต 48th ของชุดข้อมูลเดิมของฉัน ฉันจะรวมค่าผิดปกตินี้ไว้ในแบบจำลองของฉันเพื่อที่ฉันจะสามารถใช้เพื่อวัตถุประสงค์ในการพยากรณ์ได้อย่างไร ฉันไม่ต้องการใช้แบบจำลอง ARIMAX เนื่องจากฉันอาจไม่สามารถคาดการณ์ได้จากสิ่งนั้นใน R มีวิธีอื่นที่ฉันสามารถทำได้หรือไม่ นี่คือค่านิยมของฉันตามลำดับ: VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

1
การประเมินประสิทธิภาพการทำนายอนุกรมเวลา
ฉันมี Dynamic Naive Bayes Model ที่ได้รับการฝึกอบรมเกี่ยวกับตัวแปรทางโลกสองสามอย่าง ผลลัพธ์ของตัวแบบคือการทำนายP(Event) @ t+1โดยประมาณที่แต่ละtตัว พล็อตของP(Event)แทนที่จะtimeเป็นได้รับในรูปด้านล่าง ในรูปนี้เส้นสีดำแสดงถึงP(Event)แบบจำลองที่ทำนายไว้ เส้นสีแดงในแนวนอนหมายถึงความน่าจะเป็นสิ่งที่เกิดขึ้นก่อนเหตุการณ์; และเส้นแนวตั้งประเป็นตัวแทนเหตุการณ์ที่เกิดขึ้นห้าเหตุการณ์ในอนุกรมเวลา โดยหลักการแล้วฉันต้องการเห็นP(Event)จุดสูงสุดที่คาดการณ์ไว้ก่อนที่จะสังเกตเหตุการณ์ใด ๆ และอยู่ใกล้กับศูนย์เมื่อไม่มีโอกาสของเหตุการณ์ ฉันต้องการรายงานว่าแบบจำลองของฉัน (เส้นสีดำ) ทำงานได้ดีเพียงใดในการทำนายเหตุการณ์ที่เกิดขึ้น ผู้สมัครที่ชัดเจนที่จะเปรียบเทียบรูปแบบของฉันที่มีคือความน่าจะเป็นของเหตุการณ์ก่อน (เส้นสีแดง) ซึ่งหากใช้เป็น predictor- tจะทำนายค่าความน่าจะเป็นเหมือนกันสำหรับทุก อะไรคือสิ่งที่ดีที่สุดวิธีการอย่างเป็นทางการเพื่อให้บรรลุการเปรียบเทียบนี้? PS:ขณะนี้ฉันกำลังใช้การให้คะแนน (ใช้งานง่าย) ตามรหัสด้านล่างโดยที่คะแนนที่ต่ำกว่าโดยรวมบ่งบอกถึงประสิทธิภาพการทำนายที่ดีกว่า ฉันพบว่าจริง ๆ แล้วมันค่อนข้างยากที่จะเอาชนะก่อนด้วยการให้คะแนนนี้: # Get prediction performance model_score = 0; prior_score=0; for t in range(len(timeSeries)): if(timeSeries[t]== event): # event has happened cur_model_score …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.