คำถามติดแท็ก fitting

กระบวนการรวมแบบจำลองทางสถิติกับชุดข้อมูลเฉพาะ ส่วนใหญ่ทำบนคอมพิวเตอร์และใช้วิธีการเชิงตัวเลขที่หลากหลายเช่นการเพิ่มประสิทธิภาพหรือการรวมตัวเลขหรือการจำลอง

3
R: การสุ่มฟอเรสต์การโยน NaN / Inf ในข้อผิดพลาด“ การเรียกฟังก์ชันต่างประเทศ” แม้จะไม่มีชุดข้อมูลของ NaN [ปิด]
ฉันใช้คาเร็ตเพื่อรันฟอเรสต์แบบสุ่มที่ผ่านการตรวจสอบความถูกต้องข้ามชุดข้อมูล ตัวแปร Y เป็นปัจจัย ไม่มีชุดข้อมูลของ NaN, Inf's หรือ NA ในชุดข้อมูลของฉัน อย่างไรก็ตามเมื่อใช้ป่าสุ่มฉันได้รับ Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs …

6
พอดีกับคำที่ใช้ในข้อมูล
แม้ว่าฉันจะอ่านโพสต์นี้ฉันก็ยังไม่รู้ว่าจะใช้กับข้อมูลของฉันอย่างไรและหวังว่าจะมีคนช่วยฉันได้ ฉันมีข้อมูลต่อไปนี้: y <- c(11.622967, 12.006081, 11.760928, 12.246830, 12.052126, 12.346154, 12.039262, 12.362163, 12.009269, 11.260743, 10.950483, 10.522091, 9.346292, 7.014578, 6.981853, 7.197708, 7.035624, 6.785289, 7.134426, 8.338514, 8.723832, 10.276473, 10.602792, 11.031908, 11.364901, 11.687638, 11.947783, 12.228909, 11.918379, 12.343574, 12.046851, 12.316508, 12.147746, 12.136446, 11.744371, 8.317413, 8.790837, 10.139807, 7.019035, 7.541484, 7.199672, 9.090377, 7.532161, 8.156842, 9.329572, 9.991522, …
26 r  regression  fitting 

1
ตรวจจับค่าผิดปกติในข้อมูลการนับ
ฉันมีสิ่งที่ฉันคิดอย่างไร้เดียงสาว่าเป็นปัญหาที่ค่อนข้างตรงไปตรงมาซึ่งเกี่ยวข้องกับการตรวจจับนอกขอบเขตสำหรับชุดข้อมูลนับที่แตกต่างกันจำนวนมาก โดยเฉพาะฉันต้องการตรวจสอบว่าหนึ่งหรือมากกว่าหนึ่งค่าในชุดข้อมูลการนับจะสูงกว่าหรือต่ำกว่าที่คาดไว้เมื่อเทียบกับการนับที่เหลือในการแจกแจง ปัจจัยที่ทำให้สับสนคือฉันต้องทำสิ่งนี้สำหรับการแจกแจง 3,500 ครั้งและมีโอกาสที่พวกเขาบางคนจะพอดีกับปัวซองที่มีสัญญาณเกินศูนย์ที่สูงเกินจริงในขณะที่คนอื่น ๆ ด้วยเหตุนี้คะแนน Z แบบง่ายหรือการวางแผนการแจกแจงจึงไม่เหมาะสมกับชุดข้อมูลจำนวนมาก นี่คือตัวอย่างของข้อมูลการนับที่ฉันต้องการตรวจจับค่าผิดปกติ counts1=[1 1 1 0 2 1 1 0 0 1 1 1 1 1 0 0 0 0 1 2 1 1 2 1 1 1 1 0 0 1 0 1 1 1 1 0 0 0 0 0 …

1
เมื่อมีการวิเคราะห์จาโคเบียนจะดีกว่าหรือไม่ที่จะประมาณชาวเฮสเซียนโดยหรือโดยความแตกต่างที่ จำกัด ของจาโคเบียน
สมมติว่าฉันกำลังคำนวณพารามิเตอร์ของแบบจำลองฉันลดจำนวนผลรวมส่วนที่เหลือกำลังสองลดลงและฉันสมมติว่าข้อผิดพลาดของฉันคือเกาส์เซียน แบบจำลองของฉันสร้างอนุพันธ์การวิเคราะห์ดังนั้นเครื่องมือเพิ่มประสิทธิภาพจึงไม่จำเป็นต้องใช้ความแตกต่างที่แน่นอน เมื่อพอดีแล้วฉันต้องการคำนวณข้อผิดพลาดมาตรฐานของพารามิเตอร์ที่ติดตั้ง โดยทั่วไปในสถานการณ์นี้ Hessian ของฟังก์ชั่นข้อผิดพลาดจะต้องเกี่ยวข้องกับเมทริกซ์ความแปรปรวนร่วมโดย: โดยที่เป็นความแปรปรวนของเศษเหลือσ 2σ2H−1=Cσ2H−1=C \sigma^2 H^{-1} = C σ2σ2\sigma^2 เมื่อไม่มีการวิเคราะห์อนุพันธ์ของข้อผิดพลาดก็มักจะไม่สามารถคำนวณ Hessian ดังนั้นจึงถูกนำมาใช้เป็นค่าประมาณที่ดีJTJJTJJ^TJ อย่างไรก็ตามในกรณีของฉันฉันมีการวิเคราะห์ J ดังนั้นมันค่อนข้างถูกสำหรับฉันที่จะคำนวณ H โดยการหาผลต่าง จำกัด ดังนั้นคำถามของฉันคือ: มันจะแม่นยำกว่าถ้าประมาณ H โดยใช้ J ที่แน่นอนของฉันและใช้การประมาณข้างต้นหรือใช้ H ประมาณโดยการหาผลต่าง จำกัด J?

1
MLE เทียบกับกำลังสองน้อยที่สุดในการแจกแจงความน่าจะเป็นที่เหมาะสม
ความประทับใจที่ฉันได้รับจากบทความหนังสือและบทความต่าง ๆ ที่ฉันอ่านคือวิธีที่แนะนำในการกระจายความน่าจะเป็นในชุดของข้อมูลที่แนะนำโดยใช้การประมาณความน่าจะเป็นสูงสุด (MLE) อย่างไรก็ตามในฐานะนักฟิสิกส์วิธีที่ง่ายกว่าคือการใส่ pdf ของโมเดลให้ตรงกับ pdf เชิงประจักษ์ของข้อมูลโดยใช้กำลังสองน้อยที่สุด ทำไม MLE จึงดีกว่ากำลังสองน้อยที่สุดในการแจกแจงความน่าจะเป็นที่เหมาะสม? ใครช่วยกรุณาชี้ให้ฉันไปที่กระดาษ / หนังสือวิทยาศาสตร์ที่ตอบคำถามนี้ ลางสังหรณ์ของฉันเป็นเพราะ MLE ไม่คิดว่ารูปแบบเสียงและ "เสียง" ในรูปแบบไฟล์ PDF ประจักษ์เป็น heteroscedastic และไม่ปกติ

2
ความแตกต่างระหว่างการวิเคราะห์การถดถอยและการปรับเส้นโค้ง
ใครช่วยอธิบายความแตกต่างที่แท้จริงระหว่างการวิเคราะห์การถดถอยและการปรับเส้นโค้งให้ฉันได้ไหมถ้าเป็นไปได้ ดูเหมือนว่าทั้งคู่พยายามค้นหาความสัมพันธ์ระหว่างสองตัวแปร (ขึ้นอยู่กับอิสระ) จากนั้นกำหนดพารามิเตอร์ (หรือสัมประสิทธิ์) ที่เกี่ยวข้องกับแบบจำลองที่เสนอ ตัวอย่างเช่นหากฉันมีชุดข้อมูลเช่น: Y = [1.000 1.000 1.000 0.961 0.884 0.000] X = [1.000 0.063 0.031 0.012 0.005 0.000] ใครช่วยแนะนำสูตรสหสัมพันธ์ระหว่างตัวแปรทั้งสองนี้ได้ไหม ฉันมีปัญหาในการเข้าใจความแตกต่างระหว่างสองแนวทางนี้ หากคุณต้องการที่จะสนับสนุนคำตอบของคุณกับชุดข้อมูลอื่นมันก็โอเคเพราะชุดนั้นดูเหมือนจะยาก (อาจเป็นสำหรับฉันเท่านั้น) ชุดข้อมูลข้างต้นแสดงถึงแกนและของเส้นโค้งลักษณะการทำงานของตัวรับ (ROC) โดยที่คืออัตราบวกที่แท้จริง (TPR) และคืออัตราบวกเป็นบวก (FPR)xxxyyyyyyxxx ฉันกำลังพยายามหาเส้นโค้งหรือทำการวิเคราะห์การถดถอยตามคำถามเดิมของฉันยังไม่แน่ใจในจุดเหล่านี้เพื่อประเมิน TPR สำหรับ FPR ใด ๆ (หรือในทางกลับกัน) ข้อแรกเป็นที่ยอมรับทางวิทยาศาสตร์หรือไม่ที่จะหาฟังก์ชั่นการปรับโค้งให้เหมาะสมระหว่างตัวแปรอิสระสองตัว (TPR และ FPR)? ประการที่สองมันเป็นที่ยอมรับทางวิทยาศาสตร์หรือไม่ที่จะหาฟังก์ชั่นดังกล่าวถ้าฉันรู้ว่าการแจกแจงของลบจริงและกรณีบวกจริงไม่ปกติ?

3
การแจกแจง t ที่เหมาะสมใน R: พารามิเตอร์การปรับ
ฉันจะพอดีกับพารามิเตอร์ของการแจกแจงแบบทีคือพารามิเตอร์ที่สอดคล้องกับ 'เฉลี่ย' และ 'ส่วนเบี่ยงเบนมาตรฐาน' ของการแจกแจงแบบปกติ ฉันคิดว่าพวกมันถูกเรียกว่า 'mean' และ 'scaling / degrees of freedom' สำหรับการแจกแจงแบบ t? รหัสต่อไปนี้มักส่งผลให้เกิดข้อผิดพลาด 'การเพิ่มประสิทธิภาพล้มเหลว' library(MASS) fitdistr(x, "t") ฉันต้องปรับขนาด x ก่อนหรือแปลงเป็นความน่าจะเป็นหรือไม่? วิธีที่ดีที่สุดที่จะทำเช่นนั้น?

4
การเพิ่มความแม่นยำของเครื่องไล่ระดับสีจะลดลงเมื่อจำนวนการทำซ้ำเพิ่มขึ้น
ฉันกำลังทดลองกับอัลกอริทึมของเครื่องเร่งการไล่ระดับสีผ่านcaretแพ็คเกจใน R ใช้ชุดข้อมูลการรับสมัครวิทยาลัยขนาดเล็กฉันใช้รหัสต่อไปนี้: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

5
เหตุใดการถดถอยเชิงเส้นจึงใช้ฟังก์ชันต้นทุนตามระยะทางแนวดิ่งระหว่างสมมติฐานและจุดข้อมูลอินพุต
สมมติว่าเรามีจุดข้อมูลอินพุต (ตัวทำนายผล) และเอาต์พุต (ตอบกลับ) A, B, C, D, E และเราต้องการให้เส้นตรงผ่านจุดต่างๆ นี่เป็นปัญหาง่าย ๆ ในการอธิบายคำถาม แต่สามารถขยายไปยังมิติที่สูงขึ้นได้เช่นกัน คำชี้แจงปัญหา แบบที่ดีที่สุดในปัจจุบันหรือสมมติฐานจะถูกแสดงด้วยเส้นสีดำด้านบน ลูกศรสีน้ำเงิน ( →→\color{blue}\rightarrow ) แสดงระยะทางแนวตั้งระหว่างจุดข้อมูลกับจุดที่เหมาะสมที่สุดในปัจจุบันโดยการวาดเส้นแนวตั้งจากจุดจนถึงจุดตัดกับเส้น ลูกศรสีเขียว ( ) ถูกวาดเช่นนั้นในแนวตั้งฉากกับสมมติฐานปัจจุบันที่จุดตัดดังนั้นจึงแสดงระยะห่างน้อยที่สุดระหว่างจุดข้อมูลและสมมติฐานปัจจุบัน สำหรับจุด A และ B เส้นที่ลากขึ้นมานั้นจะเป็นแนวตั้งกับการคาดเดาที่ดีที่สุดในปัจจุบันและคล้ายกับเส้นที่แนวตั้งกับแกน x สำหรับจุดสองจุดนี้เส้นสีฟ้าและสีเขียวทับซ้อนกัน แต่ไม่ใช้สำหรับจุด C, D และ E→→\color{green}\rightarrow หลักการกำลังสองน้อยสุดกำหนดฟังก์ชันต้นทุนสำหรับการถดถอยเชิงเส้นโดยการลากเส้นแนวตั้งผ่านจุดข้อมูล (A, B, C, D หรือ E) ไปยังสมมติฐานที่คาดการณ์ ( ) ในรอบการฝึกอบรมที่กำหนดและแสดงด้วย→→\color{blue}\rightarrow CostFunction=∑Ni=1(yi−hθ(xi))2CostFunction=∑i=1N(yi−hθ(xi))2Cost Function …

3
ฉันจะตรวจจับเซ็กเมนต์ของชุดข้อมูลโดยทางโปรแกรมให้เหมาะสมกับเส้นโค้งที่ต่างกันได้อย่างไร
มีอัลกอริธึมที่มีเอกสารใด ๆ ในการแยกส่วนของชุดข้อมูลที่กำหนดเป็นส่วนโค้งที่แตกต่างกันของชุดข้อมูลที่เหมาะสมที่สุดหรือไม่? ตัวอย่างเช่นมนุษย์ส่วนใหญ่ที่ดูแผนภูมิข้อมูลนี้จะแบ่งออกเป็น 3 ส่วนอย่างง่าย: ส่วนของไซน์, ส่วนเชิงเส้นและส่วนอธิบายอินเวอร์ส อันที่จริงฉันสร้างสิ่งนี้ขึ้นมาด้วยคลื่นไซน์เส้นและสูตรเลขชี้กำลังแบบง่าย มีอัลกอริธึมที่มีอยู่สำหรับการค้นหาชิ้นส่วนเช่นนั้นซึ่งสามารถติดตั้งแยกกันกับส่วนโค้ง / เส้นต่าง ๆ เพื่อสร้างชุดข้อมูลเชิงประกอบที่เหมาะที่สุดกับชุดย่อยของข้อมูลหรือไม่? โปรดทราบว่าถึงแม้ว่าตัวอย่างจะมีส่วนท้ายของกลุ่มค่อนข้างมาก แต่ก็ไม่จำเป็นต้องเป็นอย่างนั้น นอกจากนี้ยังอาจมีการกระทุ้งฉับพลันในค่าที่ตัดส่วน บางทีกรณีเหล่านั้นจะง่ายต่อการตรวจจับ อัปเดต: นี่คือรูปภาพของข้อมูลจริงเล็กน้อย: อัปเดต 2: นี่คือชุดข้อมูลจริงขนาดเล็กผิดปกติ (มีเพียง 509 จุดข้อมูล): 4,53,53,53,53,58,56,52,49,52,56,51,44,39,39,39,37,33,27,21,18,12,19,30,45,66,92,118,135,148,153,160,168,174,181,187,191,190,191,192,194,194,194,193,193,201,200,199,199,199,197,193,190,187,176,162,157,154,144,126,110,87,74,57,46,44,51,60,65,66,90,106,99,87,84,85,83,91,95,99,101,102,102,103,105,110,107,108,135,171,171,141,120,78,42,44,52,54,103,128,82,103,46,27,73,123,125,77,24,30,27,36,42,49,32,55,20,16,21,31,78,140,116,99,58,139,70,22,44,7,48,32,18,16,25,16,17,35,29,11,13,8,8,18,14,0,10,18,2,1,4,0,61,87,91,2,0,2,9,40,21,2,14,5,9,49,116,100,114,115,62,41,119,191,190,164,156,109,37,15,0,5,1,0,0,2,4,2,0,48,129,168,112,98,95,119,125,191,241,209,229,230,231,246,249,240,99,32,0,0,2,13,28,39,15,15,19,31,47,61,92,91,99,108,114,118,121,125,129,129,125,125,131,135,138,142,147,141,149,153,152,153,159,161,158,158,162,167,171,173,174,176,178,184,190,190,185,190,200,199,189,196,197,197,196,199,200,195,187,191,192,190,186,184,184,179,173,171,170,164,156,155,156,151,141,141,139,143,143,140,146,145,130,126,127,127,125,122,122,127,131,134,140,150,160,166,175,192,208,243,251,255,255,255,249,221,190,181,181,181,181,179,173,165,159,153,162,169,165,154,144,142,145,136,134,131,130,128,124,119,115,103,78,54,40,25,8,2,7,12,25,13,22,15,33,34,57,71,48,16,1,2,0,2,21,112,174,191,190,152,153,161,159,153,71,16,28,3,4,0,14,26,30,26,15,12,19,21,18,53,89,125,139,140,142,141,135,136,140,159,170,173,176,184,180,170,167,168,170,167,161,163,170,164,161,160,163,163,160,160,163,169,166,161,156,155,156,158,160,150,149,149,151,154,156,156,156,151,149,150,153,154,151,146,144,149,150,151,152,151,150,148,147,144,141,137,133,130,128,128,128,136,143,159,180,196,205,212,218,222,225,227,227,225,223,222,222,221,220,220,220,220,221,222,223,221,223,225,226,227,228,232,235,234,236,238,240,241,240,239,237,238,240,240,237,236,239,238,235 นี่มันเป็นสถานที่เกิดเหตุด้วยappoximateตำแหน่งของบางองค์ประกอบโลกแห่งความจริงที่รู้จักกันขอบทำเครื่องหมายด้วยเส้นประหรูหราเราจะไม่ปกติมี: อย่างไรก็ตามความหรูหราอย่างหนึ่งที่เรามีคือการเข้าใจถึงปัญหาหลังเหตุการณ์ข้อมูลในกรณีของฉันไม่ใช่อนุกรมเวลา แต่มีความสัมพันธ์เชิงพื้นที่ มันสมเหตุสมผลแล้วที่จะวิเคราะห์ชุดข้อมูลทั้งหมด (โดยปกติคือจุดข้อมูล 5,000 - 15,000 จุด) ในคราวเดียวไม่ใช่อย่างต่อเนื่อง

3
ฉันสามารถใช้การทดสอบ Kolmogorov-Smirnov และประมาณค่าพารามิเตอร์การกระจายได้หรือไม่
ฉันได้อ่านแล้วว่าการทดสอบ Kolmogorov-Smirnov ไม่ควรใช้เพื่อทดสอบความดีของการแจกแจงที่มีการประมาณค่าพารามิเตอร์จากตัวอย่าง การแยกตัวอย่างของฉันออกเป็นสองส่วนและใช้ครึ่งแรกสำหรับการประมาณค่าพารามิเตอร์และอีกอันสำหรับการทดสอบ KS หรือไม่ ขอบคุณล่วงหน้า

1
วิธีการลดผลรวมที่เหลือของกำลังสองของการยกกำลังสองได้อย่างไร?
ฉันมีข้อมูลต่อไปนี้และต้องการให้พอดีกับรูปแบบการเติบโตแบบเอ็กซ์โปเนนเชียลเชิงลบของมัน: Days <- c( 1,5,12,16,22,27,36,43) Emissions <- c( 936.76, 1458.68, 1787.23, 1840.04, 1928.97, 1963.63, 1965.37, 1985.71) plot(Days, Emissions) fit <- nls(Emissions ~ a* (1-exp(-b*Days)), start = list(a = 2000, b = 0.55)) curve((y = 1882 * (1 - exp(-0.5108*x))), from = 0, to =45, add = T, col = "green", …

3
ฉันจะใส่ข้อมูลที่มีค่าและอนุพันธ์อันดับที่ 1/2 ได้อย่างไร
ฉันมีชุดข้อมูลที่ประกอบด้วยกล่าวคือการวัดตำแหน่งความเร็วและความเร่ง ทั้งหมดมาจาก "การทำงาน" ที่เหมือนกัน ฉันสามารถสร้างระบบเชิงเส้นและพอดีกับพหุนามกับการวัดทั้งหมด แต่ฉันสามารถทำเช่นเดียวกันกับเส้นโค้ง? วิธี 'R' ในการทำเช่นนี้คืออะไร? นี่คือข้อมูลจำลองที่ฉันต้องการให้มี: f <- function(x) 2+x-0.5*x^2+rnorm(length(x), mean=0, sd=0.1) df <- function(x) 1-x+rnorm(length(x), mean=0, sd=0.3) ddf <- function(x) -1+rnorm(length(x), mean=0, sd=0.6) x_f <- runif(5, 0, 5) x_df <- runif(8, 3, 8) x_ddf <- runif(10, 4, 9) data <- data.frame(type=rep('f'), x=x_f, y=f(x_f)) data <- …

1
เหตุใดเลขคณิตจึงมีขนาดเล็กกว่าการแจกแจงจึงมีความหมายในการแจกแจงแบบล็อก - ปกติ
ดังนั้นฉันจึงมีการสร้างกระบวนการสุ่มเข้าสู่ระบบกระจายตามปกติตัวแปรสุ่มXนี่คือฟังก์ชันความหนาแน่นของความน่าจะเป็นที่สอดคล้องกัน:XXX ผมอยากประมาณการกระจายตัวของการแจกแจงแบบเดิมสักครู่, สมมุติว่าช่วงเวลาที่ 1: ค่าเฉลี่ยเลขคณิต ในการทำเช่นนั้นฉันวาด 100 ตัวแปรสุ่ม 10,000 ครั้งเพื่อให้ฉันสามารถคำนวณค่าเฉลี่ยเลขคณิตได้ 10,000 ค่า มีสองวิธีที่แตกต่างกันในการประมาณค่าเฉลี่ย (อย่างน้อยนั่นคือสิ่งที่ฉันเข้าใจ: ฉันอาจผิด): โดยการคำนวณทางคณิตศาสตร์อย่างชัดเจนหมายถึงวิธีปกติ: X¯= ∑i = 1ยังไม่มีข้อความXผมยังไม่มีข้อความ.X¯=∑i=1NXiN.\bar{X} = \sum_{i=1}^N \frac{X_i}{N}. หรือโดยการประมาณและจากการแจกแจงปกติพื้นฐาน:จากนั้นค่าเฉลี่ยเป็นμ μ = N Σฉัน= 1ล็อก( X ฉัน )σσ\sigmaμμ\muˉ X =exp(μ+1μ = ∑i = 1ยังไม่มีข้อความเข้าสู่ระบบ( Xผม)ยังไม่มีข้อความσ2= ∑i = 1ยังไม่มีข้อความ( บันทึก( Xผม) - μ )2ยังไม่มีข้อความμ=∑i=1Nlog⁡(Xi)Nσ2=∑i=1N(log⁡(Xi)−μ)2N\mu = \sum_{i=1}^N \frac{\log …

2
ARIMA vs ARMA ในซีรี่ส์ที่ต่างกัน
ใน R (2.15.2) ฉันติดตั้ง ARIMA หนึ่งครั้ง (3,1,3) ในอนุกรมเวลาหนึ่งครั้งและ ARMA (3,3) หนึ่งครั้งในช่วงเวลาที่ต่างกัน พารามิเตอร์ที่ติดตั้งแตกต่างกันซึ่งฉันอ้างถึงวิธีการติดตั้งใน ARIMA นอกจากนี้การติดตั้ง ARIMA (3,0,3) ในข้อมูลเดียวกันกับ ARMA (3,3) จะไม่ส่งผลให้มีพารามิเตอร์เหมือนกันไม่ว่าวิธีการฟิตติ้งที่ฉันใช้จะเป็นอย่างไร ฉันสนใจที่จะระบุว่าความแตกต่างนั้นมาจากไหนและด้วยพารามิเตอร์ใดที่ฉันสามารถทำได้ (ถ้าหากทั้งหมด) พอดีกับ ARIMA เพื่อให้ได้ค่าสัมประสิทธิ์ของความพอดีเหมือนกับ ARMA รหัสตัวอย่างที่จะสาธิต: library(tseries) set.seed(2) #getting a time series manually x<-c(1,2,1) e<-c(0,0.3,-0.2) n<-45 AR<-c(0.5,-0.4,-0.1) MA<-c(0.4,0.3,-0.2) for(i in 4:n){ tt<-rnorm(1) t<-x[length(x)]+tt+x[i-1]*AR[1]+x[i-2]*AR[2]+x[i-3]*AR[3]+e[i-1]*MA[1]+e[i-2]*MA[2]+e[i-3]*MA[3] x<-c(x,t) e<-c(e,tt) } par(mfrow=c(2,1)) plot(x) plot(diff(x,1)) …
13 r  time-series  arima  fitting  arma 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.