คำถามติดแท็ก mse

MSE ย่อมาจาก Mean Squared Error เป็นการวัดประสิทธิภาพของการประมาณหรือการคาดการณ์ซึ่งเท่ากับความแตกต่างของค่าเฉลี่ยกำลังสองระหว่างค่าที่สังเกตและค่าที่ประมาณ / คาดการณ์

7
ตัวอย่างที่วิธีการของช่วงเวลาสามารถเอาชนะโอกาสสูงสุดในกลุ่มตัวอย่างขนาดเล็ก?
ตัวประมาณความน่าจะเป็นสูงสุด (MLE) นั้นมีประสิทธิภาพแบบเชิงเส้นกำกับ เราเห็นผลลัพธ์ที่เกิดขึ้นจริงซึ่งพวกเขามักจะทำได้ดีกว่าวิธีการประมาณการณ์ (MoM) (เมื่อมีความแตกต่างกัน) แม้ในขนาดตัวอย่างที่มีขนาดเล็ก ที่นี่ 'ดีกว่า' หมายถึงในแง่ของการมีความแปรปรวนน้อยลงเมื่อทั้งสองไม่เอนเอียงและโดยทั่วไปแล้วความคลาดเคลื่อนกำลังสองน้อยกว่า (MSE) หมายถึงมากขึ้น อย่างไรก็ตามคำถามที่เกิดขึ้น: มีบางกรณีที่ MoM สามารถเอาชนะ MLE - บนMSE ได้หรือไม่พูดในกลุ่มตัวอย่างขนาดเล็ก? (ซึ่งนี่ไม่ใช่สถานการณ์ที่แปลก / เลว - กล่าวคือให้เงื่อนไขว่า ML จะมีอยู่ / มีประสิทธิภาพในการถือ asymptotically) คำถามติดตามจะเป็น 'ขนาดเล็กได้อย่างไร' - นั่นคือถ้ามีตัวอย่างมีบางอย่างที่ยังคงมีขนาดตัวอย่างที่ค่อนข้างใหญ่บางทีแม้แต่ขนาดตัวอย่างที่แน่นอนทั้งหมด? [ฉันสามารถหาตัวอย่างของตัวประมาณแบบเอนเอียงที่สามารถเอาชนะ ML ในตัวอย่างที่ จำกัด ได้ แต่ไม่ใช่ MoM] เพิ่มการบันทึกย้อนหลัง: การมุ่งเน้นของฉันที่นี่เป็นหลักในกรณีที่ไม่มีการเปลี่ยนแปลง (ซึ่งจริงๆแล้วคือสิ่งที่ความอยากรู้พื้นฐานของฉันมาจาก) ฉันไม่ต้องการแยกแยะกรณีหลายตัวแปร แต่ฉันก็ไม่ต้องการโดยเฉพาะอย่างยิ่งที่จะหลงทางในการอภิปรายอย่างกว้างขวางเกี่ยวกับการประเมินของ James-Stein

1
วิธีการตีความการวัดข้อผิดพลาด?
ฉันใช้การจำแนกประเภทใน Weka สำหรับชุดข้อมูลบางอย่างและฉันสังเกตเห็นว่าถ้าฉันพยายามที่จะทำนายค่าเล็กน้อยผลลัพธ์จะแสดงค่าที่ถูกต้องและคาดการณ์ไม่ถูกต้องโดยเฉพาะ อย่างไรก็ตามตอนนี้ฉันกำลังเรียกใช้สำหรับคุณลักษณะที่เป็นตัวเลขและผลลัพธ์คือ: Correlation coefficient 0.3305 Mean absolute error 11.6268 Root mean squared error 46.8547 Relative absolute error 89.2645 % Root relative squared error 94.3886 % Total Number of Instances 36441 ฉันจะตีความสิ่งนี้ได้อย่างไร ฉันลองใช้ความคิดแต่ละอย่างแล้ว แต่ฉันไม่เข้าใจมากนักเนื่องจากสถิติไม่ได้อยู่ในความเชี่ยวชาญของฉัน ฉันขอขอบคุณคำตอบประเภท ELI5 อย่างมากในแง่ของสถิติ

3
Mean Squared Error และผลรวมที่เหลือของกำลังสอง
ดูคำจำกัดความวิกิพีเดียของ: Mean Squared Error (MSE) ผลรวมที่เหลือของสี่เหลี่ยม (RSS) ดูเหมือนว่าฉันจะ MSE = 1ยังไม่มีข้อความRSS = 1ยังไม่มีข้อความ∑ ( fผม- yผม)2MSE=1ยังไม่มีข้อความRSS=1ยังไม่มีข้อความΣ(ฉผม-Yผม)2\text{MSE} = \frac{1}{N} \text{RSS} = \frac{1}{N} \sum (f_i -y_i)^2 โดยที่คือจำนวนตัวอย่างและคือการประมาณของเรายังไม่มีข้อความยังไม่มีข้อความNฉผมฉผมf_iYผมYผมy_i อย่างไรก็ตามบทความวิกิพีเดียไม่ได้พูดถึงความสัมพันธ์นี้ ทำไม? ฉันพลาดอะไรไปรึเปล่า?
31 residuals  mse 

3
R: การสุ่มฟอเรสต์การโยน NaN / Inf ในข้อผิดพลาด“ การเรียกฟังก์ชันต่างประเทศ” แม้จะไม่มีชุดข้อมูลของ NaN [ปิด]
ฉันใช้คาเร็ตเพื่อรันฟอเรสต์แบบสุ่มที่ผ่านการตรวจสอบความถูกต้องข้ามชุดข้อมูล ตัวแปร Y เป็นปัจจัย ไม่มีชุดข้อมูลของ NaN, Inf's หรือ NA ในชุดข้อมูลของฉัน อย่างไรก็ตามเมื่อใช้ป่าสุ่มฉันได้รับ Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs …

1
องศาอิสระเป็นหมายเลขที่ไม่ใช่จำนวนเต็มหรือไม่
เมื่อฉันใช้ GAM มันให้ DF ที่เหลือกับฉันคือ (บรรทัดสุดท้ายในรหัส) นั่นหมายความว่าอย่างไร? นอกเหนือไปจากตัวอย่างของ GAM โดยทั่วไปแล้วจำนวนองศาความเป็นอิสระจะเป็นจำนวนที่ไม่ใช่จำนวนเต็มหรือไม่26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

3
การสลาย MSE ไปเป็น Variance และ Bias Squared
ในการแสดงให้เห็นว่า MSE สามารถถูกจำแนกออกเป็นความแปรปรวนบวกกับสแควร์ออฟไบแอสการพิสูจน์ในวิกิพีเดียมีขั้นตอนหนึ่งที่เน้นในภาพ มันทำงานอย่างไร ความคาดหวังผลักเข้าไปในผลิตภัณฑ์จากขั้นตอนที่ 3 ถึงขั้นตอนที่ 4 อย่างไร หากทั้งสองคำมีความเป็นอิสระการคาดการณ์จะไม่ถูกนำไปใช้กับทั้งสองคำ และถ้าไม่มีขั้นตอนนี้จะใช้ได้หรือไม่

1
ฟังก์ชั่นการสูญเสียสำหรับระบบเข้ารหัสอัตโนมัติ
ฉันกำลังทดลองตัวเข้ารหัสอัตโนมัติเล็กน้อยและด้วย tenorflow ฉันได้สร้างแบบจำลองที่พยายามสร้างชุดข้อมูล MNIST ขึ้นมาใหม่ เครือข่ายของฉันง่ายมาก: X, e1, e2, d1, Y โดยที่ e1 และ e2 กำลังเข้ารหัสเลเยอร์, ​​d2 และ Y เป็นชั้นถอดรหัส (และ Y เป็นเอาต์พุตที่สร้างขึ้นใหม่) X มี 784 หน่วย, e1 มี 100, e2 มี 50, d1 มี 100 อีกครั้งและ Y 784 อีกครั้ง ฉันใช้ sigmoids เป็นฟังก์ชั่นการเปิดใช้งานสำหรับเลเยอร์ e1, e2, d1 และ Y อินพุตอยู่ใน [0,1] …

2
ทำความเข้าใจเกี่ยวกับการแลกเปลี่ยนความลำเอียงที่แปรปรวน
ฉันกำลังอ่านบทของการแลกเปลี่ยนความแปรปรวนแบบอคติขององค์ประกอบของการเรียนรู้ทางสถิติและฉันมีข้อสงสัยในสูตรที่หน้า 29 ให้ข้อมูลเกิดขึ้นจากแบบจำลองที่โดยที่สุ่ม จำนวนที่มีค่าคาดว่าและความแปรปรวน 2 ให้ค่าที่คาดหวังของข้อผิดพลาดของแบบจำลองคือ E [(Y-f_k (x)) ^ 2] โดยที่f_k (x)คือคำทำนายของxของผู้เรียนของเรา ข้อผิดพลาดคือ E [(Y-f_k (x)) ^ 2] = \ sigma ^ 2 + Bias (f_k) ^ 2 + Var (f_k (x)) Y=f(x)+ϵY=f(x)+ϵ Y = f(x)+\epsilonε = E [ ε ] = 0 E E [ ( Y - …

3
เหตุใดจึงใช้การวัดข้อผิดพลาดการคาดการณ์บางอย่าง (เช่น MAD) เมื่อเทียบกับข้อผิดพลาดอื่น (เช่น MSE)
MAD = Mean เบี่ยงเบนจากค่าสัมบูรณ์สัมบูรณ์ MSE = Mean Squared Error ฉันเคยเห็นคำแนะนำจากสถานที่ต่าง ๆ ที่ใช้ MSE แม้จะมีคุณสมบัติที่ไม่พึงประสงค์บางอย่าง (เช่นhttp://www.stat.nus.edu.sg/~staxyc/T12.pdfซึ่งกล่าวถึง p8 "เป็นที่เชื่อกันโดยทั่วไปว่า MAD เป็นเกณฑ์ที่ดีกว่า MSE อย่างไรก็ตาม MSE ทางคณิตศาสตร์สะดวกกว่า MAD ") มีอะไรมากกว่านั้นอีกไหม? มีกระดาษที่วิเคราะห์สถานการณ์อย่างละเอียดซึ่งวิธีการต่างๆในการวัดข้อผิดพลาดการคาดการณ์มีความเหมาะสมมากขึ้นหรือน้อยลงหรือไม่? การค้นหา google ของฉันยังไม่เปิดเผยอะไรเลย คำถามที่คล้ายกันนี้ถูกถามที่/programming/13391376/how-to-decide-the-forecasting-method-from-the-me-mad-mse-sdeและผู้ใช้ถูกถาม โพสต์บน stats.stackexchange.com แต่ฉันไม่คิดว่าพวกเขาเคยทำ
15 forecasting  error  mse  mae 

4
ข้อผิดพลาดกำลังสองเฉลี่ยใช้เพื่อประเมินความเหนือกว่าของตัวประมาณหนึ่งตัวเทียบกับอีกตัวหนึ่งหรือไม่?
สมมติว่าเรามีสองประมาณและสำหรับพารามิเตอร์บางxในการพิจารณาว่าตัวประมาณใดที่ "ดีกว่า" เราจะดูที่ MSE (หมายถึงข้อผิดพลาดกำลังสอง) หรือไม่ กล่าวอีกนัยหนึ่งเรามองไปที่โดยที่คืออคติของตัวประมาณและคือความแปรปรวนของตัวประมาณ MSE ที่ดีกว่าใดจะเป็นตัวประมาณที่แย่กว่านั้น?α 2 x M S E = β 2 + σ 2 β σ 2α1α1\alpha_1α2α2\alpha_2xxxMSE= β2+ σ2MSE=β2+σ2MSE = \beta^2+ \sigma^2ββ\betaσ2σ2\sigma^2
13 estimation  mse 

2
ทฤษฎีบทเกาส์ - มาร์คอฟ: BLUE และ OLS
ฉันกำลังอ่านทฤษฎีบท Guass-Markov ในวิกิพีเดียและฉันหวังว่าจะมีคนช่วยฉันหาประเด็นหลักของทฤษฎีบทนี้ เราคิดรูปแบบเชิงเส้นในรูปแบบเมทริกซ์จะได้รับโดย: และเรากำลังมองหาสีฟ้า\Y= Xβ+ ηy=Xβ+η y = X\beta +\eta βˆβ^ \widehat\beta ตามสิ่งนี้ฉันจะติดป้าย "ส่วนที่เหลือ" และ ข้อผิดพลาด " (คือตรงกันข้ามกับการใช้งานในหน้า Gauss-Markov)η= y- Xβη=y−Xβ\eta = y - X\betaε =βˆ- βε=β^−β\varepsilon = \widehat\beta - \beta OLS (หุ้นสามัญอย่างน้อยสี่เหลี่ยม) ประมาณการอาจจะมาเป็น argmin ของ 2| | ที่เหลือ ||22= | | η||22||residual||22=||η||22||\text{residual}||_2^2 = ||\eta||_2^2 ตอนนี้ให้แทนโอเปอเรเตอร์ความคาดหวัง เพื่อความเข้าใจของฉันสิ่งที่ทฤษฎีเกาส์ - มาร์คอฟบอกเราคือว่าถ้าและแล้วอาร์มินทั้งหมด …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.