คำถามติดแท็ก error

ข้อผิดพลาดของการประมาณการหรือการทำนายคือการเบี่ยงเบนจากมูลค่าที่แท้จริงซึ่งอาจไม่สามารถสังเกตได้ (เช่นพารามิเตอร์การถดถอย) หรือสามารถสังเกตได้ (เช่นการรับรู้ในอนาคต) ใช้แท็ก [ข้อความแสดงข้อผิดพลาด] เพื่อสอบถามเกี่ยวกับข้อผิดพลาดของซอฟต์แวร์

4
ความแตกต่างระหว่างข้อผิดพลาดและส่วนที่เหลือคืออะไร?
ในขณะที่คำที่แพร่หลายทั้งสองนี้มักจะใช้คำพ้องความหมายเหมือนกัน แต่บางครั้งก็ดูเหมือนจะมีความแตกต่าง มีความแตกต่างอย่างแน่นอนหรือว่าพวกเขามีความหมายเหมือนกัน?

3
การเปรียบเทียบและการตัดกันค่า p ระดับนัยสำคัญและข้อผิดพลาดประเภทที่ 1
ฉันสงสัยว่าถ้าใครสามารถให้บทสรุปสั้น ๆ เกี่ยวกับคำจำกัดความและการใช้ค่า p, ระดับนัยสำคัญและข้อผิดพลาดประเภทที่ 1 ฉันเข้าใจว่าค่า p ถูกกำหนดเป็น "ความน่าจะเป็นที่จะได้รับสถิติการทดสอบอย่างน้อยที่สุดเท่าที่เราสังเกตจริง" ในขณะที่ระดับนัยสำคัญเป็นเพียงค่า cutoff ตามอำเภอใจเพื่อประเมินว่าค่า p นั้นมีความสำคัญหรือไม่ . ข้อผิดพลาดประเภทที่ 1 คือข้อผิดพลาดของการปฏิเสธสมมติฐานว่างที่เป็นจริง อย่างไรก็ตามฉันไม่แน่ใจเกี่ยวกับความแตกต่างระหว่างระดับนัยสำคัญและข้อผิดพลาดประเภทที่ 1 พวกเขาไม่ใช่แนวคิดเดียวกันหรือไม่ ตัวอย่างเช่นสมมติว่าการทดลองง่าย ๆ ที่ฉันพลิกเหรียญ 1,000 ครั้งและนับจำนวนครั้งที่มันตกลงบน 'หัว' สมมุติฐานว่างของฉัน, H0, นั่นคือหัว = 500 (เหรียญไม่มีอคติ) จากนั้นฉันตั้งระดับความสำคัญของฉันที่ alpha = 0.05 ฉันพลิกเหรียญ 1,000 ครั้งจากนั้นฉันคำนวณค่า p ถ้าค่า p เป็น> 0.05 จากนั้นฉันไม่สามารถปฏิเสธสมมติฐานว่างได้และถ้าค่า p เป็น <0.05 …

4
วิธีการฉายเวกเตอร์ใหม่บนพื้นที่ PCA?
หลังจากทำการวิเคราะห์องค์ประกอบหลัก (PCA) ฉันต้องการฉายเวกเตอร์ใหม่ลงบนพื้นที่ PCA (เช่นค้นหาพิกัดในระบบพิกัด PCA) ผมได้คำนวณ PCA ในภาษา R prcompโดยใช้ ตอนนี้ฉันควรคูณเวกเตอร์ของฉันด้วยเมทริกซ์การหมุน PCA ควรจัดองค์ประกอบหลักในเมทริกซ์นี้เป็นแถวหรือคอลัมน์?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

7
RMSE กับค่าสัมประสิทธิ์การตัดสินใจ
ฉันกำลังประเมินแบบจำลองทางกายภาพและต้องการทราบว่าหนึ่งในวิธีการใดที่ฉันควรใช้ที่นี่ (ระหว่าง RMSE และค่าสัมประสิทธิ์ของความมุ่งมั่น R2) ปัญหาที่เกิดขึ้นจะเป็นดังนี้: ฉันมีฟังก์ชั่นที่ผลการคาดการณ์สำหรับค่าอินพุต x, ) ฉันยังมีการสังเกตที่เกิดขึ้นจริงสำหรับค่าที่ผมเรียกว่าY xyx¯¯¯¯¯=f(x)yx¯=f(x)\overline{y_x}= f(x)yxyxy_x คำถามของฉันคือข้อดีและข้อเสียของ RMSE หรือคืออะไร ฉันเห็นว่ามีการใช้ทั้งสองอย่างในเอกสารสำหรับปัญหาที่ฉันกำลังทำอยู่R2R2R^2
21 error 

1
วิธีรับค่าของ Mean squared error ในการถดถอยเชิงเส้นใน R
ปล่อยให้โมเดลการถดถอยเชิงเส้นที่ได้รับจากฟังก์ชัน R ต้องการทราบว่าเป็นไปได้ที่จะได้รับจากคำสั่ง Mean Squared Error ฉันมีตัวอย่างผลลัพธ์ต่อไปนี้ > lm <- lm(MuscleMAss~Age,data) > sm<-summary(lm) > sm Call: lm(formula = MuscleMAss ~ Age, data = data) Residuals: Min 1Q Median 3Q Max -16.1368 -6.1968 -0.5969 6.7607 23.4731 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 156.3466 5.5123 28.36 <2e-16 *** Age -1.1900 …
20 r  regression  error 

4
ค่าที่ถูกต้องสำหรับความแม่นยำและการเรียกคืนในกรณีขอบคืออะไร?
ความแม่นยำหมายถึง: p = true positives / (true positives + false positives) มันถูกต้องหรือไม่ที่ในฐานะtrue positivesและfalse positivesวิธีที่ 0 ความแม่นยำเข้าใกล้ 1? คำถามเดียวกันสำหรับการเรียกคืน: r = true positives / (true positives + false negatives) ขณะนี้ฉันกำลังใช้การทดสอบทางสถิติที่ฉันต้องการคำนวณค่าเหล่านี้และบางครั้งมันก็เกิดขึ้นที่ตัวส่วนเป็น 0 และฉันสงสัยว่าจะคืนค่าใดให้กับกรณีนี้ PS: ขอโทษแท็กที่ไม่เหมาะสมผมอยากจะใช้recall, precisionและlimitแต่ฉันไม่สามารถสร้างแท็กใหม่ ๆ
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

3
ข้อผิดพลาดการคาดการณ์ที่คาดหวัง - มา
ฉันกำลังพยายามเข้าใจถึงข้อผิดพลาดที่คาดการณ์ไว้ต่อไปนี้ (ESL) โดยเฉพาะอย่างยิ่งเกี่ยวกับการสืบทอดมาของ 2.11 และ 2.12 (การปรับเงื่อนไขขั้นตอนสู่จุดต่ำสุดที่ฉลาด) พอยน์เตอร์หรือลิงค์ใด ๆ ชื่นชมมาก ด้านล่างฉันกำลังรายงานข้อความที่ตัดตอนมาจาก ESL pg 18. สองสมการแรกคือตามลำดับสมการ 2.11 และ 2.12 Let X∈RpX∈RpX \in \mathbb{R}^pแสดงว่ามูลค่าที่แท้จริงเวกเตอร์การป้อนข้อมูลแบบสุ่มและY∈RY∈RY \in \mathbb{R}ตัวแปรการส่งออกมีมูลค่าที่แท้จริงสุ่มที่มีการกระจายร่วมPr(X,Y)Pr(X,Y)\text{Pr}(X,Y) ) เราพยายามที่ฟังก์ชั่นf(X)f(X)f(X)ในการทำนายค่ากำหนดของการป้อนข้อมูลXทฤษฎีนี้ต้องการฟังก์ชั่นการสูญเสียสำหรับการลงโทษข้อผิดพลาดในการทำนายและโดยทั่วไปที่สะดวกที่สุดคือการสูญเสียข้อผิดพลาดกำลังสอง : 2 สิ่งนี้ทำให้เรามีเกณฑ์สำหรับการเลือกYYYXXX L(Y,f(X))L(Y,f(X))L(Y,f(X))L ( Y , f ( X ) ) = ( Y - f (L(Y,f(X))=(Y−f(X))2L(Y,f(X))=(Y−f(X))2L(Y,f(X))=(Y-f(X))^2fff, EPE(f)=E(Y−f(X))2=∫[y−f(x)]2Pr(dx,dy)EPE(f)=E(Y−f(X))2=∫[y−f(x)]2Pr(dx,dy) \begin{split} \text{EPE}(f) &= \text{E}(Y - …

3
เหตุใดจึงใช้การวัดข้อผิดพลาดการคาดการณ์บางอย่าง (เช่น MAD) เมื่อเทียบกับข้อผิดพลาดอื่น (เช่น MSE)
MAD = Mean เบี่ยงเบนจากค่าสัมบูรณ์สัมบูรณ์ MSE = Mean Squared Error ฉันเคยเห็นคำแนะนำจากสถานที่ต่าง ๆ ที่ใช้ MSE แม้จะมีคุณสมบัติที่ไม่พึงประสงค์บางอย่าง (เช่นhttp://www.stat.nus.edu.sg/~staxyc/T12.pdfซึ่งกล่าวถึง p8 "เป็นที่เชื่อกันโดยทั่วไปว่า MAD เป็นเกณฑ์ที่ดีกว่า MSE อย่างไรก็ตาม MSE ทางคณิตศาสตร์สะดวกกว่า MAD ") มีอะไรมากกว่านั้นอีกไหม? มีกระดาษที่วิเคราะห์สถานการณ์อย่างละเอียดซึ่งวิธีการต่างๆในการวัดข้อผิดพลาดการคาดการณ์มีความเหมาะสมมากขึ้นหรือน้อยลงหรือไม่? การค้นหา google ของฉันยังไม่เปิดเผยอะไรเลย คำถามที่คล้ายกันนี้ถูกถามที่/programming/13391376/how-to-decide-the-forecasting-method-from-the-me-mad-mse-sdeและผู้ใช้ถูกถาม โพสต์บน stats.stackexchange.com แต่ฉันไม่คิดว่าพวกเขาเคยทำ
15 forecasting  error  mse  mae 

5
การหดตัวของเจมส์ - สไตน์ 'อยู่ในป่า'?
ฉันถูกจับโดยความคิดเรื่องการหดตัวของเจมส์ - สไตน์ (นั่นคือฟังก์ชั่นแบบไม่เชิงเส้นของการสังเกตเพียงครั้งเดียวของเวกเตอร์ที่มีบรรทัดฐานอิสระอาจเป็นตัวประมาณที่ดีกว่าของวิธีการของตัวแปรสุ่ม ) อย่างไรก็ตามฉันไม่เคยเห็นมันในงานที่นำไปใช้ เห็นได้ชัดว่าฉันอ่านไม่ดีพอ มีตัวอย่างคลาสสิกที่เจมส์ - สไตน์ปรับปรุงการประมาณค่าในการตั้งค่าที่ใช้หรือไม่? ถ้าไม่การหดตัวแบบนี้เป็นเพียงความอยากรู้ทางปัญญาหรือไม่?

5
เหตุใดโรงเรียนในสหรัฐอเมริกาและสหราชอาณาจักรจึงสอนวิธีต่างๆในการคำนวณส่วนเบี่ยงเบนมาตรฐาน
ตามที่ฉันเข้าใจโรงเรียนในสหราชอาณาจักรสอนว่าการเบี่ยงเบนมาตรฐานนั้นใช้โดย: ในขณะที่โรงเรียนของเราสอน: (ในระดับพื้นฐานอยู่แล้ว) สิ่งนี้ทำให้นักเรียนของฉันมีปัญหาหลายอย่างในอดีตเมื่อพวกเขาค้นหาบนอินเทอร์เน็ต แต่พบคำอธิบายที่ผิด ทำไมถึงแตกต่าง ด้วยชุดข้อมูลอย่างง่ายบอกว่ามีค่า 10 ระดับข้อผิดพลาดระดับใดที่จะเกิดขึ้นหากใช้วิธีการที่ไม่ถูกต้อง (เช่นในการสอบ)?

5
เหตุใดข้อสันนิษฐานเรื่อง Normality ในการถดถอยเชิงเส้น
คำถามของฉันง่ายมาก: ทำไมเราถึงเลือกตามปกติเนื่องจากการแจกแจงที่ข้อผิดพลาดตามมาในข้อสันนิษฐานของการถดถอยเชิงเส้น? ทำไมเราไม่เลือกคนอื่นเหมือนเครื่องแบบเสื้อหรืออะไร?

3
วิธีการเลือกเมตริกข้อผิดพลาดเมื่อประเมินลักษณนาม
ฉันเคยเห็นมาตรวัดข้อผิดพลาดที่แตกต่างกันที่ใช้ในการแข่งขัน Kaggle: RMS, Mean-square, AUC และอื่น ๆ กฎทั่วไปเกี่ยวกับการเลือกข้อผิดพลาดทั่วไปคืออะไรคุณจะทราบได้อย่างไรว่าการวัดข้อผิดพลาดแบบใดที่จะใช้สำหรับปัญหาที่ระบุ มีแนวทางใดบ้าง

2
การจัดการข้อผิดพลาดกับเส้นทาง GPS (กรอบทฤษฎี)
ฉันกำลังมองหากรอบทางทฤษฎีที่เหมาะสมหรือพิเศษเพื่อช่วยฉันจัดการกับการทำความเข้าใจวิธีจัดการกับข้อผิดพลาดที่ระบบ GPS มี - โดยเฉพาะเมื่อจัดการกับเส้นทาง โดยพื้นฐานฉันกำลังมองหาข้อกำหนดเกี่ยวกับข้อมูลและอัลกอริทึมใด ๆ ที่ใช้เพื่อให้สามารถสร้างความยาวของรอยทาง คำตอบนั้นต้องเชื่อถือได้ เพื่อนคนหนึ่งของฉันคือผู้กำกับการแข่งขันของการแข่งขันซึ่งถูกเรียกเก็บเงินเป็น 160 กม. แต่ Garmin เฝ้าดูทุกคนทำให้มันเหมือนกับ 190km + มันทำให้เกิดความโศกเศร้าบ้างที่เส้นชัยขอผมบอกคุณ! ดังนั้นเพื่อนของฉันกลับไปที่หลักสูตรพร้อมอุปกรณ์ GPS ต่างๆเพื่อทำการแมปใหม่และผลลัพธ์น่าสนใจ ใช้มือถือ Garmin Oregon 300 เธอมี 33.7km สำหรับขาข้างหนึ่ง สำหรับขาเดียวกันบนนาฬิกาข้อมือ Garmin Forerunner 310xt มันออกมาได้ 38.3km เมื่อฉันได้รับข้อมูลจากโอเรกอนมันชัดเจนว่ามันเป็นเพียงการบันทึกข้อมูลทุก ๆ 90 วินาทีหรือมากกว่านั้น ผู้เบิกทางทำทุกสองวินาที เมื่อฉันวางแผนข้อมูลจากโอเรกอนฉันจะเห็นว่ามันเกิดความสับสนด้วยการสลับกลับบางส่วนและวางเส้นตรงผ่านพวกเขาและเส้นโค้งก็ลดลงเล็กน้อย อย่างไรก็ตามฉันคิดว่าความแตกต่างของความถี่ในการบันทึกนั้นเป็นคำอธิบายที่มาก เช่นโดยการบันทึกทุก ๆ สองสามวินาทีผู้เบิกทางใกล้กับเส้นทางจริง อย่างไรก็ตามจะมีข้อผิดพลาดจำนวนหนึ่งเนื่องจากวิธีการทำงานของ GPS หากคะแนนที่บันทึกถูกกระจายไปทั่วเส้นทางจริงแบบสุ่ม (เนื่องจากข้อผิดพลาด) ระยะทางทั้งหมดจะใหญ่กว่าเส้นทางจริง (เส้นกระดิกไปด้านใดด้านหนึ่งของเส้นตรงยาวกว่าเส้นตรง) …
14 error  sampling 

4
ข้อผิดพลาดกำลังสองเฉลี่ยสามารถใช้สำหรับการจำแนกประเภทได้หรือไม่
ฉันรู้สูตรข้อผิดพลาดกำลังสองเฉลี่ยและวิธีคำนวณ เมื่อเราพูดถึงการถดถอยเราสามารถคำนวณความคลาดเคลื่อนกำลังสองเฉลี่ยได้ อย่างไรก็ตามเราสามารถพูดคุยเกี่ยวกับ MSE สำหรับปัญหาการจำแนกประเภทและวิธีคำนวณได้อย่างไร

2
ค่าเฉลี่ยฮาร์มอนิกช่วยลดผลรวมของข้อผิดพลาดสัมพัทธ์กำลังสอง
ฉันกำลังมองหาข้อมูลอ้างอิงซึ่งพิสูจน์ได้ว่าค่าเฉลี่ยฮาร์มอนิก x¯h=n∑ni=11xix¯h=n∑i=1n1xi\bar{x}^h = \frac{n}{\sum_{i=1}^n \frac{1}{x_i}} ย่อเล็กสุด (เป็น ) ผลรวมของข้อผิดพลาดสัมพัทธ์กำลังสองzzz ∑i=1n((xi−z)2xi).∑i=1n((xi−z)2xi).\sum_{i=1}^n \left( \frac{(x_i - z)^2}{x_i}\right).

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.