คำถามติดแท็ก error

ข้อผิดพลาดของการประมาณการหรือการทำนายคือการเบี่ยงเบนจากมูลค่าที่แท้จริงซึ่งอาจไม่สามารถสังเกตได้ (เช่นพารามิเตอร์การถดถอย) หรือสามารถสังเกตได้ (เช่นการรับรู้ในอนาคต) ใช้แท็ก [ข้อความแสดงข้อผิดพลาด] เพื่อสอบถามเกี่ยวกับข้อผิดพลาดของซอฟต์แวร์

1
ข้อผิดพลาดการบวกหรือข้อผิดพลาดการคูณ?
ฉันค่อนข้างใหม่กับสถิติและขอขอบคุณที่ช่วยให้เข้าใจสิ่งนี้ดีขึ้น ในสาขาของฉันมีรูปแบบที่ใช้กันทั่วไปของแบบฟอร์มคือ: Pt=Po(Vt)αPt=Po(Vt)αP_t = P_o(V_t)^\alpha เมื่อคนทำโมเดลให้พอดีกับข้อมูลพวกเขามักทำตัวเป็นเส้นตรงและพอดีกับสิ่งต่อไปนี้ log(Pt)=log(Po)+αlog(Vt)+ϵlog⁡(Pt)=log⁡(Po)+αlog⁡(Vt)+ϵ\log(P_t) = \log(P_o) + \alpha \log(V_t) + \epsilon ตกลงไหม ฉันอ่านบางที่เพราะสัญญาณรบกวนในรูปแบบที่แท้จริงควรจะเป็น Pt=Po(Vt)α+ϵPt=Po(Vt)α+ϵP_t = P_o(V_t)^\alpha + \epsilon และสิ่งนี้ไม่สามารถทำให้เป็นเชิงเส้นได้ตามที่กล่าวมา มันเป็นเรื่องจริงเหรอ? ถ้ามีใครรู้การอ้างอิงที่ฉันสามารถอ่านและเรียนรู้เพิ่มเติมเกี่ยวกับมันและอาจอ้างอิงในรายงาน?

5
จะทำการใส่ค่าในจุดข้อมูลจำนวนมากได้อย่างไร?
ฉันมีชุดข้อมูลที่มีขนาดใหญ่มากและมีค่าสุ่มประมาณ 5% หายไป ตัวแปรเหล่านี้มีความสัมพันธ์ซึ่งกันและกัน ตัวอย่างชุดข้อมูล R ต่อไปนี้เป็นเพียงตัวอย่างของเล่นที่มีข้อมูลที่สัมพันธ์กันจำลอง set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
ชื่อของอะนาล็อกข้อผิดพลาดแบบสัมบูรณ์ถึงคะแนน Brier หรือไม่?
คำถามเมื่อวานนี้กำหนดความแม่นยำของแบบจำลองซึ่งประมาณความน่าจะเป็นของเหตุการณ์ทำให้ฉันสงสัยเกี่ยวกับการให้คะแนนความน่าจะเป็น หนามคะแนน เป็นตัวชี้วัดข้อผิดพลาดเฉลี่ยกำลังสอง การวัดประสิทธิภาพข้อผิดพลาดแบบอะนาล็อกหมายความว่าแบบอะนา มีชื่อด้วยใช่ไหม11ยังไม่มีข้อความΣi = 1ยังไม่มีข้อความ( p r e dฉันคทีฉันo nผม- r e fe r e n c eผม)21N∑i=1N(predictioni−referencei)2\frac{1}{N}\sum\limits _{i=1}^{N}(prediction_i - reference_i)^2 1ยังไม่มีข้อความΣi = 1ยังไม่มีข้อความ| predฉันคทีฉันo nผม- r e fe r e n c eผม|1N∑i=1N|predictioni−referencei|\frac{1}{N}\sum\limits _{i=1}^{N}|prediction_i - reference_i|

4
Bootstrap กับ Monte Carlo การประมาณข้อผิดพลาด
ฉันอ่านบทความการเผยแพร่ข้อผิดพลาดโดยวิธีมอนติคาร์โลในการคำนวณทางธรณีวิทยาแอนเดอร์สัน (1976)และมีบางสิ่งที่ฉันไม่เข้าใจ พิจารณาข้อมูลที่วัดได้และโปรแกรมที่ประมวลผลและคืนค่าที่กำหนด ในบทความโปรแกรมนี้ใช้เพื่อให้ได้ค่าที่ดีที่สุดก่อนโดยใช้วิธีการของข้อมูล (เช่น: ){ A , B , C }{ A ± σA, B ± σB, C± σค}{A±σA,B±σB,C±σC}\{A\pm\sigma_A, B\pm\sigma_B, C\pm\sigma_C\}{ A , B , C}{A,B,C}\{A, B, C\} จากนั้นผู้เขียนใช้วิธีมอนติคาร์โลเพื่อกำหนดความไม่แน่นอนให้กับค่าที่ดีที่สุดนี้โดยการเปลี่ยนแปลงพารามิเตอร์อินพุตภายในขอบเขตความไม่แน่นอน (กำหนดโดยการแจกแจงแบบเกาส์ด้วยวิธีการและค่าเบี่ยงเบนมาตรฐาน ) ก่อนป้อนเข้าโปรแกรม นี่คือตัวอย่างในรูปด้านล่าง:{ σ A , σ B , σ C }{ A , B , C}{A,B,C}\{A, B, C\}{ …

3
ความแปรปรวนร่วม - เมทริกซ์ความแปรปรวนร่วมของข้อผิดพลาดในการถดถอยเชิงเส้น
เมทริกซ์ข้อผิดพลาด var / cov คำนวณโดยใช้ชุดการวิเคราะห์ทางสถิติในทางปฏิบัติอย่างไร แนวคิดนี้ชัดเจนสำหรับฉันในทางทฤษฎี แต่ไม่ใช่ในทางปฏิบัติ ฉันหมายถึงถ้าฉันมีเวกเตอร์ของตัวแปรสุ่มฉันเข้าใจว่าความแปรปรวน / ความแปรปรวนร่วมเมทริกซ์Σจะได้รับผลิตภัณฑ์ภายนอกของความเบี่ยงเบนจาก --- เวกเตอร์เฉลี่ย: Σ = E [ ( X - E ( X ) ) ( X - E ( X ) ) ⊤ ]X =( X1, X2, … , Xn)⊤X=(X1,X2,…,Xn)⊤\textbf{X}=(X_{1}, X_{2}, \ldots, X_{n})^\topΣΣ\SigmaΣ = E [ ( X - E …

3
จำนวนตัวเลขที่สำคัญที่จะรายงาน
มีวิธีการทางวิทยาศาสตร์มากขึ้นในการกำหนดจำนวนตัวเลขที่สำคัญในการรายงานค่าเฉลี่ยหรือช่วงความเชื่อมั่นในสถานการณ์ที่ค่อนข้างเป็นมาตรฐาน - เช่นชั้นปีแรกที่วิทยาลัย ฉันได้เห็นจำนวนตัวเลขที่สำคัญที่จะใส่ในตาราง , ทำไมเราไม่ใช้เลขนัยสำคัญและจำนวนตัวเลขที่สำคัญในตารางพอดีไคแต่เหล่านี้ดูเหมือนจะไม่ใส่นิ้วของพวกเขาในการแก้ปัญหา ในชั้นเรียนของฉันฉันพยายามอธิบายให้นักเรียนของฉันทราบว่าเป็นเรื่องเสียหมึกที่จะรายงานตัวเลข 15 หลักที่สำคัญเมื่อพวกเขามีข้อผิดพลาดมาตรฐานที่กว้างเช่นนี้ในผลลัพธ์ของพวกเขา - ความรู้สึกของฉันคือว่ามันควรจะถูกปัดเศษ0.25นี้ไม่ได้แตกต่างกันเกินไปจากสิ่งที่ถูกกล่าวโดยASTM - การรายงานผลการทดสอบหมายถึง E29 ที่พวกเขาบอกว่ามันควรอยู่ระหว่างและ0.50.25σ0.25σ0.25\sigma0.05σ0.05σ0.05\sigma0.5σ0.5σ0.5\sigma แก้ไข: เมื่อฉันมีชุดตัวเลขxด้านล่างฉันควรใช้ตัวเลขกี่หลักในการพิมพ์ค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐาน set.seed(123) x <- rnorm(30) # default mean=0, sd=1 # R defaults to 7 digits of precision options(digits=7) mean(x) # -0.04710376 - not far off theoretical 0 sd(x) # 0.9810307 - not far from …

2
อัตราความผิดพลาดเป็นฟังก์ชันนูนของแลมบ์ดาของพารามิเตอร์การทำให้เป็นมาตรฐานหรือไม่?
ในการเลือก lambda พารามิเตอร์การทำให้เป็นมาตรฐานใน Ridge หรือ Lasso วิธีที่แนะนำคือลองค่า lambda ที่แตกต่างกัน, วัดข้อผิดพลาดใน Validation Set และสุดท้ายเลือกค่าของ lambda ที่ส่งกลับข้อผิดพลาดต่ำสุด มันไม่ได้เป็นคลีตสำหรับฉันถ้าฟังก์ชั่น f (lambda) = error คือ Convex มันเป็นอย่างนี้ได้ไหม? นั่นคือเส้นโค้งนี้มีมากกว่าหนึ่ง minima ท้องถิ่น (ซึ่งจะบอกเป็นนัยว่าการหาข้อผิดพลาดขั้นต่ำในบางพื้นที่ของแลมบ์ดาไม่ได้จำกัดความเป็นไปได้ที่ในบางภูมิภาคอื่น ๆ จะมีแลมบ์ดาที่กลับมา คำแนะนำของคุณจะได้รับการชื่นชม

3
ความน่าเชื่อถือของโค้งที่เหมาะสมหรือไม่
ฉันต้องการประเมินความไม่แน่นอนหรือความน่าเชื่อถือของเส้นโค้งที่พอดี ฉันตั้งใจไม่ตั้งชื่อปริมาณทางคณิตศาสตร์ที่แม่นยำที่ฉันกำลังมองหาเนื่องจากฉันไม่รู้ว่ามันคืออะไร นี่ (พลังงาน) เป็นตัวแปรตาม (ตอบสนอง) และ (ปริมาณ) เป็นตัวแปรอิสระ ฉันต้องการหาเส้นโค้ง Energy-Volume,ของวัสดุบางอย่าง ดังนั้นฉันจึงคำนวณด้วยโปรแกรมคอมพิวเตอร์เคมีควอนตัมเพื่อรับพลังงานสำหรับปริมาตรตัวอย่าง (วงกลมสีเขียวในพล็อต)V E ( V )EEEVVVE(V)E(V)E(V) จากนั้นฉันติดตั้งตัวอย่างข้อมูลเหล่านี้ด้วยฟังก์ชัน Birch – Murnaghan : ซึ่งขึ้นอยู่กับ สี่พารามิเตอร์:ฉันยังสันนิษฐานว่านี่เป็นฟังก์ชั่นปรับแต่งที่ถูกต้องดังนั้นข้อผิดพลาดทั้งหมดจึงมาจากเสียงรบกวนของตัวอย่าง ในสิ่งต่อไปนี้ฟังก์ชั่นที่ติดตั้งจะได้รับการเขียนเป็นฟังก์ชั่นของVE 0 , V 0 , B 0 , B ' 0 ( E ) VE(E|V)=E0+9V0B016⎧⎩⎨[(V0V)23−1]3B′0+[(V0V)23−1]2[6−4(V0V)23]⎫⎭⎬,E(E|V)=E0+9V0B016{[(V0V)23−1]3B0′+[(V0V)23−1]2[6−4(V0V)23]}, \mathbb{E}(E|V) = E_0 + \frac{9V_0B_0}{16} \left\{ \left[\left(\frac{V_0}{V}\right)^\frac{2}{3}-1\right]^3B_0^\prime + \left[\left(\frac{V_0}{V}\right)^\frac{2}{3}-1\right]^2 \left[6-4\left(\frac{V_0}{V}\right)^\frac{2}{3}\right]\right\}\;, …

1
R neuralnet - คำนวณให้คำตอบคงที่
ฉันกำลังพยายามใช้neuralnetแพ็คเกจของ R (เอกสารที่นี่ ) เพื่อคาดการณ์ นี่คือสิ่งที่ฉันพยายามทำ: library(neuralnet) x <- cbind(runif(50, min=1, max=500), runif(50, min=1, max=500)) y <- x[, 1] * x[, 2] train <- data.frame(x, y) n <- names(train) f <- as.formula(paste('y ~', paste(n[!n %in% 'y'], collapse = ' + '))) net <- neuralnet(f, train, hidden = c(5, 5), threshold=0.01) …

3
ฉันจะค้นหาค่าเบี่ยงเบนมาตรฐานของค่าเบี่ยงเบนมาตรฐานตัวอย่างจากการแจกแจงแบบปกติได้อย่างไร
ยกโทษให้ฉันถ้าฉันพลาดบางสิ่งบางอย่างค่อนข้างชัดเจน ฉันเป็นนักฟิสิกส์ที่มีการแจกแจง (ฮิสโตแกรม) เป็นหลักเกี่ยวกับค่าเฉลี่ยที่ใกล้เคียงกับการแจกแจงแบบปกติ ค่าที่สำคัญสำหรับฉันคือส่วนเบี่ยงเบนมาตรฐานของตัวแปรสุ่มเกาส์นี่ ฉันจะพยายามค้นหาข้อผิดพลาดเกี่ยวกับค่าเบี่ยงเบนมาตรฐานตัวอย่างได้อย่างไร ฉันรู้สึกว่ามันเกี่ยวข้องกับความผิดพลาดในแต่ละ bin ในฮิสโทแกรมดั้งเดิม

4
วิธีการแนวความคิดข้อผิดพลาดในรูปแบบการถดถอยหรือไม่?
ฉันกำลังเข้าร่วมชั้นเรียนวิเคราะห์ข้อมูลและแนวคิดที่หยั่งรากลึกของฉันบางอย่างกำลังสั่นไหว ความคิดที่ว่าข้อผิดพลาด (เอปไซลอน) รวมถึงความแปรปรวนประเภทอื่น ๆ นั้นมีผลเฉพาะกับ (ฉันคิดว่า) กับกลุ่ม (ตัวอย่างหรือประชากรทั้งหมด) ตอนนี้เรากำลังได้รับการสอนว่าหนึ่งในสมมติฐานการถดถอยคือความแปรปรวนคือ "เหมือนกันสำหรับทุกคน" นี่เป็นเรื่องที่ทำให้ฉันตกใจ ฉันคิดเสมอว่ามันเป็นความแปรปรวนใน Y ที่สอดคล้องกับค่าทั้งหมดของ X ที่คิดว่าคงที่ ฉันได้คุยกับศาสตราจารย์ผู้ซึ่งบอกฉันว่าเมื่อเราถดถอยเราคิดว่าแบบจำลองของเราเป็นจริง และฉันคิดว่านั่นเป็นส่วนที่ยุ่งยาก สำหรับฉันคำว่าข้อผิดพลาด (epsilon) หมายถึงบางสิ่งบางอย่างเช่น "องค์ประกอบใดก็ตามที่เราไม่ทราบและอาจส่งผลต่อตัวแปรผลลัพธ์ของเรารวมถึงข้อผิดพลาดในการวัด" ในวิธีการสอนในชั้นเรียนไม่มีสิ่งเช่น "สิ่งอื่น ๆ "; แบบจำลองของเราถือว่าเป็นจริงและสมบูรณ์ ซึ่งหมายความว่าการเปลี่ยนแปลงส่วนที่เหลือทั้งหมดจะต้องถูกคิดว่าเป็นผลมาจากความผิดพลาดในการวัด ฉันรู้สึกว่ามีบางอย่างผิดปกติฉันอยากจะมีความเห็นจากผู้เชี่ยวชาญเกี่ยวกับเรื่องนี้ ... มีห้องสำหรับการตีความหรือไม่ว่าคำผิดพลาดคืออะไร

1
เกิดข้อผิดพลาดในการรายงานด้วยค่ามัธยฐานและการแทนด้วยกราฟิก
ฉันใช้การทดสอบที่หลากหลายสำหรับข้อมูลวิทยานิพนธ์ของฉันตั้งแต่พารามิเตอร์ ANOVAs และการทดสอบ t ไปจนถึงการทดสอบที่ไม่ใช่พารามิเตอร์ Kruskal-Wallis และ Mann-Whitneys รวมถึง ANOVAs 2-way อันดับและ GzLMs ที่มีไบนารี ข้อมูลปัวซองและข้อมูลตามสัดส่วน ตอนนี้ฉันต้องรายงานทุกอย่างในขณะที่เขียนทั้งหมดนี้ในผลลัพธ์ของฉัน ผมเคยถามแล้วที่นี่วิธีการรายงานช่วงความเชื่อมั่นไม่สมดุลข้อมูลสัดส่วน ฉันรู้ว่าค่าเบี่ยงเบนมาตรฐานความคลาดเคลื่อนมาตรฐานหรือช่วงความมั่นใจนั้นเหมาะสมสำหรับวิธีการซึ่งเป็นสิ่งที่ฉันรายงานหากการทดสอบทั้งหมดของฉันเป็นพารามิเตอร์ที่ดี อย่างไรก็ตามสำหรับการทดสอบที่ไม่ใช่พารามิเตอร์ของฉันฉันควรจะรายงานค่ามัธยฐานและไม่ได้หมายความว่าอย่างไร ถ้าเป็นเช่นนั้นฉันจะรายงานข้อผิดพลาดอะไร การเชื่อมโยงกับสิ่งนี้เป็นวิธีที่ดีที่สุดในการนำเสนอผลการทดสอบแบบไม่มีพารามิเตอร์ เนื่องจากส่วนใหญ่ฉันมีข้อมูลต่อเนื่องหรือช่วงเวลาภายในหมวดหมู่ฉันมักจะใช้กราฟแท่งกับด้านบนของแถบที่เป็นแถบค่าเฉลี่ยและแถบข้อผิดพลาดแสดง 95% CI สำหรับการทดสอบ NP ฉันสามารถใช้กราฟแท่งได้หรือไม่ แต่มีแถบด้านบนแทนค่ามัธยฐานหรือไม่? ขอบคุณสำหรับคำแนะนำของคุณ!

4
เหตุใดวิธีการกำลังสองน้อยที่สุดและความน่าจะเป็นสูงสุดของการถดถอยจึงไม่เท่ากันเมื่อข้อผิดพลาดไม่กระจายตามปกติ
ชื่อกล่าวมันทั้งหมด ฉันเข้าใจว่ากำลังสองน้อยที่สุดและโอกาสสูงสุดจะให้ผลเหมือนกันสำหรับสัมประสิทธิ์การถดถอยหากข้อผิดพลาดของโมเดลกระจายตามปกติ แต่จะเกิดอะไรขึ้นหากข้อผิดพลาดไม่ได้รับการแจกจ่ายตามปกติ ทำไมทั้งสองวิธีจึงไม่เท่ากันอีกต่อไป?

2
ความแตกต่างระหว่างข้อมูลเฉลี่ยแล้วทำการปรับและปรับข้อมูลให้เหมาะสม
หากมีให้ปรับเส้นให้พอดีกับ "การทดลอง" แยกหลายครั้งจากนั้นทำการหาค่าเฉลี่ยพอดีหรือเฉลี่ยข้อมูลจากการทดลองแยกต่างหากจากนั้นทำการปรับข้อมูลเฉลี่ยให้พอดี ให้ฉันทำอย่างละเอียด: ฉันทำการจำลองคอมพิวเตอร์ซึ่งสร้างเส้นโค้งดังที่แสดงด้านล่าง เราดึงปริมาณออกมาเรียกมันว่า "A" โดยการปรับพื้นที่เชิงเส้นของพล็อต (นาน ๆ ) ค่าเป็นความชันของภูมิภาคเชิงเส้น แน่นอนว่ามีข้อผิดพลาดที่เกี่ยวข้องกับการถดถอยเชิงเส้นนี้ โดยทั่วไปเราจะเรียกใช้การจำลองเหล่านี้ 100 ครั้งหรือมากกว่าด้วยเงื่อนไขเริ่มต้นที่แตกต่างกันเพื่อคำนวณค่าเฉลี่ยของ "A" ฉันได้รับการบอกว่าเป็นการดีกว่าที่จะเฉลี่ยข้อมูลดิบ (จากพล็อตด้านล่าง) เป็นกลุ่มที่พูด 10 แล้วเหมาะสำหรับ "A" และเฉลี่ย 10 "A" ด้วยกัน ฉันไม่มีสัญชาตญาณว่ามีข้อดีหรือไม่และดีกว่าการปรับค่า "A" ให้เหมาะสมกับบุคคล 100 คนและหาค่าเฉลี่ยเหล่านั้น
10 error  fitting  average 

1
การจัดการข้อมูลมีข้อผิดพลาด 'คิดราคา' ในการวิเคราะห์เชิงสถิติหรือไม่
ตกลงคำเตือนอย่างยุติธรรม - นี่เป็นคำถามเชิงปรัชญาที่ไม่เกี่ยวข้องกับตัวเลข ฉันได้คิดมากเกี่ยวกับข้อผิดพลาดที่คืบคลานเข้าไปในชุดข้อมูลเมื่อเวลาผ่านไปและวิธีการที่นักวิเคราะห์ควรปฏิบัติต่อ - หรือว่าควรจะมีความสำคัญอย่างไร สำหรับพื้นหลังฉันกำลังทำการวิเคราะห์เกี่ยวกับการศึกษาระยะยาวที่เกี่ยวข้องกับชุดข้อมูลจำนวนมากที่อาจถูกรวบรวมโดยคน 25 คนในช่วง 7-8 ปีที่ผ่านมา - ไม่มีใครเคยนำข้อมูลทั้งหมดมาสู่โครงสร้างที่สอดคล้องกัน (นั่นคืองานของฉัน) ฉันทำการป้อนข้อมูลจำนวนมาก (คัดลอกจากสมุดบันทึกของแล็บเก่า) และฉันก็พบข้อผิดพลาดเล็ก ๆ น้อย ๆ ที่คนอื่นทำรวมถึงการค้นหารายการข้อมูลที่อ่านยากหรือเป็นไปไม่ได้ส่วนใหญ่เป็นเพราะหมึก ได้จางหายไปเมื่อเวลาผ่านไป ฉันใช้บริบทเพื่อ 'คาดเดาที่ดีที่สุด' เกี่ยวกับสิ่งที่ข้อมูลพูดและออกจากจุดข้อมูลโดยสิ้นเชิงถ้าฉันไม่แน่ใจ แต่ฉันคิดถึงความจริงที่ว่าทุกครั้งที่มีการคัดลอกข้อมูลความถี่ของข้อผิดพลาดจะเพิ่มขึ้นอย่างหลีกเลี่ยงไม่ได้จนกว่าข้อมูลต้นฉบับจะสูญหายอย่างสมบูรณ์ ดังนั้นสิ่งนี้ทำให้ฉันมีความคิด: นอกเหนือจากข้อผิดพลาดของเครื่องมือ / การวัดและข้อผิดพลาดในการบันทึกมีองค์ประกอบ 'ข้อผิดพลาดในการจัดการข้อมูลพื้นฐาน' ที่จะเพิ่มขึ้นเมื่อเวลาผ่านไปและด้วยการจัดการข้อมูลมากขึ้น อีกวิธีหนึ่งในการระบุกฎข้อที่ 2 ของอุณหพลศาสตร์ใช่ไหมเอนโทรปีของข้อมูลจะเพิ่มขึ้นเสมอ) ดังนั้นฉันสงสัยว่าควรมี 'การแก้ไข' ที่นำเสนอเพื่ออธิบายประวัติชีวิตของชุดข้อมูลหรือไม่ (คล้ายกับการแก้ไข Bonferroni) กล่าวอีกนัยหนึ่งเราควรสมมติว่าชุดข้อมูลที่เก่ากว่าหรือมากกว่าที่คัดลอกนั้นมีความแม่นยำน้อยกว่าและหากเป็นเช่นนั้น แต่แล้วความคิดอื่น ๆ ของฉันก็คือความผิดพลาดนั้นเป็นส่วนหนึ่งของการรวบรวมข้อมูลและการจัดการข้อมูลและเนื่องจากการทดสอบทางสถิติทั้งหมดได้รับการพัฒนาด้วยข้อมูลในโลกแห่งความจริงบางทีแหล่งที่มาของข้อผิดพลาดเหล่านี้ นอกจากนี้ประเด็นที่ควรกล่าวถึงอีกประการหนึ่งคือเนื่องจากข้อผิดพลาดของข้อมูลเป็นแบบสุ่มพวกเขามีแนวโน้มที่จะลดความแข็งแรงของการค้นพบมากกว่าที่จะปรับปรุง - กล่าวอีกนัยหนึ่งข้อผิดพลาดในการจัดการข้อมูลจะทำให้เกิดข้อผิดพลาดประเภทที่ 2 . ดังนั้นในบริบทจำนวนมากหากคุณกำลังใช้ข้อมูลเก่า …
10 dataset  error 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.