คำถามติดแท็ก goodness-of-fit

ความเหมาะสมของการทดสอบแบบพอดีบ่งบอกว่ามีเหตุผลหรือไม่ที่จะสมมติว่าตัวอย่างแบบสุ่มมาจากการแจกแจงแบบเจาะจง

2
วิธีการตรวจสอบการกระจายที่เหมาะกับข้อมูลของฉันที่ดีที่สุด?
ฉันมีชุดข้อมูลและต้องการทราบว่าการกระจายแบบใดที่เหมาะกับข้อมูลของฉันที่สุด ฉันใช้fitdistr()ฟังก์ชันเพื่อประมาณค่าพารามิเตอร์ที่จำเป็นเพื่ออธิบายการแจกแจงแบบสมมติ (เช่น Weibull, Cauchy, Normal) การใช้พารามิเตอร์เหล่านั้นฉันสามารถทำการทดสอบ Kolmogorov-Smirnov เพื่อประเมินว่าข้อมูลตัวอย่างของฉันมาจากการแจกแจงแบบเดียวกับการแจกแจงแบบสันนิษฐานของฉันหรือไม่ หากค่า p คือ> 0.05 ฉันสามารถสรุปได้ว่าข้อมูลตัวอย่างถูกดึงมาจากการแจกแจงแบบเดียวกัน แต่ค่า p ไม่ได้ให้ข้อมูลเกี่ยวกับความเหมาะสมของพระเจ้าใช่ไหม? ดังนั้นในกรณีที่ค่า p ของข้อมูลตัวอย่างของฉันคือ> 0.05 สำหรับการแจกแจงแบบปกติรวมถึงการแจกแบบไวบูลฉันจะรู้ได้อย่างไรว่าการแจกแจงแบบใดที่เหมาะกับข้อมูลของฉันดีกว่า นี่เป็นสิ่งที่ฉันทำ: > mydata [1] 37.50 46.79 48.30 46.04 43.40 39.25 38.49 49.51 40.38 36.98 40.00 [12] 38.49 37.74 47.92 44.53 44.91 44.91 40.00 41.51 47.92 36.98 43.40 [23] …

7
Pseudo-ใดที่ใช้ในการรายงานการถดถอยโลจิสติก (Cox & Snell หรือ Nagelkerke)
ฉันมีSPSSเอาต์พุตสำหรับโมเดลการถดถอยโลจิสติก การส่งออกรายงานสองมาตรการสำหรับรูปแบบพอดีและCox & SnellNagelkerke ดังนั้นตามกฎของหัวแม่มือคุณจะรายงานการวัดR2R²R^²ใดในรูปแบบที่เหมาะสม? หรือดัชนีใดที่เหมาะสมเหล่านี้เป็นสิ่งที่มักจะรายงานในวารสาร? พื้นหลังบางส่วน: การถดถอยพยายามทำนายว่ามีหรือไม่มีนก (capercaillie) จากตัวแปรสภาพแวดล้อมบางอย่าง (เช่นความชันความครอบคลุมของพืชพรรณ ... ) น่าเสียดายที่นกไม่ปรากฏบ่อยนัก (35 ครั้งถึง 468 คิดถึง) ดังนั้นการถดถอยจึงทำได้ไม่ดีนัก Cox & Snell คือ. 09, Nagelkerke, .23 หัวเรื่องคือวิทยาศาสตร์สิ่งแวดล้อมหรือนิเวศวิทยา

8
ฉันจะทดสอบได้อย่างไรว่าตัวอย่างที่ได้รับมาจากการแจกแจงปัวซอง
ฉันรู้ว่าการทดสอบภาวะปกติ แต่ฉันจะทดสอบ "Poisson-ness" ได้อย่างไร? ฉันมีตัวอย่างจำนวนเต็ม 1000 จำนวนที่ไม่เป็นลบซึ่งฉันสงสัยว่านำมาจากการแจกแจงแบบปัวซองและฉันต้องการทดสอบสิ่งนั้น


3
เหตุใดจึงมีความแตกต่างระหว่างการคำนวณช่วงความเชื่อมั่นแบบโลจิสติก 95% ด้วยตนเองและการใช้ฟังก์ชัน confint () ใน R
เรียนคุณทุกคน - ฉันสังเกตเห็นบางสิ่งแปลก ๆ ที่ไม่สามารถอธิบายได้ไหม โดยสรุป: แนวทางแบบแมนนวลเพื่อคำนวณช่วงความมั่นใจในโมเดลการถดถอยโลจิสติกและฟังก์ชัน R confint()ให้ผลลัพธ์ที่แตกต่างกัน ฉันเคยผ่านการถดถอยโลจิสติกประยุกต์ของ Hosmer & Lemeshow แล้ว (ฉบับที่ 2) ในบทที่ 3 มีตัวอย่างของการคำนวณอัตราส่วนอัตราต่อรองและช่วงความมั่นใจ 95% ด้วย R ฉันสามารถสร้างโมเดลได้อย่างง่ายดาย: Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

2
องศาอิสระในการทดสอบ Hosmer-Lemeshow
สถิติการทดสอบสำหรับการทดสอบHosmer-Lemeshow (HLT) สำหรับความดีของพอดี (GOF) ของแบบจำลองการถดถอยโลจิสติกถูกกำหนดดังนี้: ตัวอย่างจะถูกแบ่งออกเป็น deciles, D_1, D_2, \ dots, D_ {d} , ต่อหนึ่ง decile คำนวณปริมาณต่อไปนี้:d=10d=10d=10D1,D2,…,DdD1,D2,…,DdD_1, D_2, \dots , D_{d} O1d=∑i∈DdyiO1d=∑i∈DdyiO_{1d}=\displaystyle \sum_{i \in D_d} y_i , คือจำนวนที่สังเกตได้ของจำนวนคดีที่เป็นบวกใน decile DdDdD_d ; O0d=∑i∈Dd(1−yi)O0d=∑i∈Dd(1−yi)O_{0d}=\displaystyle \sum_{i \in D_d} (1-y_i)คือจำนวนที่สังเกตได้จากจำนวนลบในช่วงDdDdD_d ; E1d=∑i∈Ddπ^iE1d=∑i∈Ddπ^iE_{1d}=\displaystyle \sum_{i \in D_d} \hat{\pi}_iคือจำนวนคดีโดยประมาณที่เป็นบวกในช่วงDdDdD_d ; E0d=∑i∈Dd(1−π^i)E0d=∑i∈Dd(1−π^i)E_{0d}= \displaystyle \sum_{i \in D_d} (1-\hat{\pi}_i)คือจำนวนผู้ติดลบโดยประมาณในช่วงDdDdD_d ; …

2
ส่วนที่เหลือดิบกับส่วนที่เหลือมาตรฐานเมื่อเทียบกับส่วนที่เหลือ studentized - สิ่งที่จะใช้เมื่อไหร่?
นี่ดูเหมือนคำถามที่คล้ายกันและไม่ได้รับคำตอบมากมาย ละเว้นการทดสอบเช่น Cook's D และเพียงแค่ดูเศษเป็นกลุ่มฉันสนใจในวิธีที่คนอื่นใช้เศษเหลือใช้เมื่อประเมินความดีงามพอดี ฉันใช้ของเหลือใช้ดิบ: ใน QQ-plot เพื่อประเมินภาวะปกติ ในรูปแบบกระจายของเทียบกับส่วนที่เหลือสำหรับการตรวจลูกตาของ (a) hetereoscedasticity และ (b) autocorrelation ต่อเนื่องyyy สำหรับพล็อตเมื่อเทียบกับที่เหลือเพื่อตรวจสอบค่าสำหรับปีที่ผิดปกติอาจเกิดขึ้นฉันชอบที่จะใช้เหลือ studentized เหตุผลในการตั้งค่าของฉันคือมันช่วยให้ดูได้ง่ายว่าค่าที่เหลือซึ่งค่าyนั้นเป็นตัวปัญหาหรือไม่แม้ว่าค่าส่วนที่เหลือมาตรฐานจะให้ผลลัพธ์ที่คล้ายกันมาก ทฤษฎีของฉันที่ใช้คือมันขึ้นอยู่กับมหาวิทยาลัยที่เราไปyyyyyyyyy สิ่งนี้คล้ายกับวิธีที่คนอื่นใช้สารตกค้างหรือไม่ คนอื่น ๆ ใช้กราฟจำนวนนี้ร่วมกับสถิติสรุปหรือไม่

6
การตีความการทดสอบ Shapiro-Wilk
ฉันค่อนข้างใหม่กับสถิติและฉันต้องการความช่วยเหลือจากคุณ ฉันมีตัวอย่างเล็ก ๆ ดังนี้: H4U 0.269 0.357 0.2 0.221 0.275 0.277 0.253 0.127 0.246 ฉันรันการทดสอบ Shapiro-Wilk โดยใช้ R: shapiro.test(precisionH4U$H4U) และฉันได้ผลลัพธ์ดังนี้ W = 0.9502, p-value = 0.6921 ทีนี้ถ้าฉันสมมติว่าระดับนัยสำคัญที่ 0.05 กว่าค่า p มีค่ามากกว่า alpha (0.6921> 0.05) และฉันไม่สามารถปฏิเสธสมมติฐานว่างเกี่ยวกับการแจกแจงแบบปกติได้ แต่มันบอกว่าตัวอย่างมีการแจกแจงแบบปกติ ? ขอบคุณ!

6
ฉันจะทดสอบความเป็นธรรมของ d20 ได้อย่างไร?
ฉันจะทดสอบความเป็นธรรมของผู้ตายยี่สิบคน (d20) ได้อย่างไร? เห็นได้ชัดว่าฉันจะเปรียบเทียบการกระจายตัวของค่าเทียบกับการกระจายตัวแบบสม่ำเสมอ ฉันจำไม่ได้ว่าใช้การทดสอบ Chi-Square ในวิทยาลัย ฉันจะใช้สิ่งนี้เพื่อดูว่าผู้ตายมีความยุติธรรมได้อย่างไร

1
การคำนวณซ้ำของเอฟเฟกต์จากโมเดล lmer
ฉันเพิ่งอ่านบทความนี้ซึ่งอธิบายถึงวิธีการคำนวณความสามารถในการทำซ้ำ (ความน่าเชื่อถือหรือความสัมพันธ์ภายในอินทราเน็ต) ของการวัดผ่านการสร้างแบบจำลองเอฟเฟกต์ผสม รหัส R จะเป็น: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

7
การทดสอบสมมติฐานการกระจาย - มีจุดประสงค์อะไรถ้าคุณไม่สามารถ“ ยอมรับ” สมมติฐานว่างของคุณได้?
การทดสอบสมมติฐานต่าง ๆ เช่นการทดสอบ GOF, Kolmogorov-Smirnov, Anderson-Darling ฯลฯ ตามรูปแบบพื้นฐานนี้:χ2χ2\chi^{2} H0H0H_0 : ข้อมูลเป็นไปตามการแจกแจงที่กำหนด H1H1H_1 : ข้อมูลไม่เป็นไปตามการแจกแจงที่กำหนด โดยทั่วไปคนหนึ่งประเมินการอ้างสิทธิ์ว่าข้อมูลที่ให้มาบางส่วนมีการแจกแจงที่ให้มาบางส่วนและหากมีใครปฏิเสธข้อมูลนั้นไม่เหมาะสมสำหรับการแจกแจงที่กำหนดในระดับ αH0H0H_0αα\alpha แต่ถ้าเราไม่ปฏิเสธล่ะ ฉันได้รับเสมอสอนว่าหนึ่งไม่สามารถ "ยอมรับ"ดังนั้นโดยทั่วไปเราไม่ได้มีหลักฐานที่จะปฏิเสธH_0นั่นคือไม่มีหลักฐานว่าเราปฏิเสธว่าข้อมูลเป็นไปตามการกระจายที่กำหนดH 0 H 0H0H0H_0H0H0H_0H0H0H_0 ดังนั้นคำถามของฉันคืออะไรคือจุดของการทดสอบดังกล่าวถ้าเราไม่สามารถสรุปได้ว่าข้อมูลตามการกระจายที่กำหนดหรือไม่

2
อะไรคือสิ่งที่เทียบเท่าแบบเบย์ของความดีทั่วไปของการทดสอบแบบเต็ม?
ฉันมีชุดข้อมูลสองชุดชุดหนึ่งจากชุดการสังเกตการณ์ทางกายภาพ (อุณหภูมิ) และอีกชุดจากชุดตัวเลข ฉันกำลังทำการวิเคราะห์แบบจำลองที่สมบูรณ์แบบสมมติว่าชุดรูปแบบแสดงตัวอย่างที่แท้จริงอิสระและการตรวจสอบเพื่อดูว่าการสังเกตนั้นมาจากการแจกแจงนั้นหรือไม่ สถิติที่ฉันคำนวณได้ถูกทำให้เป็นมาตรฐานและในทางทฤษฎีควรจะมีการแจกแจงแบบปกติมาตรฐาน แน่นอนว่ามันไม่สมบูรณ์แบบดังนั้นฉันต้องการทดสอบความดีที่ลงตัว ด้วยการใช้เหตุผลแบบประจำฉันสามารถคำนวณสถิติCramér-von Mises (หรือ Kolmogorov-Smirnov ฯลฯ ) หรือที่คล้ายกันและค้นหาค่าในตารางเพื่อรับค่า p เพื่อช่วยฉันตัดสินใจว่าค่าที่ฉันไม่น่าจะเป็นไปได้คืออะไร เห็นคือให้สังเกตเป็นแบบเดียวกับที่ สิ่งที่เทียบเท่ากับ Bayesian ของกระบวนการนี้จะเป็นอย่างไร นั่นคือฉันจะวัดความแข็งแกร่งของความเชื่อของฉันได้อย่างไรว่าการแจกแจงสองแบบนี้ (สถิติที่คำนวณได้และมาตรฐานทั่วไป) แตกต่างกันอย่างไร

3
การประเมินการถดถอยโลจิสติกและการตีความความดีงามของ Hosmer-Lemeshow of Fit
ดังที่เราทุกคนรู้กันว่ามี 2 วิธีในการประเมินรูปแบบการถดถอยโลจิสติกส์และพวกเขากำลังทดสอบสิ่งที่แตกต่างกันมาก พลังการทำนาย: รับสถิติที่วัดว่าคุณสามารถทำนายตัวแปรตามได้ดีเพียงใดขึ้นอยู่กับตัวแปรอิสระ Pseudo R ^ 2 ที่รู้จักกันดีคือ McFadden (1974) และ Cox and Snell (1989) สถิติความถูกต้อง การทดสอบกำลังบอกว่าคุณสามารถทำได้ดียิ่งขึ้นด้วยการทำให้แบบจำลองมีความซับซ้อนมากขึ้นหรือไม่ซึ่งเป็นการทดสอบว่ามีเชิงเส้นหรือการโต้ตอบใด ๆ หรือไม่ ฉันใช้การทดสอบทั้งสองแบบกับโมเดลซึ่งเพิ่มกำลังสองและการโต้ตอบ อยู่แล้ว: >summary(spec_q2) Call: glm(formula = result ~ Top + Right + Left + Bottom + I(Top^2) + I(Left^2) + I(Bottom^2) + Top:Right + Top:Bottom + Right:Left, family = …

1
Kolmogorov-Smirnov ที่มีข้อมูลไม่ต่อเนื่อง: การใช้ dgof :: ks.test ใน R คืออะไร
คำถามเริ่มต้น: ฉันต้องการทดสอบว่าชุดข้อมูลที่แยกกันสองชุดนั้นมาจากการแจกแจงแบบเดียวกันหรือไม่ แนะนำให้ทำการทดสอบ Kolmogorov-Smirnov กับฉัน Conover ( สถิติ nonparametric ในทางปฏิบัติ , 3d) ดูเหมือนจะบอกว่าการทดสอบ Kolmogorov-Smirnov สามารถนำมาใช้เพื่อจุดประสงค์นี้ได้ แต่พฤติกรรมของมันคือ "อนุรักษ์นิยม" ด้วยการแจกแจงแบบแยกส่วนและฉันไม่แน่ใจว่าสิ่งที่นี่หมายถึงอะไร ความคิดเห็นของ DavidR สำหรับคำถามอื่นกล่าวว่า "... คุณยังสามารถทำการทดสอบระดับαตามสถิติ KS แต่คุณจะต้องค้นหาวิธีอื่นเพื่อให้ได้ค่าวิกฤตเช่นการจำลอง" รุ่นของ ks.test () ในแพคเกจ dgof การ R ( บทความ , Cran ) เพิ่มความสามารถบางอย่างที่ไม่ได้อยู่ในรุ่นเริ่มต้นของ ks.test () ในแพคเกจสถิติ เหนือสิ่งอื่นใด dgof :: ks.test รวมถึงพารามิเตอร์นี้: simulate.p.value: ตรรกะที่ระบุว่าจะคำนวณค่า p โดยการจำลอง …

2
มีสิ่งใดบ้างที่เป็นการปรับ
เมื่อรวมโมเดลการถดถอยเชิงปริมาณในกระดาษผู้วิจารณ์ต้องการให้ฉันรวมปรับปรุงแล้วลงในกระดาษ ฉันได้คำนวณหลอก - s (จากKoenker และกระดาษ JASA ของปี 1999 ของ Machado ) สำหรับสามปริมาณที่น่าสนใจสำหรับการศึกษาของฉันR2R2R^2R2R2R^2 อย่างไรก็ตามฉันไม่เคยได้ยินการปรับสำหรับการถดถอยแบบควอไทล์และไม่รู้จะคำนวณได้อย่างไร ฉันขอให้คุณทำอย่างใดอย่างหนึ่งต่อไปนี้:R2R2R^2 เด่นกว่า: สูตรหรือวิธีการเกี่ยวกับวิธีการคำนวณปรับปรุงแล้วสำหรับการถดถอยเชิงปริมาณR2R2R^2 อีกทางเลือกหนึ่ง: ข้อโต้แย้งที่น่าเชื่อเพื่อให้ผู้ตรวจสอบทราบว่าทำไมไม่มีสิ่งนั้นในฐานะปรับแล้วในการถดถอยเชิงปริมาณR2R2R^2

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.