คำถามติดแท็ก normality-assumption

วิธีการทางสถิติหลายอย่างสมมติว่ามีการกระจายข้อมูลตามปกติ ใช้แท็กนี้สำหรับคำถามเกี่ยวกับสมมติฐานและการทดสอบความเป็นมาตรฐานหรือเกี่ยวกับความปกติเป็นคุณสมบัติ * ใช้ [การแจกแจงแบบปกติ] สำหรับคำถามเกี่ยวกับการแจกแจงแบบปกติ

2
อะไรคือความแตกต่างระหว่างการทดสอบตามปกติของชาปิโร - วิลค์กับการทดสอบภาวะปกติของ Kolmogorov-Smirnov?
อะไรคือความแตกต่างระหว่างการทดสอบตามปกติของชาปิโร - วิลค์กับการทดสอบภาวะปกติของ Kolmogorov-Smirnov? ผลลัพธ์จากทั้งสองวิธีนี้จะแตกต่างกันเมื่อใด

5
มีคำอธิบายว่าทำไมมีปรากฏการณ์ทางธรรมชาติมากมายที่ตามหลังการแจกแจงปกติ?
ฉันคิดว่านี่เป็นหัวข้อที่น่าสนใจและฉันไม่เข้าใจอย่างถ่องแท้ กฎแห่งฟิสิกส์ใดที่ทำให้เกิดปรากฏการณ์ทางธรรมชาติมากมายที่มีการแจกแจงแบบปกติ ดูเหมือนง่ายกว่าที่พวกเขาจะมีการแจกแจงแบบเดียวกัน มันยากสำหรับฉันที่จะเข้าใจสิ่งนี้และฉันรู้สึกว่าฉันขาดข้อมูลบางอย่าง ใครสามารถช่วยฉันด้วยคำอธิบายที่ดีหรือเชื่อมโยงฉันกับหนังสือ / วิดีโอ / บทความ?

6
การตีความการทดสอบ Shapiro-Wilk
ฉันค่อนข้างใหม่กับสถิติและฉันต้องการความช่วยเหลือจากคุณ ฉันมีตัวอย่างเล็ก ๆ ดังนี้: H4U 0.269 0.357 0.2 0.221 0.275 0.277 0.253 0.127 0.246 ฉันรันการทดสอบ Shapiro-Wilk โดยใช้ R: shapiro.test(precisionH4U$H4U) และฉันได้ผลลัพธ์ดังนี้ W = 0.9502, p-value = 0.6921 ทีนี้ถ้าฉันสมมติว่าระดับนัยสำคัญที่ 0.05 กว่าค่า p มีค่ามากกว่า alpha (0.6921> 0.05) และฉันไม่สามารถปฏิเสธสมมติฐานว่างเกี่ยวกับการแจกแจงแบบปกติได้ แต่มันบอกว่าตัวอย่างมีการแจกแจงแบบปกติ ? ขอบคุณ!

1
แบบจำลองการถดถอยไม่ถูกต้องอย่างไรเมื่อไม่ตรงตามสมมติฐาน?
เมื่อติดตั้งโมเดลการถดถอยจะเกิดอะไรขึ้นถ้าข้อสันนิษฐานของผลลัพธ์ไม่เป็นไปตามที่ระบุ: จะเกิดอะไรขึ้นถ้าสิ่งที่เหลืออยู่ไม่เป็นเนื้อเดียวกัน? หากส่วนที่เหลือแสดงรูปแบบที่เพิ่มขึ้นหรือลดลงในส่วนที่เหลือกับพล็อตที่ติดตั้ง จะเกิดอะไรขึ้นหากส่วนที่เหลือไม่ได้ถูกแจกจ่ายและล้มเหลวในการทดสอบ Shapiro-Wilk การทดสอบตามปกติของชาปิโร่วิลค์เป็นการทดสอบที่เข้มงวดมากและบางครั้งแม้ว่าพล็อตปกติ -QQ จะดูสมเหตุสมผล แต่ข้อมูลก็ล้มเหลวในการทดสอบ จะเกิดอะไรขึ้นถ้าตัวทำนายหนึ่งตัวหรือมากกว่านั้นไม่ได้ถูกกระจายโดยทั่วไปอย่ามองไปที่พล็อตปกติ -QQ หรือถ้าข้อมูลล้มเหลวในการทดสอบ Shapiro-Wilk? ฉันเข้าใจว่าไม่มีการแบ่งสีดำและสีขาวอย่างหนักว่า 0.94 ถูกต้องและ 0.95 ไม่ถูกต้องและในคำถามฉันต้องการทราบว่า: ความล้มเหลวของภาวะปกตินั้นหมายถึงอะไรสำหรับแบบจำลองที่เหมาะสมตามค่า R-Squared มันเชื่อถือได้น้อยลงหรือไร้ประโยชน์อย่างสมบูรณ์หรือไม่? การเบี่ยงเบนนั้นยอมรับได้หรือว่ายอมรับได้ในระดับใด? เมื่อใช้การแปลงข้อมูลเพื่อให้เป็นไปตามเกณฑ์ปกติแบบจำลองจะดีขึ้นหรือไม่ถ้าข้อมูลเป็นปกติมากขึ้น (ค่า P-value ที่สูงกว่าในการทดสอบ Shapiro-Wilk, ดูดีขึ้นในแผน QQ ปกติ) หรือมันไร้ประโยชน์ (เท่าเทียมกันดีหรือ ไม่ดีเมื่อเทียบกับต้นฉบับ) จนกว่าข้อมูลจะผ่านการทดสอบตามปกติ?

1
การคำนวณซ้ำของเอฟเฟกต์จากโมเดล lmer
ฉันเพิ่งอ่านบทความนี้ซึ่งอธิบายถึงวิธีการคำนวณความสามารถในการทำซ้ำ (ความน่าเชื่อถือหรือความสัมพันธ์ภายในอินทราเน็ต) ของการวัดผ่านการสร้างแบบจำลองเอฟเฟกต์ผสม รหัส R จะเป็น: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

1
องศาอิสระเป็นหมายเลขที่ไม่ใช่จำนวนเต็มหรือไม่
เมื่อฉันใช้ GAM มันให้ DF ที่เหลือกับฉันคือ (บรรทัดสุดท้ายในรหัส) นั่นหมายความว่าอย่างไร? นอกเหนือไปจากตัวอย่างของ GAM โดยทั่วไปแล้วจำนวนองศาความเป็นอิสระจะเป็นจำนวนที่ไม่ใช่จำนวนเต็มหรือไม่26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

3
ฉันควรตรวจสอบความเป็นมาตรฐานอย่างไร: ข้อมูลดิบหรือสิ่งตกค้าง
ฉันได้เรียนรู้ว่าฉันต้องทดสอบความเป็นปกติไม่ใช่ข้อมูลดิบ แต่เป็นของที่เหลืออยู่ ฉันควรคำนวณส่วนที่เหลือแล้วทำการทดสอบ W ของ Shapiro – Wilk หรือไม่ เศษที่เหลือคำนวณเป็น:หรือไม่Xi−meanXi−ค่าเฉลี่ยX_i - \text{mean} โปรดดูคำถามก่อนหน้านี้สำหรับข้อมูลและการออกแบบของฉัน

3
มันมีความหมายหรือไม่ที่จะทดสอบความเป็นมาตรฐานด้วยขนาดตัวอย่างที่เล็กมาก (เช่น n = 6)?
ฉันมีขนาดตัวอย่างเป็น 6 ในกรณีเช่นนี้มันสมเหตุสมผลไหมที่จะทดสอบความเป็นมาตรฐานโดยใช้การทดสอบ Kolmogorov-Smirnov ฉันใช้ SPSS ฉันมีขนาดตัวอย่างเล็กมากเพราะต้องใช้เวลาพอสมควร ถ้ามันไม่สมเหตุสมผลจำนวนตัวอย่างที่น้อยที่สุดที่สมเหตุสมผลในการทดสอบคือเท่าใด หมายเหตุ: ฉันได้ทำการทดสอบบางอย่างที่เกี่ยวข้องกับซอร์สโค้ด ตัวอย่างคือเวลาที่ใช้ในการเข้ารหัสในซอฟต์แวร์เวอร์ชัน (เวอร์ชัน A) ที่ จริงแล้วฉันมีขนาดตัวอย่างอีก 6 ตัวซึ่งเป็นเวลาที่ใช้ในการเข้ารหัสในซอฟต์แวร์เวอร์ชันอื่น(เวอร์ชัน B) ฉันต้องการทำการทดสอบสมมติฐานโดยใช้หนึ่งตัวอย่าง t-testเพื่อทดสอบว่าเวลาที่ใช้ในรหัสรุ่น A นั้นแตกต่างจากเวลาที่ใช้ในรหัสรุ่น B หรือไม่ (นี่คือ H1 ของฉัน) เงื่อนไขเบื้องต้นของ t-test หนึ่งตัวอย่างคือข้อมูลที่จะทดสอบต้องมีการแจกแจงแบบปกติ นั่นคือเหตุผลที่ฉันต้องทดสอบความเป็นปกติ

4
ชาปิโร่ - วิลค์เป็นแบบทดสอบปกติที่ดีที่สุดหรือไม่? ทำไมมันจะดีกว่าการทดสอบอื่น ๆ เช่น Anderson-Darling
ฉันได้อ่านบางแห่งในวรรณคดีว่าการทดสอบ Shapiro – Wilk นั้นถือว่าเป็นการทดสอบเชิงบรรทัดฐานที่ดีที่สุดเพราะสำหรับระดับนัยสำคัญที่กำหนดความน่าจะเป็นที่จะปฏิเสธสมมติฐานว่างถ้ามันเป็นเท็จมากกว่าในกรณีอื่น ๆ การทดสอบปกติαα\alpha คุณช่วยอธิบายให้ฉันหน่อยได้มั้ยถ้าใช้วิธีการทางคณิตศาสตร์เทียบกับการทดสอบปกติอื่น ๆ (พูดแบบทดสอบ Anderson – Darling)

5
ตัวอย่างอิสระ t-test มีความแข็งแกร่งเพียงใดเมื่อการแจกแจงตัวอย่างไม่ปกติ?
ฉันได้อ่านแล้วว่าการทดสอบเสื้อยืดนั้น "แข็งแกร่งพอสมควร" เมื่อการแจกแจงของตัวอย่างนั้นออกจากภาวะปกติ แน่นอนว่ามันคือการกระจายตัวตัวอย่างของความแตกต่างที่สำคัญ ฉันมีข้อมูลสำหรับสองกลุ่ม กลุ่มใดกลุ่มหนึ่งมีความเบ้สูงของตัวแปรตาม ขนาดตัวอย่างค่อนข้างเล็กสำหรับทั้งสองกลุ่ม (n = 33 ในหนึ่งและ 45 ในอีกกลุ่ม) ฉันควรสมมติว่าภายใต้เงื่อนไขเหล่านี้การทดสอบเสื้อยืดของฉันจะทนทานต่อการละเมิดข้อสันนิษฐานทั่วไปหรือไม่

5
ฉันสามารถเชื่อถือผลลัพธ์ ANOVA สำหรับ DV แบบกระจายที่ไม่ใช่แบบปกติได้หรือไม่
ฉันวิเคราะห์การทดสอบด้วยการวัดซ้ำ ANOVA ANOVA คือ 3x2x2x2x3 ที่มี 2 ระหว่างปัจจัยเรื่องและ 3 ภายใน (N = 189) อัตราความผิดพลาดเป็นตัวแปรตาม การกระจายตัวของอัตราความผิดพลาดมีความเบี่ยงเบน 3.64 และความหนาเป็น 15.75 ความเบ้และความโด่งเป็นผลมาจาก 90% ของอัตราความผิดพลาดหมายถึงการเป็น 0 การอ่านหัวข้อก่อนหน้านี้บางส่วนเกี่ยวกับการทดสอบภาวะปกติที่นี่ทำให้ฉันสับสนเล็กน้อย ฉันคิดว่าถ้าคุณมีข้อมูลที่ไม่กระจายตามปกติมันเป็นประโยชน์สูงสุดของคุณในการแปลงถ้าเป็นไปได้ แต่ดูเหมือนว่าผู้คนจำนวนมากคิดว่าการวิเคราะห์ข้อมูลที่ไม่ปกติด้วย ANOVA หรือ T-test เป็นที่ยอมรับ ฉันสามารถไว้วางใจผลลัพธ์ของ ANOVA ได้หรือไม่? (FYI ในอนาคตฉันตั้งใจจะวิเคราะห์ข้อมูลประเภทนี้ใน R ด้วยตัวแบบผสมที่มีการแจกแจงแบบทวินาม)

9
ฉันจะทราบได้อย่างไรว่าการกระจายแบบใดที่แสดงข้อมูลนี้เกี่ยวกับเวลาตอบสนองการ ping
ฉันสุ่มตัวอย่างกระบวนการโลกแห่งความเป็นจริง, เวลา ping เครือข่าย "round-trip-time" วัดเป็นมิลลิวินาที ผลลัพธ์ถูกพล็อตในฮิสโตแกรม: Ping ครั้งมีค่าต่ำสุด แต่หางบนยาว ฉันต้องการทราบว่าการกระจายเชิงสถิติคืออะไรและจะประเมินค่าพารามิเตอร์ได้อย่างไร แม้ว่าการกระจายไม่ใช่การกระจายทั่วไปฉันยังสามารถแสดงสิ่งที่ฉันพยายามที่จะบรรลุ การแจกแจงปกติใช้ฟังก์ชัน: ด้วยพารามิเตอร์ทั้งสอง μ (หมายถึง) σ 2 (ความแปรปรวน) การประมาณค่าพารามิเตอร์ สูตรสำหรับการประมาณค่าพารามิเตอร์ทั้งสองคือ: ใช้สูตรเหล่านี้กับข้อมูลที่ฉันมีใน Excel ฉันจะได้รับ: μ = 10.9558 (หมายถึง) σ 2 = 67.4578 (ความแปรปรวน) ด้วยพารามิเตอร์เหล่านี้ฉันสามารถพล็อตการกระจาย " ปกติ " ด้านบนข้อมูลตัวอย่างของฉัน: เห็นได้ชัดว่าไม่ใช่การแจกแจงแบบปกติ การแจกแจงแบบปกติมีหางบนและล่างไม่ จำกัด และมีความสมมาตร การกระจายนี้ไม่สมมาตร ฉันจะใช้หลักการอะไร ฉันจะใช้ผังงานใดเพื่อกำหนดการกระจายแบบนี้ว่าเป็นอย่างไร ระบุว่าการแจกแจงไม่มีหางลบและหางยาวเป็นบวก: การกระจายแบบใดที่ตรงกับ? มีการอ้างอิงที่ตรงกับการแจกแจงของการสังเกตที่คุณทำหรือไม่? และการตัดการไล่ล่าสูตรสำหรับการแจกแจงนี้คืออะไรและสูตรการประมาณค่าพารามิเตอร์คืออะไร? ฉันต้องการรับการกระจายเพื่อให้ได้ค่า …

5
สมมติฐานของตัวแบบเชิงเส้นและจะทำอย่างไรถ้าส่วนที่เหลือไม่ได้รับการแจกแจงแบบปกติ
ฉันสับสนเล็กน้อยว่าสมมติฐานของการถดถอยเชิงเส้นคืออะไร จนถึงตอนนี้ฉันตรวจสอบว่า: ตัวแปรอธิบายทั้งหมดมีความสัมพันธ์เชิงเส้นตรงกับตัวแปรตอบกลับ (ในกรณีนี้) มี collinearity ใด ๆ ในหมู่ตัวแปรอธิบาย (มี collinearity น้อย) ระยะทางของชุดข้อมูลของโมเดลของ Cook ต่ำกว่า 1 (ในกรณีนี้ระยะทางทั้งหมดอยู่ต่ำกว่า 0.4 ดังนั้นจึงไม่มีคะแนนอิทธิพล) ส่วนที่เหลือจะกระจายตามปกติ (อาจไม่เป็นเช่นนั้น) แต่ฉันก็อ่านต่อไปนี้: การฝ่าฝืนกฎเกณฑ์มักเกิดขึ้นเพราะ (ก) การกระจายของตัวแปรตามและ / หรือตัวแปรอิสระเป็นตัวของตัวเองอย่างมีนัยสำคัญที่ไม่ปกติและ / หรือ (ข) ข้อสมมติเชิงเส้นถูกละเมิด คำถามที่ 1 สิ่งนี้ทำให้ฟังดูเหมือนว่าตัวแปรอิสระและตัวแปรตามต้องได้รับการกระจายตามปกติ แต่เท่าที่ฉันรู้ว่านี่ไม่ใช่กรณี ตัวแปรตามของฉันเช่นเดียวกับหนึ่งในตัวแปรอิสระของฉันไม่ได้กระจายตามปกติ พวกเขาควรจะเป็นอย่างไร คำถามที่ 2 พล็อต QQ ของฉันปกติมีลักษณะดังนี้: นั่นแตกต่างจากการแจกแจงแบบปกติเล็กน้อยและshapiro.testยังปฏิเสธสมมติฐานว่าง ๆ ว่าส่วนที่เหลือมาจากการแจกแจงแบบปกติ: > shapiro.test(residuals(lmresult)) W = 0.9171, …

6
การทดสอบภาวะปกติที่เหมาะสมสำหรับตัวอย่างขนาดเล็ก
จนถึงตอนนี้ฉันใช้สถิติของ Shapiro-Wilk เพื่อทดสอบสมมติฐานปกติในตัวอย่างเล็ก ๆ คุณช่วยแนะนำเทคนิคอื่นได้ไหม

4
วิธีการฉายเวกเตอร์ใหม่บนพื้นที่ PCA?
หลังจากทำการวิเคราะห์องค์ประกอบหลัก (PCA) ฉันต้องการฉายเวกเตอร์ใหม่ลงบนพื้นที่ PCA (เช่นค้นหาพิกัดในระบบพิกัด PCA) ผมได้คำนวณ PCA ในภาษา R prcompโดยใช้ ตอนนี้ฉันควรคูณเวกเตอร์ของฉันด้วยเมทริกซ์การหมุน PCA ควรจัดองค์ประกอบหลักในเมทริกซ์นี้เป็นแถวหรือคอลัมน์?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.