คำถามติดแท็ก normality-assumption

วิธีการทางสถิติหลายอย่างสมมติว่ามีการกระจายข้อมูลตามปกติ ใช้แท็กนี้สำหรับคำถามเกี่ยวกับสมมติฐานและการทดสอบความเป็นมาตรฐานหรือเกี่ยวกับความปกติเป็นคุณสมบัติ * ใช้ [การแจกแจงแบบปกติ] สำหรับคำถามเกี่ยวกับการแจกแจงแบบปกติ

1
กระบวนการใดในธรรมชาติที่มีการแจกจ่ายปกติหรือไม่
มีคนพูดถึงความสำคัญของการแจกแจงแบบปกติในธรรมชาติ การวัดจำนวนมากเช่นส่วนสูงหรือน้ำหนักนั้นมีการกระจายโดยทั่วไปประมาณ แต่พวกเขาก็ไม่ปกติเท่าที่ฉันเข้าใจ เมื่อพิจารณาการแจกแจงแบบปกติเป็นหนึ่งในการแจกแจงแบบเอนโทรปีสูงสุดดูเหมือนว่าเป็นไปได้ที่ธรรมชาติควร "ชอบ" แต่หลังจากความคิดบางอย่างฉันไม่สามารถหาตัวอย่างของตัวแปรสุ่มแบบ "จริง ๆ " ได้ คำถามของฉันคือตัวอย่างที่ดีของตัวแปรสุ่มแบบกระจายที่แน่นอน

1
คำถามเกี่ยวกับสมมติฐานทั่วไปของ t-test
สำหรับการทดสอบ t ตามข้อความส่วนใหญ่มีข้อสันนิษฐานว่าโดยทั่วไปข้อมูลประชากรจะถูกกระจายออกไป ฉันไม่เห็นว่าทำไม t-test ไม่เพียงต้องการให้การกระจายตัวตัวอย่างของค่าเฉลี่ยตัวอย่างแจกจ่ายตามปกติไม่ใช่ประชากรใช่หรือไม่ หากเป็นกรณีที่การทดสอบ t ในที่สุดต้องการความเป็นมาตรฐานในการแจกแจงตัวอย่างประชากรก็จะมีลักษณะเหมือนการกระจายตัวใช่ไหม? ตราบใดที่มีขนาดตัวอย่างที่เหมาะสม นั่นไม่ใช่ทฤษฎีบทขีด จำกัด กลางหรือไม่? (ฉันหมายถึงที่นี่เพื่อทดสอบตัวอย่างหนึ่งตัวอย่างหรือเป็นอิสระ)

2
เหตุใดความสัมพันธ์ของเพียร์สันถึงอันดับที่ถูกต้องแม้จะมีการสันนิษฐานทั่วไป
ฉันกำลังอ่านข้อสมมติฐานสำหรับสหสัมพันธ์ของเพียร์สัน ข้อสันนิษฐานที่สำคัญสำหรับการทดสอบทีตามมาดูเหมือนว่าตัวแปรทั้งสองมาจากการแจกแจงแบบปกติ หากพวกเขาไม่ทำเช่นนั้นการใช้มาตรการทางเลือกเช่น Rho Spearman จะได้รับการสนับสนุน ความสัมพันธ์ของสเปียร์แมนคำนวณได้จากความสัมพันธ์ของเพียร์สันโดยใช้อันดับ X และ Y แทน X และ Y เท่านั้นใช่ไหม? คำถามของฉันคือ: หากตัวแปรอินพุตเข้าสู่ความสัมพันธ์แบบเพียร์สันจำเป็นต้องกระจายตามปกติทำไมการคำนวณความสัมพันธ์สเปียร์แมนจึงใช้ได้แม้ว่าตัวแปรอินพุตจะถูกจัดอันดับ อันดับของฉันไม่ได้มาจากการแจกแจงแบบปกติ ... คำอธิบายเดียวที่ฉันเกิดขึ้นจนถึงตอนนี้ก็คือความสำคัญของ Rho นั้นอาจถูกทดสอบแตกต่างจากของ Pearson t-test correlation (ในวิธีที่ไม่ต้องใช้กฎเกณฑ์) แต่จนถึงตอนนี้ฉันไม่พบสูตร อย่างไรก็ตามเมื่อฉันวิ่งไปสองสามตัวอย่างค่า p สำหรับ rho และสำหรับ t-test ของ Pearson correlation ของอันดับตรงกันเสมอประหยัดสำหรับตัวเลขสองสามตัวสุดท้าย สำหรับฉันนี่ดูเหมือนจะไม่เหมือนขั้นตอนที่แตกต่าง คำอธิบายและความคิดใด ๆ ที่คุณอาจได้รับการชื่นชม!

3
การประเมินพลังของการทดสอบภาวะปกติ (ใน R)
ฉันต้องการประเมินความถูกต้องของการทดสอบภาวะปกติมากกว่าขนาดตัวอย่างที่แตกต่างกันใน R (ฉันรู้ว่าการทดสอบภาวะปกติอาจทำให้เข้าใจผิด ) ตัวอย่างเช่นหากต้องการดูการทดสอบของ Shapiro-Wilk ฉันกำลังทำการจำลองต่อไปนี้ (เช่นเดียวกับการวางแผนผลลัพธ์) และคาดว่าเมื่อขนาดตัวอย่างเพิ่มความน่าจะเป็นที่จะปฏิเสธการปฏิเสธจะลดลง: n <- 1000 pvalue_mat <- matrix(NA, ncol = 1, nrow = n) for(i in 10:n){ x1 <- rnorm(i, mean = 0, sd = 1) pvalue_mat[i,] <- shapiro.test(x1)$p.value } plot(pvalue_mat) ความคิดของฉันน่าจะเป็นว่าเมื่อขนาดของกลุ่มตัวอย่างเพิ่มขึ้นควรมีอัตราการปฏิเสธที่ต่ำกว่า ฉันคิดว่าฉันเข้าใจผิด - ยินดีต้อนรับทุกความคิด

2
คำนวณ ROC curve สำหรับข้อมูล
ดังนั้นฉันมีการทดลอง 16 ครั้งที่ฉันพยายามพิสูจน์ตัวตนบุคคลจากลักษณะทางชีวภาพโดยใช้ Hamming Distance เกณฑ์ของฉันถูกตั้งไว้ที่ 3.5 ข้อมูลของฉันอยู่ด้านล่างและเฉพาะการทดลองใช้ 1 เท่านั้นคือ True Positive: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 จุดสับสนของฉันคือฉันไม่แน่ใจจริงๆเกี่ยวกับวิธีสร้าง ROC curve …
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

7
การแจกแจงแบบปกติและการแปลงแบบโมโนโทนิก
ฉันได้ยินมาว่ามีปริมาณมากที่เกิดขึ้นตามธรรมชาติกระจายอยู่ตามปกติ นี่เป็นธรรมโดยใช้ทฤษฎีขีด จำกัด กลางซึ่งบอกว่าเมื่อคุณเฉลี่ยตัวแปรสุ่มจำนวนมากคุณจะได้รับการแจกแจงแบบปกติ ยกตัวอย่างเช่นลักษณะที่ถูกกำหนดโดยผลของสารเติมแต่งของยีนจำนวนมากอาจมีการกระจายโดยประมาณปกติเนื่องจากค่าของยีนอาจมีพฤติกรรมคล้ายกับตัวแปรสุ่มไอด ตอนนี้สิ่งที่ทำให้ฉันสับสนก็คือทรัพย์สินของการกระจายตามปกติไม่ชัดเจนว่าไม่แปรเปลี่ยนภายใต้การแปลงแบบโมโนโทนิก ดังนั้นหากมีสองวิธีในการวัดสิ่งที่เกี่ยวข้องโดยการแปลงแบบโมโนโทนิกพวกเขาไม่น่าจะได้รับการแจกแจงแบบปกติทั้งคู่ ตัวอย่างเช่นเราสามารถวัดขนาดของเม็ดฝนตามเส้นผ่าศูนย์กลางพื้นที่ผิวหรือปริมาตร สมมติว่ารูปร่างที่คล้ายกันสำหรับเม็ดฝนทุกอันพื้นที่ผิวเป็นสัดส่วนกับกำลังสองของเส้นผ่านศูนย์กลางและปริมาตรเป็นสัดส่วนกับลูกบาศก์ของเส้นผ่านศูนย์กลาง ดังนั้นวิธีการวัดเหล่านี้ทั้งหมดจึงไม่สามารถกระจายได้ตามปกติ ดังนั้นคำถามของฉันคือวิธีการปรับขนาด (เช่นตัวเลือกเฉพาะของการแปลงแบบโมโนโทนิก) ซึ่งการกระจายตัวเป็นปกตินั้นต้องมีความสำคัญทางกายภาพหรือไม่ ตัวอย่างเช่นควรกระจายความสูงตามปกติหรือตารางของความสูงหรือลอการิทึมของความสูงหรือรากที่สองของความสูง มีวิธีตอบคำถามโดยการทำความเข้าใจกระบวนการที่ส่งผลต่อความสูงหรือไม่?
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.