คำถามติดแท็ก statistical-significance

นัยสำคัญทางสถิติหมายถึงความน่าจะเป็นที่ถ้าในประชากรที่ตัวอย่างนี้ถูกดึงออกมาผลที่แท้จริงคือ 0 (หรือค่าที่ตั้งสมมติฐานไว้บางส่วน) สถิติทดสอบที่มากหรือสุดขั้วเกินกว่าที่จะเกิดขึ้นในกลุ่มตัวอย่าง

3
การวิเคราะห์อภิมานของการศึกษาซึ่งทั้งหมดนั้น“ ไม่ได้มีนัยสำคัญทางสถิติ” นำไปสู่ข้อสรุปที่“ สำคัญ” หรือไม่?
การวิเคราะห์อภิมานรวมถึงการศึกษาจำนวนมากซึ่งทั้งหมดนี้รายงานค่า P มากกว่า 0.05 เป็นไปได้หรือไม่ที่การวิเคราะห์อภิมานโดยรวมรายงานค่า P น้อยกว่า 0.05 ภายใต้สถานการณ์ใด (ฉันค่อนข้างมั่นใจว่าคำตอบคือใช่ แต่ฉันต้องการอ้างอิงหรือคำอธิบาย)

3
ANOVA จะมีนัยสำคัญหรือไม่เมื่อไม่มีการทดสอบ t-pairwise
มันเป็นไปได้สำหรับทางเดียว (กับกลุ่มหรือ "ระดับ") ANOVA เพื่อรายงานความแตกต่างอย่างมีนัยสำคัญเมื่อไม่มีN ( N - 1 ) / 2คู่เสื้อทดสอบไม่?N>2N>2N>2N(N−1)/2N(N−1)/2N(N-1)/2 ในคำตอบนี้ @whuber เขียนว่า: เป็นที่ทราบกันดีว่าการทดสอบ ANOVA F ทั่วโลกสามารถตรวจจับความแตกต่างของวิธีการได้แม้ในกรณีที่ไม่มีการทดสอบทีละคู่ [ทีไม่ได้รับการปรับแก้คู่] ของวิธีการใดก็ตาม เห็นได้ชัดว่ามันเป็นไปได้ แต่ฉันไม่เข้าใจว่า มันเกิดขึ้นเมื่อใดและสัญชาตญาณที่อยู่เบื้องหลังกรณีเช่นนี้จะเป็นเช่นไร? บางทีใครบางคนสามารถให้ตัวอย่างของเล่นง่ายๆของสถานการณ์เช่นนี้? ข้อสังเกตเพิ่มเติมบางส่วน: ตรงกันข้ามเป็นไปได้อย่างชัดเจน: ANOVA โดยรวมอาจไม่มีนัยสำคัญในขณะที่บางส่วนของการทดสอบ t-pairwise รายงานความแตกต่างที่สำคัญอย่างผิดพลาด (เช่นนั้นจะเป็นผลบวกปลอม) คำถามของฉันเกี่ยวกับมาตรฐานไม่ได้ปรับสำหรับการเปรียบเทียบแบบทดสอบหลายรายการ หากใช้การทดสอบที่ปรับแล้ว (เช่นขั้นตอน HSD ของ Tukey) อาจเป็นไปได้ว่าไม่มีการทดสอบใดที่มีนัยสำคัญแม้ว่า ANOVA โดยรวมจะเป็นเช่นนั้น คำถามนี้ครอบคลุมในหลาย ๆ คำถามเช่นฉันจะได้รับ ANOVA โดยรวมที่สำคัญได้อย่างไร แต่ไม่มีความแตกต่างอย่างมีนัยสำคัญระหว่างคู่กับกระบวนการของ Tukey และที่สําคัญ ANOVA …

1
การคำนวณซ้ำของเอฟเฟกต์จากโมเดล lmer
ฉันเพิ่งอ่านบทความนี้ซึ่งอธิบายถึงวิธีการคำนวณความสามารถในการทำซ้ำ (ความน่าเชื่อถือหรือความสัมพันธ์ภายในอินทราเน็ต) ของการวัดผ่านการสร้างแบบจำลองเอฟเฟกต์ผสม รหัส R จะเป็น: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

8
ความอุดมสมบูรณ์ของค่า P ในกรณีที่ไม่มีสมมติฐาน
ฉันเข้าสู่ระบาดวิทยา ฉันไม่ใช่นักสถิติ แต่ฉันพยายามทำการวิเคราะห์ด้วยตัวเองถึงแม้ว่าฉันมักจะประสบปัญหา ฉันทำการวิเคราะห์ครั้งแรกเมื่อ 2 ปีก่อน ค่า P ถูกรวมไว้ทุกที่ในการวิเคราะห์ของฉัน (ฉันเพียงแค่ทำสิ่งที่นักวิจัยคนอื่นทำ) จากตารางเชิงพรรณนาถึงการวิเคราะห์การถดถอย นักสถิติที่ทำงานในอพาร์ทเมนต์ของฉันชักชวนให้ฉันข้ามค่า p ทั้งหมดยกเว้นว่าฉันมีสมมติฐานจริง ๆ ปัญหาคือว่าค่า p มีมากมายในสิ่งพิมพ์วิจัยทางการแพทย์ มันเป็นเรื่องธรรมดาที่จะรวมค่า p ในบรรทัดที่มากเกินไป ข้อมูลเชิงพรรณนาของวิธีการค่ามัธยฐานหรืออะไรก็ตามที่มักจะไปพร้อมกับค่า p (นักเรียนทดสอบ t, Chi-square ฯลฯ ) ฉันเพิ่งส่งรายงานไปยังวารสารและฉันปฏิเสธ (สุภาพ) เพื่อเพิ่มค่า p ลงในตารางอธิบาย "พื้นฐาน" ของฉัน กระดาษถูกปฏิเสธในที่สุด หากต้องการเป็นตัวอย่างให้ดูรูปด้านล่าง มันเป็นตารางอธิบายจากบทความที่ตีพิมพ์ล่าสุดในวารสารที่น่าเชื่อถือของอายุรศาสตร์: นักสถิติส่วนใหญ่ (ถ้าไม่เสมอ) มีส่วนร่วมในการตรวจสอบต้นฉบับเหล่านี้ คนธรรมดาอย่างฉันคาดหวังว่าจะไม่พบค่า p ใด ๆ ที่ไม่มีสมมติฐาน แต่พวกเขามีมากมาย แต่เหตุผลของเรื่องนี้ยังคงเข้าใจยากสำหรับฉัน ฉันพบว่ามันยากที่จะเชื่อว่ามันเป็นความเขลา ฉันรู้ว่านี่เป็นคำถามเชิงสถิติตามแนวเขต …

1
องศาอิสระเป็นหมายเลขที่ไม่ใช่จำนวนเต็มหรือไม่
เมื่อฉันใช้ GAM มันให้ DF ที่เหลือกับฉันคือ (บรรทัดสุดท้ายในรหัส) นั่นหมายความว่าอย่างไร? นอกเหนือไปจากตัวอย่างของ GAM โดยทั่วไปแล้วจำนวนองศาความเป็นอิสระจะเป็นจำนวนที่ไม่ใช่จำนวนเต็มหรือไม่26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

3
อะไรทำให้เกิดความไม่ต่อเนื่องในการแจกแจงค่า p ที่เผยแพร่ที่ p <.05
ในบทความล่าสุดMasicampo และ Lalande (ML) ได้รวบรวมค่า p จำนวนมากที่ตีพิมพ์ในการศึกษาที่แตกต่างกันมากมาย พวกเขาสังเกตเห็นการกระโดดที่น่าสนใจในฮิสโตแกรมของค่า p ขวาที่ระดับวิกฤตที่ยอมรับได้ 5% มีการสนทนาที่ดีเกี่ยวกับ ML ปรากฏการณ์นี้ในบล็อกของ Prof. Wasserman: http://normaldeviate.wordpress.com/2012/08/16/p-values-gone-wild-and-multiscale-madness/ ในบล็อกของเขาคุณจะพบฮิสโตแกรม: เนื่องจากระดับ 5% เป็นแบบแผนและไม่ใช่กฎหมายของธรรมชาติสิ่งที่ทำให้เกิดพฤติกรรมนี้ของการกระจายเชิงประจักษ์ของค่า p- เผยแพร่? การเลือกอคติ“ การปรับ” อย่างเป็นระบบของค่า p เหนือระดับวิกฤตที่ยอมรับได้หรืออะไร

1
สามารถขยายการทดสอบ Mantel เป็นเมทริกซ์แบบอสมมาตรได้หรือไม่?
การทดสอบหิ้งมักจะใช้กับเมทริกซ์ระยะทาง / ความแตกต่างสมมาตร เท่าที่ฉันเข้าใจสมมติฐานของการทดสอบก็คือการวัดที่ใช้ในการกำหนดความแตกต่างจะต้องเป็นอย่างน้อยกึ่ง - ตัวชี้วัด (ตรงตามข้อกำหนดมาตรฐานของตัวชี้วัด สมมติฐานของความสมมาตรสามารถผ่อนคลายได้หรือไม่ (ให้ pre-metric)? เป็นไปได้หรือไม่ที่จะใช้การทดสอบการเปลี่ยนแปลงในกรณีนี้โดยใช้เมทริกซ์แบบเต็ม?

4
Ziliak (2011) คัดค้านการใช้ค่า p และกล่าวถึงทางเลือกบางอย่าง พวกเขาคืออะไร
ในบทความล่าสุดที่กล่าวถึง demerits ของการพึ่งพา p-value สำหรับการอนุมานเชิงสถิติเรียกว่า"Matrixx v. Siracusano และ Student v. Fisher นัยสำคัญทางสถิติในการทดลอง" (DOI: 10.1111 / j.1740-9713.2011.00511.x), Stephen T. Ziliak คัดค้านการใช้ค่า p ในย่อหน้าสุดท้ายเขาพูดว่า: ข้อมูลเป็นสิ่งหนึ่งที่เรารู้และแน่นอน สิ่งที่เราต้องการทราบจริง ๆ คือสิ่งที่แตกต่างกันมาก: ความน่าจะเป็นของสมมติฐานที่เป็นจริง (หรืออย่างน้อยก็มีประโยชน์ในทางปฏิบัติ) จากข้อมูลที่เรามี เราต้องการทราบความน่าจะเป็นที่ยาทั้งสองนั้นแตกต่างกันและได้รับหลักฐานเท่าใด การทดสอบอย่างมีนัยสำคัญ - ขึ้นอยู่กับการเข้าใจผิดของเงื่อนไขการย้ายกับดักที่ฟิชเชอร์ล้มลง - ไม่ได้และไม่สามารถบอกเราว่าน่าจะเป็น ฟังก์ชั่นพลังงาน, ฟังก์ชั่นการสูญเสียที่คาดหวังและวิธีการตัดสินใจเชิงทฤษฎีและวิธีเบย์อื่น ๆ อีกมากมายที่สืบทอดมาจาก Student และ Jeffreys ซึ่งตอนนี้มีให้ใช้กันอย่างแพร่หลายและออนไลน์ฟรี ฟังก์ชั่นพลังงานฟังก์ชั่นการสูญเสียที่คาดหวังและ "วิธีการตัดสินใจเชิงทฤษฎีและวิธีเบย์อื่น ๆ " คืออะไร? วิธีการเหล่านี้ใช้กันอย่างแพร่หลายหรือไม่? พวกเขามีอยู่ใน …

3
ทำไมการทดสอบ Kolmogorov-Smirnov ถึงใช้งานได้?
ในการอ่านเกี่ยวกับการทดสอบ KS 2 ตัวอย่างผมเข้าใจว่าสิ่งที่ทำแต่ผมไม่เข้าใจว่าทำไมมันทำงาน กล่าวอีกนัยหนึ่งฉันสามารถทำตามทุกขั้นตอนเพื่อคำนวณฟังก์ชันการกระจายเชิงประจักษ์ค้นหาความแตกต่างสูงสุดระหว่างทั้งสองเพื่อค้นหา D-statistic คำนวณค่าวิกฤตเปลี่ยนค่า D-statistic เป็น p-value เป็นต้น แต่ฉันไม่รู้ว่าทำไมสิ่งนี้จริง ๆ บอกอะไรฉันเกี่ยวกับการแจกแจงสองอย่าง บางคนอาจบอกฉันได้อย่างง่ายดายว่าฉันต้องกระโดดข้ามลาและนับว่ามันวิ่งเร็วแค่ไหนและถ้าความเร็วน้อยกว่า 2 กม. / ชม. ฉันก็ปฏิเสธสมมติฐานว่าง แน่ใจว่าฉันสามารถทำสิ่งที่คุณบอกให้ฉันทำ แต่สิ่งใดที่เกี่ยวข้องกับสมมติฐานว่าง? เหตุใดการทดสอบ KS 2 ตัวอย่างทำงาน การคำนวณความแตกต่างสูงสุดระหว่าง ECDF นั้นเกี่ยวข้องกับการแจกแจงสองแบบที่แตกต่างกันอย่างไร ความช่วยเหลือใด ๆ ที่ชื่นชม ฉันไม่ใช่นักสถิติดังนั้นให้สมมติว่าฉันเป็นคนงี่เง่าถ้าเป็นไปได้

4
การแก้ไขค่า p สำหรับการทดสอบหลายครั้งที่การทดสอบมีความสัมพันธ์กัน (พันธุศาสตร์)
ฉันมีค่า p จากการทดสอบจำนวนมากและต้องการทราบว่ามีสิ่งที่สำคัญจริง ๆ หลังจากแก้ไขสำหรับการทดสอบหลายครั้ง ภาวะแทรกซ้อน: การทดสอบของฉันไม่ขึ้นกับใคร วิธีที่ฉันคิด (แตกต่างจากวิธีผลิตภัณฑ์ของฟิชเชอร์, Zaykin และคณะ, Genet Epidemiol , 2002) ต้องการความสัมพันธ์ระหว่างค่า p เพื่อที่จะประมาณค่าสหสัมพันธ์นี้ขณะนี้ฉันกำลังคิดถึงกรณี bootstrapping ทำการวิเคราะห์และสหสัมพันธ์ผลเวกเตอร์ของค่า p ใครบ้างมีความคิดที่ดีกว่า หรือแม้แต่ความคิดที่ดีกว่าสำหรับปัญหาดั้งเดิมของฉัน (แก้ไขการทดสอบหลายรายการในการทดสอบที่เกี่ยวข้อง) ความเป็นมา: ฉันกำลังถดถอยอยู่หรือไม่ว่าประชากรของฉันกำลังทุกข์ทรมานจากโรคใดโรคหนึ่งโดยเฉพาะในการมีปฏิสัมพันธ์ระหว่างจีโนไทป์ของพวกเขา (AA, Aa หรือ aa) และ covariate อย่างไรก็ตามจีโนไทป์นั้นมีจำนวนมาก (30-250) ของ Single Nucleotide Polymorphisms (SNPs) ซึ่งแน่นอนว่าไม่เป็นอิสระ แต่อยู่ใน Linkage Disequilibrium

4
การทดสอบทวินามสองตัวอย่างในสัดส่วนที่แน่นอนใน R (และค่า p แปลก ๆ )
ฉันพยายามที่จะแก้ปัญหาคำถามต่อไปนี้: ผู้เล่น A ชนะ 17 จาก 25 เกมในขณะที่ผู้เล่น B ชนะ 8 จาก 20 - มีความแตกต่างอย่างมีนัยสำคัญระหว่างอัตราส่วนทั้งสองหรือไม่? สิ่งที่ต้องทำใน R ที่อยู่ในใจคือต่อไปนี้: &gt; prop.test(c(17,8),c(25,20),correct=FALSE) 2-sample test for equality of proportions without continuity correction data: c(17, 8) out of c(25, 20) X-squared = 3.528, df = 1, p-value = 0.06034 alternative hypothesis: two.sided 95 percent …

3
กำหนดขนาดตัวอย่างอย่างปลอดภัยสำหรับการทดสอบ A / B
ฉันเป็นวิศวกรซอฟต์แวร์ที่ต้องการสร้างเครื่องมือทดสอบ A / B ฉันไม่มีพื้นหลังสถิติที่มั่นคง แต่ได้อ่านบ้างเล็กน้อยในช่วงสองสามวันที่ผ่านมา ฉันกำลังทำตามวิธีการที่อธิบายไว้ที่นี่และจะสรุปประเด็นที่เกี่ยวข้องด้านล่าง เครื่องมือนี้จะช่วยให้นักออกแบบและผู้เชี่ยวชาญด้านโดเมนสามารถกำหนดค่าเว็บไซต์เพื่อแยกทราฟฟิกที่ได้รับที่ URL เฉพาะระหว่างสอง URL ขึ้นไป ยกตัวอย่างเช่นการจราจรมาถึงที่http://example.com/hello1อาจจะแยกระหว่างhttp://example.com/hello1และhttp://example.com/hello2 ปริมาณการใช้ข้อมูลจะถูกแบ่งเท่า ๆ กันระหว่าง URL เป้าหมายและประสิทธิภาพของกระบวนการทางการตลาดในแต่ละ URL เป้าหมายจะถูกเปรียบเทียบ ในการทดลองนี้ขนาดของกลุ่มตัวอย่างNจะสอดคล้องกับผู้เข้าชม การทดสอบจะวัด "การแปลง" ซึ่งเป็นคำที่อธิบายเมื่อผู้เข้าชมยอมรับการกระทำเฉพาะในกระบวนการทางการตลาด การแปลงจะแสดงเป็นเปอร์เซ็นต์และต้องการอัตราการแปลงที่สูงขึ้น สิ่งนี้ทำให้การทดสอบเป็นการเปรียบเทียบสัดส่วนอิสระ เครื่องมือนี้จะต้องสามารถใช้งานได้ง่ายเพื่อสร้างการทดสอบที่มีผลลัพธ์ที่ปลอดภัย การเลือกค่าที่เหมาะสมของNเป็นสิ่งสำคัญ Nในบทความที่เชื่อมโยงข้างต้นการวิเคราะห์พลังงานของทั้งสองสัดส่วนอิสระเป็นลูกจ้างที่จะหา วิธีนี้ต้องการให้ใครรู้อัตราการแปลงของการควบคุมล่วงหน้ารวมทั้งระบุเป้าหมายการปรับปรุงการแปลงที่ต้องการ นอกจากนี้ยังระบุระดับนัยสำคัญ 95% และพลังทางสถิติ 80% คำถาม: เป็นวิธีการกำหนดNเสียงนี้หรือไม่ ถ้าอย่างนั้นวิธีที่ปลอดภัยที่สุดในการกำหนดอัตราการแปลงของการควบคุมก่อนที่จะเริ่มการทดสอบคืออะไร? มีวิธีที่ดีในการพิจารณาNว่าไม่ต้องการให้ใครรู้อัตราการแปลงของการควบคุมล่วงหน้าหรือไม่? เป็นวิธีการในบทความเสียงที่เชื่อมโยง ? ถ้าไม่มีวิธีใดที่สามารถเข้าถึงได้และย่อยง่ายที่คุณสามารถเชื่อมโยงฉันได้หรือไม่

4
เหตุใดการถดถอยเชิงเส้นและ ANOVA จึงให้ค่า
ฉันพยายามใส่ข้อมูลอนุกรมเวลาหนึ่งชุด (โดยไม่ทำซ้ำ) โดยใช้แบบจำลองการถดถอย ข้อมูลมีลักษณะดังนี้: &gt; xx.2 value time treat 1 8.788269 1 0 2 7.964719 6 0 3 8.204051 12 0 4 9.041368 24 0 5 8.181555 48 0 6 8.041419 96 0 7 7.992336 144 0 8 7.948658 1 1 9 8.090211 6 1 10 8.031459 12 1 11 …

3
การเปรียบเทียบและการตัดกันค่า p ระดับนัยสำคัญและข้อผิดพลาดประเภทที่ 1
ฉันสงสัยว่าถ้าใครสามารถให้บทสรุปสั้น ๆ เกี่ยวกับคำจำกัดความและการใช้ค่า p, ระดับนัยสำคัญและข้อผิดพลาดประเภทที่ 1 ฉันเข้าใจว่าค่า p ถูกกำหนดเป็น "ความน่าจะเป็นที่จะได้รับสถิติการทดสอบอย่างน้อยที่สุดเท่าที่เราสังเกตจริง" ในขณะที่ระดับนัยสำคัญเป็นเพียงค่า cutoff ตามอำเภอใจเพื่อประเมินว่าค่า p นั้นมีความสำคัญหรือไม่ . ข้อผิดพลาดประเภทที่ 1 คือข้อผิดพลาดของการปฏิเสธสมมติฐานว่างที่เป็นจริง อย่างไรก็ตามฉันไม่แน่ใจเกี่ยวกับความแตกต่างระหว่างระดับนัยสำคัญและข้อผิดพลาดประเภทที่ 1 พวกเขาไม่ใช่แนวคิดเดียวกันหรือไม่ ตัวอย่างเช่นสมมติว่าการทดลองง่าย ๆ ที่ฉันพลิกเหรียญ 1,000 ครั้งและนับจำนวนครั้งที่มันตกลงบน 'หัว' สมมุติฐานว่างของฉัน, H0, นั่นคือหัว = 500 (เหรียญไม่มีอคติ) จากนั้นฉันตั้งระดับความสำคัญของฉันที่ alpha = 0.05 ฉันพลิกเหรียญ 1,000 ครั้งจากนั้นฉันคำนวณค่า p ถ้าค่า p เป็น&gt; 0.05 จากนั้นฉันไม่สามารถปฏิเสธสมมติฐานว่างได้และถ้าค่า p เป็น &lt;0.05 …

5
วิธีที่ถูกต้องในการทดสอบความสำคัญของผลลัพธ์การจำแนกประเภทคืออะไร
มีหลายสถานการณ์ที่คุณสามารถฝึกตัวแยกประเภทที่แตกต่างกันหลายตัวหรือใช้วิธีการดึงคุณสมบัติที่แตกต่างกันหลายวิธี ในวรรณกรรมผู้เขียนมักจะให้ข้อผิดพลาดการจัดหมวดหมู่ค่าเฉลี่ยในชุดของการแยกแบบสุ่มของข้อมูล (เช่นหลังจากการตรวจสอบข้ามซ้อนสองเท่า) และบางครั้งก็ให้ความแตกต่างกับข้อผิดพลาดในการแยกเช่นกัน อย่างไรก็ตามสิ่งนี้ด้วยตัวมันเองไม่เพียงพอที่จะบอกได้ว่าตัวจําแนกประเภทหนึ่งดีกว่าตัวจําแนกอื่นอย่างมาก ฉันได้เห็นวิธีการที่แตกต่างมากมายในเรื่องนี้ - การใช้การทดสอบ Chi-squared, t-test, ANOVA พร้อมการทดสอบหลังเลิกเรียน ฯลฯ ควรใช้วิธีการใดเพื่อกำหนดนัยสำคัญทางสถิติ ภายใต้คำถามนั้นคือ: เราควรตั้งสมมติฐานอะไรเกี่ยวกับการแจกแจงคะแนนการจำแนกประเภท?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.