คำถามติดแท็ก effect-size

ขนาดเอฟเฟ็กต์คือ "การวัดความแข็งแกร่งของปรากฏการณ์หรือการประมาณปริมาณตัวอย่างของปริมาณนั้น" [Wikipedia]

4
วารสารจิตวิทยาห้ามค่า p และช่วงความเชื่อมั่น; ควรหยุดใช้พวกเขาจริง ๆ หรือ?
25 กุมภาพันธ์ 2015 วารสารจิตวิทยาพื้นฐานและประยุกต์ใช้สังคม ออกบทบรรณาธิการห้าม -values และช่วงความเชื่อมั่นจากเอกสารทั้งหมดในอนาคตppp โดยเฉพาะพวกเขากล่าวว่า (การจัดรูปแบบและเน้นเป็นของฉัน): [... ] ก่อนที่จะตีพิมพ์ผู้เขียนจะต้องลบร่องรอยทั้งหมดของ NHSTP [ขั้นตอนการทดสอบนัยสำคัญสมมติฐานที่ว่างเปล่า] ( -values, t -values, F- Values, แถลงการณ์เกี่ยวกับความแตกต่างของ 'นัยสำคัญ' หรือขาด และอื่น ๆ )ppptttFFF คล้ายกับวิธีที่ NHSTP ไม่สามารถให้ความน่าจะเป็นของสมมติฐานว่างซึ่งเป็นสิ่งจำเป็นในการสร้างกรณีที่แข็งแกร่งสำหรับการปฏิเสธช่วงเวลาความเชื่อมั่นไม่ได้ให้กรณีที่แข็งแกร่งสำหรับการสรุปว่าพารามิเตอร์ประชากรที่น่าสนใจน่าจะอยู่ภายในระยะเวลาที่กำหนด ระยะห่าง ดังนั้นช่วงความเชื่อมั่นจึงถูกแบนจาก BASP [... ] ด้วยความเคารพต่อวิธีการแบบเบส์เราขอสงวนสิทธิ์ในการตัดสินเป็นกรณี ๆ ไปและขั้นตอนแบบเบย์นั้นไม่จำเป็นหรือถูกแบนจาก BASP [... ] จำเป็นต้องมีกระบวนการทางสถิติเชิงอนุมานหรือไม่? - ไม่ [... ] อย่างไรก็ตาม BASP จะต้องมีสถิติเชิงพรรณนาที่รัดกุมรวมถึงขนาดผลกระทบ pppppp ppp …

3
การแปลความหมายของตัวทำนายการแปลงสภาพบันทึกและ / หรือการตอบสนอง
ฉันสงสัยว่ามันจะสร้างความแตกต่างในการตีความไม่ว่าจะเป็นเพียงขึ้นอยู่กับทั้งขึ้นอยู่กับและเป็นอิสระหรือตัวแปรอิสระเท่านั้นที่ถูกเปลี่ยนเข้าสู่ระบบ พิจารณากรณีของ log(DV) = Intercept + B1*IV + Error ฉันสามารถตีความ IV เป็นเปอร์เซ็นต์เพิ่มขึ้น แต่จะเปลี่ยนแปลงได้อย่างไรเมื่อฉันมี log(DV) = Intercept + B1*log(IV) + Error หรือเมื่อฉันมี DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

1
วิธีการตีความและรายงานกทพ. กำลังสอง / กทพ. บางส่วนในการวิเคราะห์ที่มีนัยสำคัญทางสถิติและไม่มีนัยสำคัญ?
ฉันมีข้อมูลที่มีค่ากทพ. และค่ากทพ. ส่วนที่คำนวณได้เป็นการคำนวณขนาดของเอฟเฟกต์สำหรับความแตกต่างของค่าเฉลี่ยกลุ่ม อะไรคือความแตกต่างระหว่างกทพ. กับสแควร์และกทพ. บางส่วน พวกเขาสามารถตีความโดยใช้แนวทางของโคเฮนเดียวกันได้หรือไม่ (1988 ฉันคิดว่า: 0.01 = เล็ก, 0.06 = ปานกลาง, 0.13 = ใหญ่)? นอกจากนี้ยังมีการใช้ขนาดรายงานผลกระทบหรือไม่หากการทดสอบเปรียบเทียบ (เช่น t-test หรือ one-way ANOVA) ไม่มีความหมาย? ในหัวของฉันนี่ก็เหมือนกับการพูดว่า "ความแตกต่างเฉลี่ยไม่ถึงนัยสำคัญทางสถิติ แต่ยังคงเป็นข้อความที่เจาะจงเพราะขนาดของเอฟเฟกต์ที่ระบุจากกทพ. กำลังปานกลาง" หรือขนาดของเอฟเฟกต์เป็นค่าทดแทนสำหรับการทดสอบอย่างมีนัยสำคัญแทนที่จะเป็นส่วนประกอบเสริมหรือไม่

4
ค่า p ที่เล็กลงมีความน่าเชื่อถือมากกว่าหรือไม่
ฉันอ่านค่า value, อัตราข้อผิดพลาดประเภท 1, ระดับนัยสำคัญ, การคำนวณพลังงาน, ขนาดผลกระทบและการอภิปราย Fisher vs Neyman-Pearson นี่ทำให้ฉันรู้สึกท่วมท้นไปเล็กน้อย ฉันขอโทษสำหรับกำแพงข้อความ แต่ฉันรู้สึกว่าจำเป็นต้องให้ภาพรวมของความเข้าใจปัจจุบันของฉันเกี่ยวกับแนวคิดเหล่านี้ก่อนที่ฉันจะย้ายไปยังคำถามจริงของฉันppp จากสิ่งที่ฉันรวบรวมมาค่าเป็นเพียงการวัดความประหลาดใจความน่าจะเป็นที่จะได้ผลลัพธ์อย่างน้อยที่สุดเท่าที่เป็นไปได้เนื่องจากสมมติฐานว่างเป็นจริง ฟิชเชอร์มีจุดประสงค์เพื่อให้มันเป็นมาตรการต่อเนื่องppp ในกรอบงานของ Neyman-Pearson คุณเลือกระดับนัยสำคัญล่วงหน้าและใช้สิ่งนี้เป็นจุดตัด (โดยพลการ) ระดับนัยสำคัญเท่ากับอัตราข้อผิดพลาดประเภท 1 มันถูกกำหนดโดยความถี่ในระยะยาวเช่นถ้าคุณต้องทำการทดสอบซ้ำ 1,000 ครั้งและสมมติฐานว่างเป็นจริงการประมาณ 50 ของการทดลองเหล่านั้นจะส่งผลอย่างมีนัยสำคัญเนื่องจากความแปรปรวนของการสุ่มตัวอย่าง โดยการเลือกระดับความสำคัญเราจะป้องกันตนเองจากความผิดพลาดเชิงบวกเหล่านี้ด้วยความน่าจะเป็น แบบดั้งเดิมจะไม่ปรากฏในกรอบนี้PPP หากเราพบค่า 0.01 นี่ไม่ได้หมายความว่าอัตราความผิดพลาดประเภท 1 คือ 0.01 ข้อผิดพลาดประเภท 1 จะถูกระบุเป็นค่าเริ่มต้น ฉันเชื่อว่านี่เป็นหนึ่งในข้อโต้แย้งที่สำคัญในการอภิปราย Fisher vs NP เนื่องจากค่า value มักถูกรายงานเป็น 0.05 *, 0.01 **, 0.001 *** …

1
การวิเคราะห์พลังงานเบื้องต้นนั้นไร้ประโยชน์หรือไม่?
ฉันเข้าร่วมการประชุมของสมาคมบุคลิกภาพและจิตวิทยาสังคมเมื่อสัปดาห์ที่แล้วซึ่งฉันเห็นการพูดคุยของ Uri Simonsohn กับสถานที่ตั้งว่าการใช้การวิเคราะห์พลังงานเบื้องต้นเพื่อกำหนดขนาดตัวอย่างนั้นไร้ประโยชน์เพราะผลลัพธ์นั้นอ่อนไหวต่อสมมติฐาน แน่นอนการเรียกร้องนี้ขัดกับสิ่งที่ฉันได้รับการสอนในชั้นเรียนวิธีการของฉันและต่อต้านคำแนะนำของนักวิธีการที่โดดเด่นหลายคน (สะดุดตาที่สุดโคเฮน 1992 ) ดังนั้น Uri จึงแสดงหลักฐานบางอย่างเกี่ยวกับการอ้างสิทธิ์ของเขา ฉันพยายามสร้างหลักฐานบางส่วนด้านล่างนี้ใหม่ สำหรับความเรียบง่ายให้จินตนาการสถานการณ์ที่คุณมีสองกลุ่มของการสังเกตและคาดเดาว่าขนาดของผล (วัดจากความแตกต่างของค่าเฉลี่ยมาตรฐาน) เป็น0.5การคำนวณพลังงานมาตรฐาน (ทำโดยใช้แพ็คเกจด้านล่าง) จะบอกให้คุณทราบว่าต้องใช้การสังเกตแบบเพื่อให้ได้พลังงาน 80% จากการออกแบบนี้0.5.5.5Rpwr128128128 require(pwr) size <- .5 # Note that the output from this function tells you the required observations per group # rather than the total observations required pwr.t.test(d = size, sig.level = …

1
วิธีการใช้วิธีเดลต้าสำหรับข้อผิดพลาดมาตรฐานของผลกระทบเล็กน้อย?
ฉันสนใจที่จะเข้าใจวิธีการเดลต้าในการประมาณข้อผิดพลาดมาตรฐานของผลกระทบส่วนเพิ่มโดยเฉลี่ยของตัวแบบการถดถอยซึ่งรวมถึงคำศัพท์การโต้ตอบ ฉันได้ดูคำถามที่เกี่ยวข้องภายใต้วิธีเดลต้าแต่ไม่มีผู้ใดได้ให้สิ่งที่ฉันกำลังมองหา พิจารณาข้อมูลตัวอย่างต่อไปนี้เป็นตัวอย่างที่สร้างแรงบันดาลใจ: set.seed(1) x1 <- rnorm(100) x2 <- rbinom(100,1,.5) y <- x1 + x2 + x1*x2 + rnorm(100) m <- lm(y ~ x1*x2) ฉันสนใจในผลกระทบที่ขอบเฉลี่ย (อาเมส) ของและx1 x2ในการคำนวณเหล่านี้ฉันทำต่อไปนี้: cf <- summary(m)$coef me_x1 <- cf['x1',1] + cf['x1:x2',1]*x2 # MEs of x1 given x2 me_x2 <- cf['x2',1] + cf['x1:x2',1]*x1 # MEs of …

4
การเปรียบเทียบค่า p กับแต่ละรายการมีความหมายอย่างไร
ฉันมีประชากรสองคน (ชายและหญิง) แต่ละคนมีตัวอย่าง สำหรับตัวอย่างแต่ละตัวอย่างฉันมีคุณสมบัติ A & B สองรายการ (เกรดเฉลี่ยปีแรกและคะแนน SAT) ฉันใช้การทดสอบแบบแยกต่างหากสำหรับ A & B: ทั้งคู่พบความแตกต่างอย่างมีนัยสำคัญระหว่างทั้งสองกลุ่ม A กับP = 0.008และ B กับP = 0.002100010001000p =0.008p=0.008p=0.008p=0.002p=0.002p=0.002 การอ้างว่าทรัพย์สิน B นั้นเป็นการเลือกปฏิบัติที่ดีกว่า (สำคัญกว่า) คือคุณสมบัติ A หรือไม่? หรือว่าการทดสอบ t เป็นเพียงการวัดใช่หรือไม่ (สำคัญหรือไม่สำคัญ)? ปรับปรุง : ตามความเห็นที่นี่และกับสิ่งที่ผมได้อ่านในวิกิพีเดียผมคิดว่าคำตอบที่ควรจะวางความหมาย p-value และรายงานของคุณขนาดของผล ความคิดใด ๆ

4
ค่าที่ถูกต้องสำหรับความแม่นยำและการเรียกคืนในกรณีขอบคืออะไร?
ความแม่นยำหมายถึง: p = true positives / (true positives + false positives) มันถูกต้องหรือไม่ที่ในฐานะtrue positivesและfalse positivesวิธีที่ 0 ความแม่นยำเข้าใกล้ 1? คำถามเดียวกันสำหรับการเรียกคืน: r = true positives / (true positives + false negatives) ขณะนี้ฉันกำลังใช้การทดสอบทางสถิติที่ฉันต้องการคำนวณค่าเหล่านี้และบางครั้งมันก็เกิดขึ้นที่ตัวส่วนเป็น 0 และฉันสงสัยว่าจะคืนค่าใดให้กับกรณีนี้ PS: ขอโทษแท็กที่ไม่เหมาะสมผมอยากจะใช้recall, precisionและlimitแต่ฉันไม่สามารถสร้างแท็กใหม่ ๆ
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

6
ความแตกต่างระหว่าง d ของโคเฮนกับเฮดเจดสำหรับการวัดขนาดเอฟเฟกต์
สำหรับการวิเคราะห์ขนาดเอฟเฟ็กต์ฉันสังเกตเห็นว่ามีความแตกต่างระหว่าง d ของ Cohen, g ของ Hedges และ Hedges 'g * ปกติแล้วเมทริกทั้งสามนี้คล้ายกันมากหรือไม่ อะไรจะเป็นกรณีที่พวกเขาจะให้ผลลัพธ์ที่แตกต่างกัน? นอกจากนี้ยังเป็นเรื่องของการตั้งค่าที่ฉันใช้หรือรายงานด้วย?

5
ขนาดเอฟเฟกต์คืออะไร ... และทำไมถึงมีประโยชน์?
ฉันมีพื้นหลังสถิติระดับเบื้องต้น - ระดับบัณฑิตศึกษา (สมมติว่าฉันรู้สถิติทางคณิตศาสตร์และความน่าจะเป็นในระดับปริญญาตรี (เช่น Wackerly et al., ความน่าจะเป็นของรอสส์) และมีความรู้เกี่ยวกับทฤษฎีการวัด) ฉันเพิ่งเริ่มงานออกแบบการทดลองและการรายงานสถิติในสถิติการศึกษาและได้ถูกวางไว้ในโครงการที่โดยทั่วไปฉันกำลังประเมินตัวชี้วัดความรับผิดชอบสำหรับโรงเรียนและต้องวิเคราะห์ข้อมูลเสนอการเปลี่ยนแปลง ฯลฯ โปรดทราบว่าฉันเป็นเพียงคนเดียว หนึ่งในแผนกของฉันมีพื้นหลังสถิติทางคณิตศาสตร์ ในตำแหน่งของฉันผู้คนแนะนำอย่างยิ่งให้ใช้ขนาดเอฟเฟกต์เพื่อวัดประสิทธิภาพของโปรแกรม ครั้งเดียวที่ฉันเคยได้ยินเรื่องขนาดเอฟเฟกต์มาจากเพื่อนของฉันซึ่งเรียนจิตวิทยา ความประทับใจของฉันคือEffect Size=Difference of MeansStandard Deviation.Effect Size=Difference of MeansStandard Deviation.\text{Effect Size} = \dfrac{\text{Difference of Means}}{\text{Standard Deviation}}\text{.} มีประโยชน์อย่างไรเกี่ยวกับตัวชี้วัดนี้ผ่านการทดสอบสมมติฐานแบบดั้งเดิมและทำไมฉันจึงต้องสนใจมัน ให้ฉันดูเหมือนว่าไม่มีอะไรมากไปกว่าสถิติทดสอบสำหรับสองตัวอย่าง -test ฉันไม่เห็นว่ามีประโยชน์เลยนอกจากอาจทำให้ทุกอย่างในระดับเดียวกัน (ซึ่งเป็นเหตุผลว่าทำไมทุกคน "ทำให้ปกติ" อะไรก็ได้) แต่ฉันคิดว่าสถิติการทดสอบ และp- value เป็นที่ต้องการtttppp

2
ขนาดของเอฟเฟกต์สำหรับ Wilcoxon ได้ลงลายมือชื่อทดสอบยศแล้วหรือยัง?
ผู้เขียนบางคน (เช่น Pallant, 2007, p. 225; ดูภาพด้านล่าง) แนะนำให้คำนวณขนาดของเอฟเฟกต์สำหรับการทดสอบยศของวิลคอกซันโดยการแบ่งสถิติการทดสอบด้วยสแควร์รูทของจำนวนการสังเกต: r = Znx+ nY√R=Znx+nYr = \frac{Z}{\sqrt{n_x + n_y}} Zคือผลลัพธ์สถิติการทดสอบโดย SPSS (ดูภาพด้านล่าง) และโดยwilcoxsign_testใน R (ดูคำถามที่เกี่ยวข้องของฉัน: teststatistic vs linearstatistic ใน wilcoxsign_test ) คนอื่น ๆ แนะนำ Bravais-Pearson ( ) หรือ Spearman ( ) สัมประสิทธิ์สหสัมพันธ์ (ขึ้นอยู่กับชนิดของข้อมูล)r = c o v ( XY)s d( X) × s …

5
ขนาดของเอฟเฟกต์ดีกว่าค่า p จริง ๆ หรือไม่
การเน้นจำนวนมากนั้นขึ้นอยู่กับการพึ่งพาและการรายงานขนาดผลกระทบมากกว่าค่า pในการวิจัยประยุกต์ แต่ไม่ใช่ในกรณีที่ขนาดของเอฟเฟกต์เหมือนกับค่าpเป็นตัวแปรสุ่มและเช่นนั้นอาจแตกต่างกันไปตามตัวอย่างเมื่อทำการทดลองเดียวกันซ้ำ ฉันกำลังถามว่าคุณลักษณะทางสถิติใด (เช่นขนาดของเอฟเฟกต์เป็นตัวแปรน้อยกว่าจากตัวอย่างไปยังตัวอย่างกว่าค่า p) ทำให้ขนาดของเอฟเฟกต์ดีกว่าดัชนีการวัดที่เป็นหลักฐานได้ดีกว่าค่า p อย่างไรก็ตามฉันควรพูดถึงข้อเท็จจริงสำคัญที่แยก p-value ออกจากขนาดเอฟเฟกต์ นั่นคือขนาดของเอฟเฟกต์เป็นสิ่งที่ต้องประมาณเนื่องจากมีพารามิเตอร์ประชากร แต่ค่าp จะไม่มีค่าใด ๆ ที่จะถูกประเมินเนื่องจากมันไม่มีพารามิเตอร์ประชากร สำหรับฉันขนาดของเอฟเฟกต์เป็นเพียงตัวชี้วัดที่ในบางพื้นที่ของการวิจัย (เช่นการวิจัยของมนุษย์) ช่วยเปลี่ยนการค้นพบเชิงประจักษ์ที่มาจากเครื่องมือการวัดที่นักวิจัยพัฒนาขึ้นมาเป็นเครื่องมือวัดทั่วไป ชมรมวิจัยเชิงปริมาณ. บางทีถ้าเราใช้สัดส่วนที่เรียบง่ายเป็นขนาดเอฟเฟกต์สิ่งต่อไปนี้ (ใน R) คืออะไรที่แสดงให้เห็นถึงขนาดที่ใหญ่ที่สุดของเอฟเฟกต์มากกว่าค่า p (การเปลี่ยนแปลงค่า p แต่ขนาดผลไม่ได้) binom.test(55, 100, .5) ## p-value = 0.3682 ## proportion of success 55% binom.test(550, 1000, .5) ## p-value = 0.001731 ## proportion of …

1
การระบุขนาดเอฟเฟกต์ก่อนหน้าในการวิเคราะห์อภิมาน
ความกังวลเกี่ยวกับคำถามของฉันไพรเออร์กับขนาดของผลกระทบในโครงการของฉันวัดเป็นของโคเฮนDจากการอ่านวรรณกรรมดูเหมือนว่านักบวชที่คลุมเครือมักถูกนำมาใช้เช่นในโรงเรียนแปดตัวอย่างที่เป็นตัวอย่างของการวิเคราะห์อภิมานเบย์แบบลำดับชั้น ในตัวอย่างแปดโรงเรียน, ฉันได้เห็นคลุมเครือก่อนที่ใช้สำหรับการประมาณการของหมู่บ้านเช่น \ หมู่ _ {\ theta} \ ซิม \ operatorname {} ปกติ (0, 100)DDDμθ∼normal(0,100)μθ∼normal⁡(0,100)\mu_{\theta} \sim \operatorname{normal}(0, 100) วินัยของฉันคือจิตวิทยาโดยปกติแล้วขนาดของเอฟเฟกต์จะเล็ก เป็นเช่นนี้ผมกำลังพิจารณาที่จะใช้นี้ก่อน: μθ∼normal(0,.5)μθ∼normal⁡(0,.5)\mu_{\theta} \sim \operatorname{normal}(0, .5)0.5) เหตุผลของฉันก่อนหน้านี้อย่างแน่นหนาคือจากความเข้าใจของฉันเกี่ยวกับนักบวชฉันกำลังวางความน่าจะเป็น 95% ก่อนที่μθμθ\mu_{\theta}อยู่ระหว่าง -1 ถึง 1 ทำให้ความน่าจะเป็นก่อนหน้านี้ 5% สำหรับผลกระทบที่ใหญ่กว่า - 1 หรือ 1 เนื่องจากเอฟเฟกต์ที่มีขนาดใหญ่นี้ไม่ค่อยเกิดขึ้นนี่เป็นเหตุผลที่สมควรมาก่อนหรือไม่?

2
Mann-Whitney U-test: ช่วงความมั่นใจสำหรับขนาดของเอฟเฟกต์
ตามที่ Fritz, Morris และ Richler (2011; ดูด้านล่าง) สามารถคำนวณเป็นขนาดเอฟเฟกต์สำหรับ Mann-Whitney U-test โดยใช้สูตร r = zrrr นี้จะสะดวกให้ฉันเป็นฉันรายงานRยังในโอกาสอื่น ๆ ฉันต้องการรายงานช่วงความมั่นใจสำหรับrเพิ่มเติมจากการวัดขนาดเอฟเฟกต์r=zN−−√r=zN r = \frac{z}{\sqrt N} rrrrrr นี่คือคำถามของฉัน: ฉันสามารถคำนวณช่วงความเชื่อมั่นของ r สำหรับเพียร์สันได้หรือไม่แม้ว่ามันจะใช้เป็นตัววัดขนาดของเอฟเฟกต์สำหรับการทดสอบแบบไม่พารามิเตอร์ ช่วงเวลาความเชื่อมั่นใดที่จะต้องมีการรายงานสำหรับการทดสอบแบบทางเดียวกับแบบสองด้าน แก้ไขเกี่ยวกับคำถามที่สอง: "ต้องมีการรายงานช่วงความมั่นใจสำหรับการทดสอบแบบหางเดียวและแบบสองด้าน" ฉันพบข้อมูลเพิ่มเติมที่ IMHO อาจตอบคำถามนี้ "ในขณะที่ขีดจำกัดความเชื่อมั่นแบบสองด้านก่อให้เกิดช่วงความมั่นใจคู่หูด้านเดียวของพวกเขาจะเรียกว่าขอบเขตความเชื่อมั่นที่ต่ำกว่าหรือสูงกว่า" ( http://en.wikipedia.org/wiki/Confidence_interval ) จากข้อมูลนี้ฉันสรุปได้ว่ามันไม่ใช่ประเด็นหลักว่าการทดสอบที่สำคัญ (เช่น -test) นั้นเป็นแบบหนึ่งหรือสองแบบ แต่ข้อมูลที่เราสนใจนั้นเกี่ยวกับ CI สำหรับขนาดผลกระทบ ข้อสรุปของฉัน (โปรดแก้ไขให้ฉันถ้าคุณไม่เห็นด้วย):ttt CI สองด้านสนใจในขอบเขตบนและล่าง (เป็นผลให้เป็นไปได้ว่า CI สองด้านสร้าง …

1
อัตราส่วนความน่าจะเป็นและการเปรียบเทียบตัวแบบเบย์ให้ทางเลือกที่ดีกว่าและเพียงพอสำหรับการทดสอบสมมติฐานว่างหรือไม่?
ในการตอบสนองต่อร่างกายที่เพิ่มขึ้นของนักสถิติและนักวิจัยที่วิพากษ์วิจารณ์ยูทิลิตี้ของการทดสอบสมมติฐานว่าง (NHT) สำหรับวิทยาศาสตร์เป็นความพยายามสะสมสมาคมจิตวิทยาอเมริกันกองเรือรบในการอนุมานทางสถิติหลีกเลี่ยงการห้ามทันที NHT แต่แทนที่จะแนะนำว่านักวิจัย รายงานขนาดเอฟเฟกต์เพิ่มเติมจากค่า p ที่ได้จาก NHT อย่างไรก็ตามขนาดของเอฟเฟกต์นั้นไม่สามารถสะสมได้ง่ายในการศึกษา วิธีการวิเคราะห์ Meta สามารถสะสมการกระจายขนาดผล แต่โดยทั่วไปขนาดคำนวณเป็นอัตราส่วนระหว่างขนาดผลดิบและ "เสียง" ไม่ได้อธิบายในข้อมูลของการทดลองที่กำหนดหมายความว่าการกระจายขนาดของผลกระทบไม่เพียง ความแปรปรวนในขนาดที่แท้จริงของผลกระทบในการศึกษา แต่ยังมีความแปรปรวนในการแสดงของเสียงในการศึกษา ในทางตรงกันข้ามการวัดทางเลือกของความแข็งแรงของเอฟเฟกต์อัตราส่วนความน่าจะเป็นช่วยให้ตีความได้ง่ายทั้งบนพื้นฐานการศึกษาโดยการศึกษาและสามารถรวบรวมได้ง่ายในการศึกษาเพื่อการวิเคราะห์อภิมาน ในแต่ละการศึกษาโอกาสที่จะแสดงน้ำหนักของหลักฐานสำหรับแบบจำลองที่มีผลกระทบที่กำหนดเมื่อเทียบกับแบบจำลองที่ไม่ได้มีผลกระทบและโดยทั่วไปสามารถรายงานเป็นตัวอย่างเช่น "การคำนวณอัตราส่วนความน่าจะเป็นสำหรับผลของ X เผยหลักฐานเพิ่มเติมอีก 8 เท่าสำหรับเอฟเฟกต์มากกว่าโมฆะที่เกี่ยวข้อง " ยิ่งไปกว่านั้นอัตราส่วนความน่าจะเป็นยังอนุญาตให้แสดงถึงความแข็งแกร่งของการค้นพบโมฆะได้อย่างง่าย ๆ ในขณะที่อัตราส่วนความน่าจะเป็นต่ำกว่า 1 แสดงสถานการณ์ที่โมฆะได้รับการสนับสนุนและรับส่วนกลับของค่านี้แทนน้ำหนักของหลักฐาน โดยเฉพาะอย่างยิ่ง อัตราส่วนความน่าจะเป็นทางคณิตศาสตร์เป็นอัตราส่วนของความแปรปรวนที่ไม่ได้อธิบายของทั้งสองรุ่นซึ่งแตกต่างกันเฉพาะในความแปรปรวนที่อธิบายโดยผลกระทบและจึงไม่ได้เป็นแนวคิดขนาดใหญ่ออกจากขนาดผล ในอีกทางหนึ่งการคำนวณอัตราส่วนความน่าจะเป็น meta-analytic ซึ่งแสดงถึงน้ำหนักของหลักฐานสำหรับผลในการศึกษาเป็นเพียงเรื่องของการใช้ผลิตภัณฑ์ของอัตราส่วนความน่าจะเป็นในการศึกษา ดังนั้นฉันยืนยันว่าสำหรับวิทยาศาสตร์ที่กำลังมองหาเพื่อสร้างระดับของหลักฐานขั้นต้นในความโปรดปรานของผลกระทบ / แบบจำลองอัตราส่วนความน่าจะเป็นเป็นวิธีที่จะไป มีกรณีที่เหมาะสมยิ่งขึ้นซึ่งโมเดลสามารถสร้างความแตกต่างได้เฉพาะในขนาดเฉพาะของเอฟเฟกต์ซึ่งในกรณีนี้การแสดงช่วงเวลาที่เราเชื่อว่าข้อมูลสอดคล้องกับค่าพารามิเตอร์เอฟเฟกต์อาจต้องการ อันที่จริงคณะทำงาน APA ยังแนะนำให้มีการรายงานช่วงเวลาความเชื่อมั่นซึ่งสามารถนำมาใช้ในการนี้ แต่ฉันสงสัยว่านี่เป็นวิธีการที่ไม่ดี ช่วงความเชื่อมั่นมักตีความผิดอย่างน่าเศร้า ( โดยนักเรียนและนักวิจัยเหมือนกัน ) ฉันยังกลัวว่าความสามารถของพวกเขาสำหรับใช้ใน NHT …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.