เท่าไหร่ขนาดเล็กสามารถ


13

อินโทร:หลังจากที่สังเกตเห็นความสนใจที่ได้รับในวันนี้จากคำถามนี้ " ANOVA จะมีความสำคัญหรือไม่หากไม่มีการทดสอบแบบ pairwise t? " ฉันคิดว่าฉันอาจสามารถ reframe ในวิธีที่น่าสนใจซึ่งสมควรได้รับคำตอบของตัวเอง .

ความหลากหลายของผลไม่ลงรอยกัน (มูลค่าที่ตรา) สามารถเกิดขึ้นเมื่อนัยสำคัญทางสถิติเป็นที่เข้าใจกันว่าเป็นขั้วที่เรียบง่ายและตัดสินบนพื้นฐานเพียงของซึ่งเป็นสูงกว่าpหรือαα@ Glen_b คำตอบสำหรับคำถามข้างต้นแสดงตัวอย่างที่มีประโยชน์ของกรณีที่:

  • ANOVA Fทดสอบสร้างpF<.05สำหรับหนึ่งตัวแปรอิสระ (IV) กับสี่ระดับ แต่
  • pt>.08สำหรับทุกสองตัวอย่างt -tests ที่เปรียบเทียบความแตกต่างในตัวแปรเดียวกัน (DV) ในหมู่สังเกตสอดคล้องกับคู่ของ IV สี่แต่ละระดับ

กรณีที่คล้ายกันเกิดขึ้นแม้จะมีการแก้ไข Bonferroni สำหรับการเปรียบเทียบแบบคู่หลังด้วยคำถามนี้: การวัดซ้ำของ Anova มีความสำคัญ แต่การเปรียบเทียบหลาย ๆ ครั้งกับการแก้ไข Bonferroni ไม่ได้เป็นเช่นนั้นหรือ? กรณีที่กล่าวถึงก่อนหน้านี้ที่มีการทดสอบแตกต่างกันเล็กน้อยในการถดถอยหลายครั้งก็มีอยู่:

ฉันเดิมพันว่าในกรณีเช่นนี้บาง ( แต่ไม่ใช่ทั้งหมด) เปรียบเทียบคู่ (หรือค่าสัมประสิทธิ์การถดถอยการทดสอบอย่างมีนัยสำคัญ) ค่าต้องค่อนข้างใกล้เคียงกับαถ้าการทดสอบรถโดยสารที่สอดคล้องกันสามารถบรรลุP <pαp<α α ฉันเห็นว่านี่เป็นตัวอย่างในตัวอย่างแรกของ @ Glen_b โดยที่ , p F = .046และความแตกต่างของจำนวนคู่ที่ใหญ่ที่สุดจะทำให้p t = .054น้อยที่สุด โดยทั่วไปจะต้องเป็นกรณีนี้หรือไม่ เพิ่มเติมโดยเฉพาะ :F(3,20)=3.19pF=.046pt=.054


คำถาม:ถ้าการทดสอบ ANOVA สร้างp F = .05สำหรับผลกระทบของ polytomous IV หนึ่งต่อ DV ที่ต่อเนื่องค่าpต่ำสุดที่สูงที่สุดจะเป็นเท่าใดในการทดสอบt -test สองตัวอย่างที่เปรียบเทียบแต่ละคู่ของระดับ IV ค่านัยสำคัญต่ำสุดของจำนวนคู่ที่สำคัญอาจสูงถึงp t = .50หรือไม่FpF=.05ptpt=.50


ฉันยินดีต้อนรับคำตอบที่อยู่เฉพาะคำถามนี้เท่านั้น อย่างไรก็ตามเพื่อกระตุ้นคำถามนี้ต่อไปฉันจะอธิบายอย่างละเอียดและโยนคำถามเชิงโวหารที่อาจเกิดขึ้น รู้สึกยินดีที่จะตอบข้อกังวลเหล่านี้เช่นกันและแม้กระทั่งไม่สนใจคำถามเฉพาะหากคุณต้องการโดยเฉพาะอย่างยิ่งหากคำถามเฉพาะนั้นได้รับคำตอบที่ชัดเจน

ความสำคัญ:พิจารณาว่าความแตกต่างระหว่างและp t = 0.06มีความสำคัญน้อยเพียงใดหากความสำคัญทางสถิติได้รับการตัดสินในแง่ความต่อเนื่องของความแข็งแกร่งของหลักฐานเทียบกับสมมติฐานว่าง (วิธีของรอนฟิชเชอร์ฉันคิดว่าอย่างไร ) แทนที่จะเป็นในข้อตกลงแบบแบ่งขั้วที่สูงกว่าหรือต่ำกว่าเกณฑ์α = .05สำหรับความน่าจะเป็นที่ยอมรับได้ของข้อผิดพลาดในการเลือกว่าจะปฏิเสธโมฆะขายส่ง " p -hacking " เป็นปัญหาที่ทราบกันดีว่าบางส่วนมีความประพฤติไม่ดีต่อช่องโหว่ที่ไม่จำเป็นซึ่งเกิดขึ้นจากการตีความppF=.04pt=.06α=.05ppค่าตามการปฏิบัติทั่วไปของการแบ่งขั้วแบบมีนัยสำคัญในการเทียบเท่าของ "ดีพอ" และ "ไม่ดีพอ" หากมีใครต้องการจัดการฝึกหัดและมุ่งเน้นไปที่การตีความค่าเป็นความแข็งแกร่งของหลักฐานต่อโมฆะในช่วงเวลาต่อเนื่องการทดสอบรถโดยสารอาจจะมีความสำคัญน้อยกว่าเมื่อมีใครสนใจการเปรียบเทียบหลายคู่จริงหรือไม่ ไม่จำเป็นอย่างไร้ประโยชน์เช่นเดียวกับการปรับปรุงประสิทธิภาพความถูกต้องทางสถิติที่เป็นที่ต้องการแน่นอน แต่ ... ถ้าเช่นค่าpของการเปรียบเทียบแบบคู่ต่ำสุดนั้นจำเป็นต้องอยู่ภายใน0.10ของ ANOVA (หรือการทดสอบรถโดยสารอื่น ๆ ) ppp.10pคุณค่าสิ่งนี้ไม่ได้ทำให้การทดสอบรถโดยสารค่อนข้างยุ่งยากเล็กน้อยบังคับน้อยลงและทำให้เข้าใจผิดมากขึ้น (ร่วมกับการเข้าใจผิดที่มีมาก่อน) โดยเฉพาะอย่างยิ่งหากใครไม่ต้องการควบคุมในการทดสอบหลายครั้งโดยเฉพาะ?α

ในทางกลับกันหากข้อมูลอาจมีอยู่เช่นรถโดยสารแต่ทั้งหมดเป็นคู่p > 0.50สิ่งนี้ไม่ควรกระตุ้นการทดสอบรถโดยสารและความคมชัดตลอดการฝึกซ้อมและการสอน? สำหรับฉันแล้วดูเหมือนว่าปัญหานี้ควรแจ้งให้ทราบถึงข้อดีของการตัดสินนัยสำคัญทางสถิติตามการแบ่งขั้วกับความต่อเนื่องซึ่งระบบการตีความแบบแยกขั้วควรจะมีความอ่อนไหวต่อการปรับเปลี่ยนเล็กน้อยเมื่อความแตกต่างเป็น "นัยสำคัญเล็กน้อย" ปลอดภัยจากความล้มเหลวในการทำการทดสอบรถโดยสารหรือปรับเพื่อการเปรียบเทียบหลายครั้งหากความแตกต่าง / การปรับนี้อาจมีขนาดใหญ่มาก (เช่นp t - p F >p=.05p>.50ในทางทฤษฎีptpF>.40)

ความซับซ้อนที่ไม่จำเป็นอื่น ๆ เพื่อพิจารณาหรือเพิกเฉยสิ่งที่ทำให้การตอบง่ายขึ้นและคุ้มค่ามากขึ้น :

  • วิธีสูง s สำหรับเสื้อ s อาจจะถ้าF , P < 0.05แทน (เช่นP = .01 , .001 , ... )ptFp<.05p=.01,.001,
  • ความไวต่อจำนวนของระดับใน polytomous IV
  • ความไวต่อความไม่สม่ำเสมอในความสำคัญของความแตกต่างของจำนวนคู่ (ในขณะที่ )pt>pF
    • คำตอบของ whuberบ่งชี้ว่าการรวมความแตกต่างเล็กน้อยสามารถปกปิดความแตกต่างใหญ่ได้
  • ความแตกต่างระหว่างการแก้ไขแบบทดสอบของรถโดยสารสำหรับการเปรียบเทียบหลายแบบ
  • กรณีที่ถูก จำกัด ซึ่งข้อมูลตรงตามสมมติฐานทั้งหมดของการทดสอบแบบพารามิเตอร์แบบคลาสสิกอย่างเหมาะสมที่สุด
    • ข้อ จำกัด นี้อาจมีความสำคัญเพื่อป้องกันไม่ให้คำถามนี้เป็นที่สงสัย

1
คุณอาจต้องการชี้แจงว่าการทดสอบ pairwise t ควรใช้การประมาณค่าความแปรปรวนข้อผิดพลาดเช่นเดียวกับ Omnibus F-test (ในตัวอย่างของ Glen หรือไม่)
Scortchi - Reinstate Monica

1
ฉันหมาย t-test สามัญสำหรับความแตกต่างในวิธีการใช้แต่มีσคำนวณเป็นรากที่สองของความคลาดเคลื่อน ANOVAR มันเป็น t-test แบบ post-hoc pairwise ตามปกติและไม่ได้ปรับการเปรียบเทียบหลายครั้งซึ่งต่างจาก HSD ของ Tukey มันรวมข้อมูลจากทุกกลุ่ม แต่ไม่ขึ้นอยู่กับความแตกต่างในวิธีการของกลุ่ม t=(y¯1y¯2)/(σ^1n1+1n2)σ^
Scortchi - Reinstate Monica

1
ฉันเห็น (เรียงลำดับ)! ฉันสนใจที่จะติดตามตัวอย่างของ @ Glen_b เป็นหลักและไม่ได้ใช้แต่ใช้สูตรแรกที่คุณพูดถึงเพื่อหลีกเลี่ยงการรวมข้อมูลจากทุกกลุ่ม ไม่ได้หมายความว่าฉันมีความพึงพอใจที่นี่ ... แต่ส่วนหนึ่งของความตั้งใจดั้งเดิมของฉันคือการนำเสนอชุดรูปแบบทั่วไปของคำถามเหล่านี้: "อะไรคืออันตรายที่แท้จริงในการเพิกเฉยต่อข้อมูลนอกเหนือจากสองกลุ่มที่มีปัญหา การทดสอบสองตัวอย่างในหลาย ๆ ฉันเดาว่าธีมนี้ควรค่าแก่การดำเนินการในการตัดสินใจครั้งนี้เช่นกัน MSE
Nick Stauner

1
@Scortchi ฉันได้รวมตัวอย่างที่คำถามอื่นซึ่งครอบคลุมความคิดเห็นแรกของคุณ (เช่นที่การทดสอบจะทำโดยใช้ความแปรปรวนข้อผิดพลาดทั่วไปและ df) แม้ว่าการทดสอบทั้งหมด (F และการเปรียบเทียบหลายรายการ) จะทำในระดับที่ค่อนข้างต่ำ (0.0025 ไม่ใช่ 0.05) เมื่อเปรียบเทียบกับการทดสอบสองตัวอย่างทั่วไปของ Nick S. ที่นี่มันแสดงให้เห็นว่ามีความแตกต่างอย่างมีนัยสำคัญในความเป็นไปได้ (ในกรณีนี้สำหรับการทดสอบแบบปกติทั้งหมด แต่p F < 0.002 ) ฉันเชื่อว่ามีหลายกลุ่มเป็นไปได้ที่จะไปไกลกว่านี้ pt>.05pF<0.002
Glen_b -Reinstate Monica

1
ผมร่างคำตอบส่วนแรกของคำถามนี้ไม่กี่นาทีที่ผ่านมาในความคิดเห็นที่stats.stackexchange.com/questions/83030/...
whuber

คำตอบ:


8

สมมติว่าเท่ากับ s [ แต่ดูหมายเหตุที่ 2 ด้านล่าง] สำหรับแต่ละการรักษาในรูปแบบทางเดียวและที่ SD pooled จากทุกกลุ่มที่มีการใช้ในเสื้อทดสอบ (เท่าที่จะทำในการโพสต์เปรียบเทียบเฉพาะกิจปกติ) ที่เป็นไปได้สูงสุดค่าpสำหรับการทดสอบtคือ2 Φ ( - ntpt(ที่นี่ΦหมายถึงN(0,1)cdf) ดังนั้นไม่มีพีทีสามารถจะสูงถึง0.5 ที่น่าสนใจ (และค่อนข้างพิกล) ที่0.1573ผูกพันถือไม่เพียง แต่สำหรับพีF=05แต่สำหรับระดับนัยสำคัญใด ๆ ที่เราต้องการสำหรับF2Φ(2).1573ΦN(0,1)pt0.5.1573pF=.05F

maxi,j|y¯iy¯j|=2aFy¯iF2a

ดังนั้นโดยไม่สูญเสียความคิดโดยทั่วไปสมมติว่าดังนั้นในกรณีขอบเขตนี้ และอีกครั้งโดยไม่สูญเสียความคิดทั่วไปสมมติว่าเนื่องจากเราสามารถขายข้อมูลเป็นค่านี้ได้ตลอดเวลา ตอนนี้ให้พิจารณาความหมาย (ซึ่งคือความเรียบง่าย [แต่ดูหมายเหตุ 1 ด้านล่าง]) เรามี{K-1} การตั้งค่าเพื่อให้เราได้รับkn}} เมื่อทั้งหมดเป็น (และยังคงเป็น ) แต่ละค่าจะไม่ใช่ศูนย์y¯.=0y¯i=±aMSE=1kkF=ny¯2/(k1)MSE=kna2k1pF=αF=Fα=Fα,k1,k(n1)a=(k1)Fαkny¯i±aMSE=1tสถิติจึง{k}} นี้เป็นที่เล็กที่สุดสูงสุดคุ้มค่าที่สุดเมื่อFt=2a12/n=2(k1)FαktF=Fα

ดังนั้นคุณก็สามารถลองกรณีที่แตกต่างกันของและคำนวณและที่เกี่ยวข้องp_tแต่สังเกตว่าสำหรับ ,นั้นลดลงใน [แต่ดูหมายเหตุ 3 ด้านล่าง]; ยิ่งไปกว่านั้นเมื่อ , ; ดังนั้นK} โปรดทราบว่ามีความหมายและ SD{k-1}} ดังนั้นโดยไม่คำนึงถึงkntptkFαnn(k1)Fα,k1,k(n1)χα,k12ttmin=2χα,k12/kχ2/k=k1kχ2/(k1)k1kk1k2k1limktmin=2αและผลลัพธ์ที่ฉันระบุไว้ในย่อหน้าแรกข้างต้นนั้นได้มาจากค่าปกติเชิงเส้นกำกับ

แม้ว่าจะใช้เวลานานกว่าจะถึงขีด จำกัด นั้น นี่คือผลลัพธ์ (คำนวณโดยใช้R) สำหรับค่าต่างๆของโดยใช้ :kα=.05

k       t_min    max p_t   [ Really I mean min(max|t|) and max(min p_t)) ]
2       1.960     .0500
4       1.977     .0481   <--  note < .05 !
10      1.840     .0658
100     1.570     .1164
1000    1.465     .1428
10000   1.431     .1526

ปลายหลวมไม่กี่ ...

  1. เมื่อ k เป็นเลขคี่:สถิติสูงสุดยังคงเกิดขึ้นเมื่อทั้งหมด ; แต่เราจะมีอีกหนึ่งที่ปลายด้านหนึ่งของช่วงกว่าที่อื่น ๆ ที่ทำให้ค่าเฉลี่ยและคุณสามารถแสดงให้เห็นว่าปัจจัยในสถิติจะถูกแทนที่ด้วย1k นอกจากนี้ยังมาแทนที่ส่วนของทำให้มันใหญ่ขึ้นเล็กน้อยและด้วยเหตุนี้ลดลงp_tFy¯i±a±a/kkFk1ktpt
  2. ไม่เท่ากัน s:nสูงสุดยังคงประสบความสำเร็จกับกับสัญญาณได้จัดเพื่อความสมดุลของขนาดตัวอย่างเกือบเท่าที่เป็นไปได้ จากนั้นสถิติสำหรับขนาดตัวอย่างทั้งหมดเดียวกันจะเท่ากันหรือเล็กกว่าสำหรับข้อมูลที่สมดุล นอกจากนี้สูงสุดสถิติจะมีขนาดใหญ่เพราะมันจะเป็นหนึ่งเดียวกับที่ใหญ่ที่สุดn_iดังนั้นเราไม่สามารถรับค่าใหญ่ขึ้นได้โดยการดูกรณีที่ไม่สมดุลFy¯i=±aFN=nitnipt
  3. การแก้ไขเล็กน้อย:ฉันมุ่งเน้นไปที่การพยายามหาค่าต่ำสุดที่ฉันมองข้ามความจริงที่ว่าเราพยายามที่จะเพิ่มให้มากที่สุดและเป็นที่ชัดเจนน้อยกว่าว่าใหญ่กว่าที่มี df น้อยลงจะไม่สำคัญน้อยกว่าตัวเล็ก ด้วย df เพิ่มเติม อย่างไรก็ตามฉันตรวจสอบว่าเป็นกรณีนี้โดยการคำนวณค่าสำหรับจนกระทั่ง df สูงพอที่จะสร้างความแตกต่างเล็กน้อย สำหรับกรณีที่ผมไม่ได้เห็นกรณีใด ๆ ที่ค่าไม่ได้เพิ่มขึ้นด้วยnโปรดทราบว่าดังนั้น df ที่เป็นไปได้คือซึ่งมีขนาดใหญ่เร็วเมื่อp t t n = 2 , 3 , 4 , α = .05 , k 3 p t n d f = k ( n - 1 ) k , 2 k , 3 k , k α = .25 .1573 k = 3 , n = 2tpttn=2,3,4,α=.05,k3ptndf=k(n1)k,2k,3k,kมีขนาดใหญ่ ดังนั้นฉันยังอยู่บนพื้นที่ปลอดภัยโดยมีการอ้างสิทธิ์ข้างต้น ฉันยังผ่านการทดสอบและกรณีเดียวที่ฉันสังเกตที่เกณฑ์เกินเป็น 2α=.25.1573k=3,n=2
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.