อินโทร:หลังจากที่สังเกตเห็นความสนใจที่ได้รับในวันนี้จากคำถามนี้ " ANOVA จะมีความสำคัญหรือไม่หากไม่มีการทดสอบแบบ pairwise t? " ฉันคิดว่าฉันอาจสามารถ reframe ในวิธีที่น่าสนใจซึ่งสมควรได้รับคำตอบของตัวเอง .
ความหลากหลายของผลไม่ลงรอยกัน (มูลค่าที่ตรา) สามารถเกิดขึ้นเมื่อนัยสำคัญทางสถิติเป็นที่เข้าใจกันว่าเป็นขั้วที่เรียบง่ายและตัดสินบนพื้นฐานเพียงของซึ่งเป็นสูงกว่าหรือα@ Glen_b คำตอบสำหรับคำถามข้างต้นแสดงตัวอย่างที่มีประโยชน์ของกรณีที่:
- ANOVA ทดสอบสร้างสำหรับหนึ่งตัวแปรอิสระ (IV) กับสี่ระดับ แต่
- สำหรับทุกสองตัวอย่าง -tests ที่เปรียบเทียบความแตกต่างในตัวแปรเดียวกัน (DV) ในหมู่สังเกตสอดคล้องกับคู่ของ IV สี่แต่ละระดับ
กรณีที่คล้ายกันเกิดขึ้นแม้จะมีการแก้ไข Bonferroni สำหรับการเปรียบเทียบแบบคู่หลังด้วยคำถามนี้: การวัดซ้ำของ Anova มีความสำคัญ แต่การเปรียบเทียบหลาย ๆ ครั้งกับการแก้ไข Bonferroni ไม่ได้เป็นเช่นนั้นหรือ? กรณีที่กล่าวถึงก่อนหน้านี้ที่มีการทดสอบแตกต่างกันเล็กน้อยในการถดถอยหลายครั้งก็มีอยู่:
- ทำไมจึงเป็นไปได้ที่จะได้รับสถิติ F อย่างมีนัยสำคัญ (p <.001) แต่การทดสอบ t regressor ไม่สำคัญ? :
- การถดถอยจะมีความสำคัญได้อย่างไร แต่ผู้ทำนายทั้งหมดจะไม่สำคัญ?
- ในคำตอบของ @ whuber ,
ฉันเดิมพันว่าในกรณีเช่นนี้บาง ( แต่ไม่ใช่ทั้งหมด) เปรียบเทียบคู่ (หรือค่าสัมประสิทธิ์การถดถอยการทดสอบอย่างมีนัยสำคัญ) ค่าต้องค่อนข้างใกล้เคียงกับαถ้าการทดสอบรถโดยสารที่สอดคล้องกันสามารถบรรลุP < α ฉันเห็นว่านี่เป็นตัวอย่างในตัวอย่างแรกของ @ Glen_b โดยที่ , p F = .046และความแตกต่างของจำนวนคู่ที่ใหญ่ที่สุดจะทำให้p t = .054น้อยที่สุด โดยทั่วไปจะต้องเป็นกรณีนี้หรือไม่ เพิ่มเติมโดยเฉพาะ :
คำถาม:ถ้าการทดสอบ ANOVA สร้างp F = .05สำหรับผลกระทบของ polytomous IV หนึ่งต่อ DV ที่ต่อเนื่องค่าpต่ำสุดที่สูงที่สุดจะเป็นเท่าใดในการทดสอบt -test สองตัวอย่างที่เปรียบเทียบแต่ละคู่ของระดับ IV ค่านัยสำคัญต่ำสุดของจำนวนคู่ที่สำคัญอาจสูงถึงp t = .50หรือไม่
ฉันยินดีต้อนรับคำตอบที่อยู่เฉพาะคำถามนี้เท่านั้น อย่างไรก็ตามเพื่อกระตุ้นคำถามนี้ต่อไปฉันจะอธิบายอย่างละเอียดและโยนคำถามเชิงโวหารที่อาจเกิดขึ้น รู้สึกยินดีที่จะตอบข้อกังวลเหล่านี้เช่นกันและแม้กระทั่งไม่สนใจคำถามเฉพาะหากคุณต้องการโดยเฉพาะอย่างยิ่งหากคำถามเฉพาะนั้นได้รับคำตอบที่ชัดเจน
ความสำคัญ:พิจารณาว่าความแตกต่างระหว่างและp t = 0.06มีความสำคัญน้อยเพียงใดหากความสำคัญทางสถิติได้รับการตัดสินในแง่ความต่อเนื่องของความแข็งแกร่งของหลักฐานเทียบกับสมมติฐานว่าง (วิธีของรอนฟิชเชอร์ฉันคิดว่าอย่างไร ) แทนที่จะเป็นในข้อตกลงแบบแบ่งขั้วที่สูงกว่าหรือต่ำกว่าเกณฑ์α = .05สำหรับความน่าจะเป็นที่ยอมรับได้ของข้อผิดพลาดในการเลือกว่าจะปฏิเสธโมฆะขายส่ง " p -hacking " เป็นปัญหาที่ทราบกันดีว่าบางส่วนมีความประพฤติไม่ดีต่อช่องโหว่ที่ไม่จำเป็นซึ่งเกิดขึ้นจากการตีความpค่าตามการปฏิบัติทั่วไปของการแบ่งขั้วแบบมีนัยสำคัญในการเทียบเท่าของ "ดีพอ" และ "ไม่ดีพอ" หากมีใครต้องการจัดการฝึกหัดและมุ่งเน้นไปที่การตีความค่าเป็นความแข็งแกร่งของหลักฐานต่อโมฆะในช่วงเวลาต่อเนื่องการทดสอบรถโดยสารอาจจะมีความสำคัญน้อยกว่าเมื่อมีใครสนใจการเปรียบเทียบหลายคู่จริงหรือไม่ ไม่จำเป็นอย่างไร้ประโยชน์เช่นเดียวกับการปรับปรุงประสิทธิภาพความถูกต้องทางสถิติที่เป็นที่ต้องการแน่นอน แต่ ... ถ้าเช่นค่าpของการเปรียบเทียบแบบคู่ต่ำสุดนั้นจำเป็นต้องอยู่ภายใน0.10ของ ANOVA (หรือการทดสอบรถโดยสารอื่น ๆ ) pคุณค่าสิ่งนี้ไม่ได้ทำให้การทดสอบรถโดยสารค่อนข้างยุ่งยากเล็กน้อยบังคับน้อยลงและทำให้เข้าใจผิดมากขึ้น (ร่วมกับการเข้าใจผิดที่มีมาก่อน) โดยเฉพาะอย่างยิ่งหากใครไม่ต้องการควบคุมในการทดสอบหลายครั้งโดยเฉพาะ?
ในทางกลับกันหากข้อมูลอาจมีอยู่เช่นรถโดยสารแต่ทั้งหมดเป็นคู่p > 0.50สิ่งนี้ไม่ควรกระตุ้นการทดสอบรถโดยสารและความคมชัดตลอดการฝึกซ้อมและการสอน? สำหรับฉันแล้วดูเหมือนว่าปัญหานี้ควรแจ้งให้ทราบถึงข้อดีของการตัดสินนัยสำคัญทางสถิติตามการแบ่งขั้วกับความต่อเนื่องซึ่งระบบการตีความแบบแยกขั้วควรจะมีความอ่อนไหวต่อการปรับเปลี่ยนเล็กน้อยเมื่อความแตกต่างเป็น "นัยสำคัญเล็กน้อย" ปลอดภัยจากความล้มเหลวในการทำการทดสอบรถโดยสารหรือปรับเพื่อการเปรียบเทียบหลายครั้งหากความแตกต่าง / การปรับนี้อาจมีขนาดใหญ่มาก (เช่นp t - p F >ในทางทฤษฎี
ความซับซ้อนที่ไม่จำเป็นอื่น ๆ เพื่อพิจารณาหรือเพิกเฉยสิ่งที่ทำให้การตอบง่ายขึ้นและคุ้มค่ามากขึ้น :
- วิธีสูง s สำหรับเสื้อ s อาจจะถ้าF , P < 0.05แทน (เช่นP = .01 , .001 , ... )
- ความไวต่อจำนวนของระดับใน polytomous IV
- ความไวต่อความไม่สม่ำเสมอในความสำคัญของความแตกต่างของจำนวนคู่ (ในขณะที่ )
- คำตอบของ whuberบ่งชี้ว่าการรวมความแตกต่างเล็กน้อยสามารถปกปิดความแตกต่างใหญ่ได้
- ความแตกต่างระหว่างการแก้ไขแบบทดสอบของรถโดยสารสำหรับการเปรียบเทียบหลายแบบ
- ดูเพิ่มเติมที่: การแก้ไขการเปรียบเทียบหลาย ๆ แบบในแบบภายใน / วัดซ้ำ ANOVA; อนุรักษ์นิยมมากเกินไป?
- ด้วยหลาย IVs ดูเหมือนว่าmulticollinearity สามารถทำให้ปัญหานี้รุนแรงขึ้นได้
- กรณีที่ถูก จำกัด ซึ่งข้อมูลตรงตามสมมติฐานทั้งหมดของการทดสอบแบบพารามิเตอร์แบบคลาสสิกอย่างเหมาะสมที่สุด
- ข้อ จำกัด นี้อาจมีความสำคัญเพื่อป้องกันไม่ให้คำถามนี้เป็นที่สงสัย