คุณถูก. ปัญหาของการเปรียบเทียบหลายที่มีอยู่ทุกที่ แต่เนื่องจากวิธีที่มันสอนปกติคนเท่านั้นที่คิดว่ามันเกี่ยวข้องกับการเปรียบเทียบหลายกลุ่มกับแต่ละอื่น ๆ ผ่านทางทั้งกลุ่ม -tests ในความเป็นจริงมีตัวอย่างมากมายที่มีปัญหาการเปรียบเทียบหลายอย่าง แต่ในที่ที่มันดูไม่เหมือนการเปรียบเทียบแบบคู่จำนวนมาก ตัวอย่างเช่นหากคุณมีตัวแปรต่อเนื่องจำนวนมากและคุณสงสัยว่ามีความสัมพันธ์กันหรือไม่คุณจะมีปัญหาในการเปรียบเทียบหลายรายการ (ดูที่นี่: ดูแล้วคุณจะพบความสัมพันธ์ ) เสื้อ
อีกตัวอย่างหนึ่งคือสิ่งที่คุณยกระดับ หากคุณต้องใช้การถดถอยหลายครั้งพร้อมตัวแปร 20 ตัวและคุณใช้เป็นเกณฑ์ของคุณคุณจะคาดหวังว่าหนึ่งในตัวแปรของคุณจะ 'สำคัญ' โดยบังเอิญเพียงอย่างเดียวแม้ว่าโมฆะทั้งหมดจะเป็นจริงก็ตาม ปัญหาของการเปรียบเทียบหลายอย่างนั้นมาจากคณิตศาสตร์ของการวิเคราะห์จำนวนมาก ถ้าสมมุติฐานว่างทั้งหมดเป็นจริงและตัวแปรไม่ถูกแยกออกจากกันอย่างสมบูรณ์ความน่าจะเป็นที่จะไม่ปฏิเสธความจริงใด ๆจะเป็น (เช่นกับนี่คือ ) α = .051 - ( 1 - α ) p p = 5 .231 - ( 1 - α )พีp = 50.23
กลยุทธ์แรกในการลดสิ่งนี้คือทำการทดสอบโมเดลของคุณพร้อมกัน หากคุณกำลังกระชับถดถอย OLS, ซอฟแวร์ส่วนใหญ่จะให้คุณทั่วโลก -test เป็นส่วนหนึ่งที่เริ่มต้นของการส่งออกของคุณ หากคุณใช้โมเดลเชิงเส้นทั่วไปซอฟต์แวร์ส่วนใหญ่จะให้การทดสอบอัตราส่วนความน่าจะเป็นแบบโกลบอลกับคุณ การทดสอบนี้จะช่วยให้คุณป้องกันอัตราเงินเฟ้อผิดพลาดประเภทที่ 1 เนื่องจากปัญหาการเปรียบเทียบหลายอย่าง (เปรียบเทียบคำตอบของฉันที่นี่: ความสำคัญของสัมประสิทธิ์ในการถดถอยเชิงเส้น: t-test ที่สำคัญเทียบกับสถิติ F ที่ไม่มีนัยสำคัญ ) กรณีที่คล้ายกันคือเมื่อคุณมีตัวแปรเด็ดขาดที่แสดงด้วยรหัสจำลองหลายตัว คุณจะไม่ต้องการที่จะตีความผู้Fเสื้อt- ทดสอบ แต่จะวางรหัสจำลองทั้งหมดและทำการทดสอบแบบจำลองซ้อนกันแทน
อีกกลยุทธ์ที่เป็นไปได้คือการใช้ขั้นตอนการปรับค่าอัลฟาเช่นการแก้ไข Bonferroni คุณควรตระหนักว่าการทำเช่นนี้จะช่วยลดพลังงานของคุณและลดอัตราความผิดพลาดประเภทที่ครอบครัวของคุณ ไม่ว่าการแลกเปลี่ยนนี้จะคุ้มค่าหรือไม่ก็เป็นการตัดสินที่จะให้คุณตัดสินใจ (FWIW โดยทั่วไปฉันไม่ได้ใช้การแก้ไขอัลฟาในการถดถอยหลายครั้ง)
เกี่ยวกับปัญหาการใช้ค่าเพื่อทำการเลือกแบบจำลองฉันคิดว่านี่เป็นความคิดที่ไม่ดีจริงๆ ฉันจะไม่ย้ายจากโมเดลที่มี 5 ตัวแปรไปเป็นหนึ่งเดียวที่มีเพียง 2 คนเท่านั้นเพราะคนอื่น ๆ นั้นไม่สำคัญเลย เมื่อผู้คนทำสิ่งนี้พวกเขามีอคติในแบบของพวกเขา มันอาจช่วยให้คุณอ่านคำตอบของฉันที่นี่: อัลกอริทึมสำหรับการเลือกรุ่นอัตโนมัติเพื่อทำความเข้าใจกับสิ่งที่ดีกว่านี้ p
เกี่ยวกับการอัปเดตของคุณฉันจะไม่แนะนำให้คุณประเมินความสัมพันธ์ที่ไม่แปรตามกันก่อนเพื่อตัดสินใจว่าจะใช้ตัวแปรใดในรูปแบบการถดถอยหลายครั้งสุดท้าย การทำเช่นนี้จะนำไปสู่ปัญหาที่เกิดกับ endogeneity ยกเว้นว่าตัวแปรไม่ได้มีความสัมพันธ์กันอย่างสมบูรณ์ ผมพูดเรื่องนี้ในคำตอบของฉันที่นี่: ประมาณแทนb1x1+b2x2b1x1+b2x2+b3x3 b_1x_1
สำหรับคำถามเกี่ยวกับวิธีการจัดการการวิเคราะห์ที่มีตัวแปรตามที่แตกต่างกันไม่ว่าคุณต้องการใช้การปรับเปลี่ยนบางประเภทนั้นขึ้นอยู่กับว่าคุณเห็นการวิเคราะห์ที่สัมพันธ์กันหรือไม่ แนวคิดดั้งเดิมคือการพิจารณาว่าพวกเขาได้รับการพิจารณาอย่างมีความหมายว่าเป็น 'ครอบครัว' หรือไม่ สิ่งนี้จะกล่าวถึงที่นี่: อะไรคือคำจำกัดความที่ชัดเจนและเป็นประโยชน์สำหรับ "ตระกูลของสมมติฐาน" คุณอาจต้องการอ่านหัวข้อนี้: วิธีการทำนายตัวแปรตามจำนวนมาก