การถดถอยหลายครั้งและการเปรียบเทียบหลายรายการ


10

ว่าฉันพอดีกับการถดถอยหลายตัวแปร p อธิบาย การทดสอบ t จะช่วยให้ฉันตรวจสอบว่าหนึ่งในนั้นมีความสำคัญ ( ) ฉันสามารถทำการทดสอบ F บางส่วนเพื่อตรวจสอบว่าเซตย่อยบางชุดมีความสำคัญหรือไม่ ( )H 0 : β ฉัน = β J = . . = β k = 0H0:βi=0H0:βi=βj=...=βk=0

สิ่งที่ฉันมักจะเห็นก็คือบางคนได้รับ 5 p-values ​​จาก 5 t-tests (สมมติว่าพวกเขามี covariates 5 ครั้ง) และเก็บค่า p-value <0.05 เท่านั้น ดูเหมือนว่าไม่ถูกต้องเนื่องจากควรมีการตรวจสอบเปรียบเทียบหลายรายการใช่หรือไม่ เป็นเรื่องจริงหรือไม่ที่จะพูดว่าและนั้นมีความหมาย แต่ ,และไม่ใช่β 2 β 3 β 4 β 5β1β2β3β4β5

ในบันทึกที่เกี่ยวข้องบอกว่าฉันรัน 2 regressions ใน 2 โมเดลแยกกัน (ผลลัพธ์ที่ต่างกัน) จำเป็นต้องมีการตรวจสอบเปรียบเทียบหลายรายการสำหรับพารามิเตอร์ที่สำคัญระหว่างผลลัพธ์ทั้งสองหรือไม่

แก้ไข: เพื่อแยกความแตกต่างจากคำถามที่คล้ายกันมีการตีความอื่น ๆ กับค่า p นอกเหนือจาก: "B_i มีความหมาย (ใน) ที่สำคัญเมื่อปรับสำหรับ covariates อื่น ๆ ทั้งหมด"? ดูเหมือนว่าการตีความนี้จะช่วยให้ฉันดู B_i ทุกคนและวางที่น้อยกว่า 0.5 (ซึ่งคล้ายกับโพสต์อื่น)

สำหรับฉันแล้วดูเหมือนว่าวิธีการดับเพลิงที่แน่นอนเพื่อทดสอบว่า B_i และ Y มีความสัมพันธ์จะได้รับค่า p-value สัมประสิทธิ์สำหรับแต่ละ covariate แล้วทำการ multcomp (แม้ว่าจะสูญเสียสัญญาณแน่นอน)

สุดท้ายบอกว่าฉันคำนวณความสัมพันธ์ระหว่าง B1 / Y1, B2 / Y1 และ B3 / Y1 (ดังนั้นสามค่า p) ไม่เกี่ยวข้องฉันยังมีความสัมพันธ์ระหว่าง T1 / Y2, T2 / Y2, T3 / Y2 ฉันสมมติว่าการปรับ Bonferroni ที่ถูกต้องจะเป็น 6 สำหรับการทดสอบทั้งหมด 6 ครั้งด้วยกัน (แทนที่จะเป็น 3 สำหรับกลุ่มแรกและ 3 สำหรับกลุ่มที่สอง - และทำให้ได้รับ 2-semi--p ปรับค่า p)


1
นี่ดูเหมือนซ้ำ (คำถามนี้) [ stats.stackexchange.com/questions/3200/…ถ้าไม่ใช่โปรดบอกว่าทำไมไม่ใช่
Peter Flom

สวัสดีมันคล้ายกัน แต่ไม่เหมือนกันทุกประการ บางทีคำถามที่ดีกว่าคือเมื่อได้รับรายการ p-values ​​อาจเป็นการตีความเพียงอย่างเดียวที่เป็นไปได้ดังต่อไปนี้: "การควบคุมพารามิเตอร์อื่นทั้งหมดตัวแปรนี้อยู่ใน / นัยสำคัญ" คุณจะมองพวกเขาอย่างไร
user1357015

หากคุณต้องการแก้ไขคำถามของคุณก็ไม่เป็นไร แต่น่าจะดีกว่าที่จะทำในคำถามเพื่อให้ผู้คนเห็นเป็นครั้งแรก แต่ฉันไม่ได้ฟ้องว่า "คุณจะคิดอย่างไรกับพวกเขาทั้งหมด" หมายความว่าอย่างไร
Peter Flom

คำตอบ:


10

คุณถูก. ปัญหาของการเปรียบเทียบหลายที่มีอยู่ทุกที่ แต่เนื่องจากวิธีที่มันสอนปกติคนเท่านั้นที่คิดว่ามันเกี่ยวข้องกับการเปรียบเทียบหลายกลุ่มกับแต่ละอื่น ๆ ผ่านทางทั้งกลุ่ม -tests ในความเป็นจริงมีตัวอย่างมากมายที่มีปัญหาการเปรียบเทียบหลายอย่าง แต่ในที่ที่มันดูไม่เหมือนการเปรียบเทียบแบบคู่จำนวนมาก ตัวอย่างเช่นหากคุณมีตัวแปรต่อเนื่องจำนวนมากและคุณสงสัยว่ามีความสัมพันธ์กันหรือไม่คุณจะมีปัญหาในการเปรียบเทียบหลายรายการ (ดูที่นี่: ดูแล้วคุณจะพบความสัมพันธ์ ) t

อีกตัวอย่างหนึ่งคือสิ่งที่คุณยกระดับ หากคุณต้องใช้การถดถอยหลายครั้งพร้อมตัวแปร 20 ตัวและคุณใช้เป็นเกณฑ์ของคุณคุณจะคาดหวังว่าหนึ่งในตัวแปรของคุณจะ 'สำคัญ' โดยบังเอิญเพียงอย่างเดียวแม้ว่าโมฆะทั้งหมดจะเป็นจริงก็ตาม ปัญหาของการเปรียบเทียบหลายอย่างนั้นมาจากคณิตศาสตร์ของการวิเคราะห์จำนวนมาก ถ้าสมมุติฐานว่างทั้งหมดเป็นจริงและตัวแปรไม่ถูกแยกออกจากกันอย่างสมบูรณ์ความน่าจะเป็นที่จะไม่ปฏิเสธความจริงใด ๆจะเป็น (เช่นกับนี่คือ ) α=.051 - ( 1 - α ) p p = 5 .231(1α)pp=5.23

กลยุทธ์แรกในการลดสิ่งนี้คือทำการทดสอบโมเดลของคุณพร้อมกัน หากคุณกำลังกระชับถดถอย OLS, ซอฟแวร์ส่วนใหญ่จะให้คุณทั่วโลก -test เป็นส่วนหนึ่งที่เริ่มต้นของการส่งออกของคุณ หากคุณใช้โมเดลเชิงเส้นทั่วไปซอฟต์แวร์ส่วนใหญ่จะให้การทดสอบอัตราส่วนความน่าจะเป็นแบบโกลบอลกับคุณ การทดสอบนี้จะช่วยให้คุณป้องกันอัตราเงินเฟ้อผิดพลาดประเภทที่ 1 เนื่องจากปัญหาการเปรียบเทียบหลายอย่าง (เปรียบเทียบคำตอบของฉันที่นี่: ความสำคัญของสัมประสิทธิ์ในการถดถอยเชิงเส้น: t-test ที่สำคัญเทียบกับสถิติ F ที่ไม่มีนัยสำคัญ ) กรณีที่คล้ายกันคือเมื่อคุณมีตัวแปรเด็ดขาดที่แสดงด้วยรหัสจำลองหลายตัว คุณจะไม่ต้องการที่จะตีความผู้Fเสื้อt- ทดสอบ แต่จะวางรหัสจำลองทั้งหมดและทำการทดสอบแบบจำลองซ้อนกันแทน

อีกกลยุทธ์ที่เป็นไปได้คือการใช้ขั้นตอนการปรับค่าอัลฟาเช่นการแก้ไข Bonferroni คุณควรตระหนักว่าการทำเช่นนี้จะช่วยลดพลังงานของคุณและลดอัตราความผิดพลาดประเภทที่ครอบครัวของคุณ ไม่ว่าการแลกเปลี่ยนนี้จะคุ้มค่าหรือไม่ก็เป็นการตัดสินที่จะให้คุณตัดสินใจ (FWIW โดยทั่วไปฉันไม่ได้ใช้การแก้ไขอัลฟาในการถดถอยหลายครั้ง)

เกี่ยวกับปัญหาการใช้ค่าเพื่อทำการเลือกแบบจำลองฉันคิดว่านี่เป็นความคิดที่ไม่ดีจริงๆ ฉันจะไม่ย้ายจากโมเดลที่มี 5 ตัวแปรไปเป็นหนึ่งเดียวที่มีเพียง 2 คนเท่านั้นเพราะคนอื่น ๆ นั้นไม่สำคัญเลย เมื่อผู้คนทำสิ่งนี้พวกเขามีอคติในแบบของพวกเขา มันอาจช่วยให้คุณอ่านคำตอบของฉันที่นี่: อัลกอริทึมสำหรับการเลือกรุ่นอัตโนมัติเพื่อทำความเข้าใจกับสิ่งที่ดีกว่านี้ p

เกี่ยวกับการอัปเดตของคุณฉันจะไม่แนะนำให้คุณประเมินความสัมพันธ์ที่ไม่แปรตามกันก่อนเพื่อตัดสินใจว่าจะใช้ตัวแปรใดในรูปแบบการถดถอยหลายครั้งสุดท้าย การทำเช่นนี้จะนำไปสู่ปัญหาที่เกิดกับ endogeneity ยกเว้นว่าตัวแปรไม่ได้มีความสัมพันธ์กันอย่างสมบูรณ์ ผมพูดเรื่องนี้ในคำตอบของฉันที่นี่: ประมาณแทนb1x1+b2x2b1x1+b2x2+b3x3 b_1x_1

สำหรับคำถามเกี่ยวกับวิธีการจัดการการวิเคราะห์ที่มีตัวแปรตามที่แตกต่างกันไม่ว่าคุณต้องการใช้การปรับเปลี่ยนบางประเภทนั้นขึ้นอยู่กับว่าคุณเห็นการวิเคราะห์ที่สัมพันธ์กันหรือไม่ แนวคิดดั้งเดิมคือการพิจารณาว่าพวกเขาได้รับการพิจารณาอย่างมีความหมายว่าเป็น 'ครอบครัว' หรือไม่ สิ่งนี้จะกล่าวถึงที่นี่: อะไรคือคำจำกัดความที่ชัดเจนและเป็นประโยชน์สำหรับ "ตระกูลของสมมติฐาน" คุณอาจต้องการอ่านหัวข้อนี้: วิธีการทำนายตัวแปรตามจำนวนมาก


ขอบคุณสำหรับสิ่งนี้. มันเป็นสิ่งที่ฉันต้องการ เกี่ยวกับความคิดเห็นที่เป็นเนื้อเดียวกันของคุณ นั่นทำให้รู้สึก แต่ดูเหมือนว่าถ้าฉันทำการแก้ไข Bonferroni อนุรักษ์นิยมเกี่ยวกับค่า p ความสัมพันธ์แม้ว่าจะมี endegoneity การแก้ไข Bonferroni ควรคำนึงถึงมันได้หรือไม่
user1357015

การแก้ไข Bonferroni ไม่เกี่ยวข้องกับ endogeneity หากโควาเรียของคุณมีความสัมพันธ์กัน w / กันและกันความสัมพันธ์ XY แบบ univariate จะเป็นการประมาณความลำเอียงของความสัมพันธ์ คุณควรใส่นางแบบให้พอดีและหยุดอยู่ที่นั่น โดยทั่วไปแล้วไม่จำเป็นต้องไปที่ใด ๆ อีกต่อไป หากคุณต้องการสร้างแบบจำลองการทำนายที่แท้จริงคุณควรใช้การตรวจสอบข้ามหรือเทคนิคอื่น ๆ ที่เหมาะสมสำหรับสิ่งนั้น
gung - Reinstate Monica

0

ในระดับภาคปฏิบัติฉันคิดว่าเราต้องพิจารณาด้วยเช่นกันว่า Betas จะสะท้อนระดับของตัวแปรเด็ดขาด (เช่น Dummies) หรือไม่ ในสถานการณ์เหล่านี้มันมีเหตุผลที่จะสนใจที่จะรู้ว่า Beta ที่กำหนดนั้นแตกต่างจาก Beta ที่อ้างอิง (มีความหมาย) หรือไม่ แต่ก่อนที่จะทำการเปรียบเทียบแบบเป็นคู่เราจะต้องรู้ว่าระดับของตัวแปรเด็ดขาดโดยรวมนั้นมีความสำคัญหรือไม่ (โดยใช้การทดสอบข้อต่อ F หรือการทดสอบอัตราส่วนความน่าจะเป็น) การทำเช่นนี้มีข้อดีของการใช้ df น้อยลง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.