การปรับค่า p ในการถดถอยหลายครั้งสำหรับการเปรียบเทียบหลายรายการเป็นแนวคิดที่ดีหรือไม่


54

สมมติว่าคุณเป็นนักวิจัยสังคมศาสตร์ / เศรษฐมิติที่พยายามค้นหาตัวทำนายที่เกี่ยวข้องของความต้องการใช้บริการ คุณมี 2 ผลลัพธ์ / ตัวแปรตามที่อธิบายความต้องการ (ใช้บริการใช่ / ไม่ใช่และจำนวนครั้ง) คุณมีตัวแปรทำนาย 10 ตัว / ตัวแปรอิสระที่สามารถอธิบายความต้องการในทางทฤษฎี (เช่นอายุเพศรายได้ราคาเชื้อชาติ ฯลฯ ) การรันการถดถอยหลาย ๆ ตัวสองตัวที่แยกกันจะให้ค่าประมาณ 20 สัมประสิทธิ์และค่า p เมื่อมีตัวแปรอิสระเพียงพอในการถดถอยของคุณคุณจะพบตัวแปรอย่างน้อยหนึ่งตัวแปรที่มีความสัมพันธ์อย่างมีนัยสำคัญทางสถิติระหว่างตัวแปรที่ขึ้นอยู่กับตัวแปรอิสระ

คำถามของฉัน: เป็นความคิดที่ดีหรือไม่ที่จะแก้ไขค่า p สำหรับการทดสอบหลายครั้งถ้าฉันต้องการรวมตัวแปรอิสระทั้งหมดในการถดถอย การอ้างอิงถึงงานก่อนหน้านี้ชื่นชมมาก


อืม ... ปัญหาที่น่าสนใจ - การถดถอยแบบสองตัวแปรด้วยตัวแปรเดียว [เรียงลำดับ] อย่างต่อเนื่องและหนึ่งคู่ ทฤษฎีการถดถอย MVN ปกติบอกว่าทำการแยกการถดถอยในแต่ละการตอบสนองสองตัวแปรแบบ bivariate - และจากนั้นทำการรวมผลลัพธ์ - เป็นการวิเคราะห์ที่ถูกต้อง - ในความหมาย gauss-markov ของการลดเมทริกซ์ vc ของตัวประมาณการถดถอยแบบเป็นกลาง ในกรณี MVN ท่ามกลางผู้ประมาณที่ไม่เอนเอียงทั้งหมด] 'การถดถอยแบบแยกกัน' ยังคงเป็นวิธีที่ดีที่สุดที่ทำได้เมื่อการถดถอยหนึ่งครั้งเป็นโลจิสติก [ความเอนเอียงดูเหมือนยืดเล็กน้อยในกรณีนี้ excep
ronaf

คำตอบ:


48

ดูเหมือนว่าคำถามของคุณมักจะแก้ไขปัญหาในการระบุตัวทำนายที่ดี ในกรณีนี้คุณควรพิจารณาใช้การถดถอยแบบลงโทษบางอย่าง (วิธีการจัดการกับตัวแปรหรือการเลือกคุณสมบัตินั้นมีความเกี่ยวข้องด้วย) เช่น L1, L2 (หรือการรวมกันของมัน, การยืดหยุ่นแบบยืดหยุ่น ) ที่เรียกว่า(ดูคำถามที่เกี่ยวข้อง ไซต์นี้หรือแพคเกจR ที่ถูกลงโทษและยืดหยุ่นเน็ตและอื่น ๆ )

ตอนนี้เกี่ยวกับการแก้ไขค่า p สำหรับค่าสัมประสิทธิ์การถดถอยของคุณ (หรือเทียบเท่าค่าสัมประสิทธิ์สหสัมพันธ์บางส่วนของคุณ) เพื่อป้องกันการมองโลกในแง่ดีเกินไป (เช่นกับ Bonferroni หรือวิธีลดขั้นตอนที่ดีกว่า) ดูเหมือนว่าจะเกี่ยวข้องถ้าคุณกำลังพิจารณา แบบจำลองเดียวและค้นหาตัวทำนายเหล่านั้นที่มีส่วนสำคัญในการอธิบายความแปรปรวนนั่นคือถ้าคุณไม่ทำการเลือกแบบจำลอง (ด้วยการเลือกแบบขั้นตอนหรือการทดสอบแบบลำดับชั้น) บทความนี้อาจเป็นจุดเริ่มต้นที่ดี: การปรับ Bonferroni ในการทดสอบค่าสัมประสิทธิ์การถดถอย โปรดทราบว่าการแก้ไขดังกล่าวจะไม่ป้องกันคุณจากปัญหาความหลากหลายทางพันธุกรรมซึ่งส่งผลต่อค่า p ที่รายงาน

ได้รับข้อมูลของคุณฉันขอแนะนำให้ใช้เทคนิคการเลือกตัวแบบซ้ำ ๆ บางประเภท ใน R เช่นstepAICฟังก์ชั่นอนุญาตให้ทำการเลือกแบบจำลองแบบขั้นตอนโดย AIC ที่แน่นอน นอกจากนี้คุณยังสามารถประมาณความสำคัญสัมพัทธ์ของตัวทำนายของคุณโดยพิจารณาจากการมีส่วนร่วมของพวกเขาต่อโดยใช้ boostrap (ดูแพ็คเกจrelaimpo ) ฉันคิดว่าการวัดขนาดผลของการรายงานหรือ% ของความแปรปรวนที่อธิบายนั้นมีข้อมูลมากกว่าค่า p โดยเฉพาะในรูปแบบการยืนยันR2

ควรสังเกตว่าวิธีการแบบขั้นตอนยังมีข้อเสียของพวกเขา (เช่นการทดสอบ Wald ไม่ได้ปรับให้เข้ากับสมมติฐานตามเงื่อนไขที่เกิดจากขั้นตอนแบบขั้นตอน) หรือตามที่ระบุโดย Frank Harrell ในการส่งจดหมาย R "การเลือกตัวแปรแบบขั้นตอน ปัญหาของการเลือกตัวแปรแบบขั้นตอนตาม P-values ​​AIC เป็นเพียงการปรับปรุงของ P-Value "(แต่ AIC ยังคงมีประโยชน์หากชุดของตัวทำนายถูกกำหนดไว้แล้ว); คำถามที่เกี่ยวข้อง - ตัวแปรสำคัญในตัวแบบการถดถอยเชิงเส้นหรือไม่? - แสดงความคิดเห็นที่น่าสนใจ ( @Robและอื่น ๆ ) เกี่ยวกับการใช้ AIC สำหรับการเลือกตัวแปร ฉันผนวกท้ายเอกสารอ้างอิงสองตอนท้าย (รวมทั้งเอกสารที่@Stephanให้มาด้วย); นอกจากนี้ยังมีจำนวนมากของการอ้างอิงอื่น ๆ บนP.Mean

Frank Harrell เขียนหนังสือเกี่ยวกับกลยุทธ์การสร้างแบบจำลองการถดถอยซึ่งรวมถึงการสนทนาและคำแนะนำมากมายเกี่ยวกับปัญหานี้ (§4.3, pp. 56-60) นอกจากนี้เขายังได้พัฒนาชุดคำสั่ง R ที่มีประสิทธิภาพเพื่อจัดการกับโมเดลเชิงเส้นทั่วไป (ดูแพ็คเกจการออกแบบหรือrms ) ดังนั้นฉันคิดว่าคุณต้องดูอย่างแน่นอน ( เอกสารประกอบคำบรรยายของเขามีอยู่ในหน้าแรกของเขา)

อ้างอิง

  1. Whittingham, MJ, สตีเฟนส์, P, Bradbury, RB, และ Freckleton, RP (2006) ทำไมเรายังคงใช้การสร้างแบบจำลองขั้นตอนในระบบนิเวศและพฤติกรรม? วารสารนิเวศวิทยาสัตว์ , 75 , 1182-1189
  2. Austin, PC (2008) เลือกรูปแบบการบูตมีประสิทธิภาพการทำงานที่คล้ายกันสำหรับการเลือกตัวแปรของแท้และเสียงเมื่อเทียบกับการกำจัดตัวแปรย้อนหลัง: การศึกษาแบบจำลอง วารสารระบาดวิทยาคลินิก , 61 (10) , 1009-1017
  3. Austin, PC และ Tu, JV (2004) อัตโนมัติวิธีการคัดเลือกตัวแปรสำหรับการถดถอยโลจิสติกผลิตรุ่นที่ไม่แน่นอนในการทำนายการตายเฉียบพลันกล้ามเนื้อหัวใจตาย วารสารระบาดวิทยาคลินิก , 57 , 1138–1146
  4. กรีนแลนด์, S (1994) การถดถอยเชิงลำดับขั้นสำหรับการวิเคราะห์ทางระบาดวิทยาของการสัมผัสหลายครั้ง มุมมองด้านอนามัยสิ่งแวดล้อม , 102 (Suppl 8) , 33–39
  5. กรีนแลนด์, S (2008) เปรียบเทียบหลายและการเลือกสมาคมระบาดวิทยาทั่วไป วารสารนานาชาติระบาดวิทยา , 37 (3) , 430-434
  6. Beyene, J, Atenafu, EG, Hamid, JS, To, T, และ Sung L (2009) การกำหนดความสำคัญของตัวแปรในการพัฒนาและการตรวจสอบรูปแบบการพยากรณ์ วิธีการวิจัยทางการแพทย์ของ BMC , 9 , 64
  7. Bursac, Z, Gauss, CH, Williams, DK และ Hosmer, DW (2008) เลือกเด็ดเดี่ยวของตัวแปรในการถดถอยโลจิสติก ซอร์สโค้ดสำหรับชีววิทยาและการแพทย์ , 3 , 17
  8. Brombin, C, Finos, L และ Salmaso, L (2007) การปรับแบบขั้นตอน P-ค่าในรูปแบบเชิงเส้นทั่วไป ประชุมนานาชาติเกี่ยวกับขั้นตอนการเปรียบเทียบหลาย - ดูstep.adj()ในแพ็กเกจR someMTP
  9. Wiegand, RE (2010) ผลการดำเนินงานของการใช้อัลกอริทึมพหุแบบขั้นตอนสำหรับการเลือกตัวแปร สถิติทางการแพทย์ , 29 (15), 1647–1659
  10. ดวงจันทร์ KG, Donders AR, Steyerberg EW และ Harrell FE (2004) ประเมินความน่าจะเป็นสูงสุดที่ได้รับการลงโทษเพื่อคาดการณ์ผลลัพธ์ไบนารี วารสารระบาดวิทยาคลินิก , 57 (12) , 1262–1270
  11. Tibshirani, R (1996) การหดตัวของการถดถอยและการเลือกผ่านเชือก วารสารสมาคมสถิติรอยัลบี , 58 (1) , 267–288
  12. Efron, B, Hastie, T, Johnstone, I และ Tibshirani, R (2004) อย่างน้อยถดถอยมุม บันทึกสถิติ , 32 (2) , 407-499
  13. Flom, PL และ Cassell, DL (2007) หยุดแบบขั้นตอน: ทำไมแบบขั้นตอนและวิธีการที่คล้ายกันตัวเลือกที่ไม่ดีและสิ่งที่คุณควรใช้ NESUG 2007 ดำเนินการตามกฎหมาย
  14. Shtatland, ES, Cain, E. และ Barton, MB (2001) อันตรายของการถดถอยโลจิสติกส์แบบขั้นตอนและวิธีการหลบหนีโดยใช้เกณฑ์ข้อมูลและระบบการนำส่งออก SUGI 26 กระบวนการ (pp. 222–226)

10
ฉันไม่รังเกียจการลงคะแนน แต่ความคิดเห็นจะได้รับการชื่นชม (ดังนั้นฉันสามารถเรียนรู้ด้วยตัวเองเข้าใจสิ่งที่ผิดและปรับปรุงการตอบสนองในอนาคตของฉัน)
chl

3
+1 คำตอบที่ดีและความเห็นของ chl เกี่ยวกับการทิ้งคำอธิบายลงเพื่อช่วยทั้งผู้เขียนและผู้อ่านเข้าใจสิ่งที่อาจขาด ขอบคุณ
ARS

ฉันแนะนำที่สองของ chl ให้ใช้การถดถอยแบบลงโทษบางอย่าง (เช่น Lasso)
S. Kolassa - Reinstate Monica

10
@chl: ฉันไม่พอใจกับการแนะนำการเลือกตัวทำนายแบบขั้นตอน โดยปกติแล้วสิ่งนี้จะขึ้นอยู่กับค่า p ("ยกเว้นตัวทำนายที่มี p> .15 รวมไว้ถ้า p <.05") และนำไปสู่การประมาณการแบบลำเอียงและประสิทธิภาพการทำนายที่ไม่ดี (Whittingham et al., 2006, ทำไมเรายังคง ใช้การสร้างแบบจำลองขั้นตอนในระบบนิเวศและพฤติกรรมหรือไม่ J Anim Ecol, 75, 1182-1189) อย่างไรก็ตามวิธีการแบบขั้นตอนของ AIC นั้นมีจุดอ่อนเดียวกัน - Frank Harrell ได้พูดถึงสิ่งนี้ในโพสต์ถึง R-help ในวันจันทร์ที่ 09 ส.ค. 2010 16:34:19 -0500 (CDT) ในหัวข้อ "Logistic Regression ใน R (SAS - เช่นเอาท์พุท) ".
S. Kolassa - Reinstate Monica

มีวิธีใดบ้างในการรวมลิงก์ในความคิดเห็น
S. Kolassa - Reinstate Monica

25

ในระดับที่ดีคุณสามารถทำอะไรก็ได้ที่คุณชอบโดยให้ข้อมูลที่สุ่มพอที่จะทดสอบโมเดลที่คุณคิดตามข้อมูลที่เก็บไว้ การแบ่ง 50% อาจเป็นความคิดที่ดี ใช่คุณสูญเสียความสามารถในการตรวจสอบความสัมพันธ์ แต่สิ่งที่คุณได้รับนั้นใหญ่หลวง กล่าวคือความสามารถในการทำซ้ำงานของคุณก่อนที่จะเผยแพร่ ไม่ว่าเทคนิคทางสถิติที่คุณนำมาใช้จะมีความซับซ้อนเพียงใดคุณจะต้องตกใจกับจำนวนผู้ทำนาย "สำคัญ" ที่ไร้ประโยชน์โดยสิ้นเชิงเมื่อนำไปใช้กับข้อมูลการยืนยัน

จำไว้ด้วยเช่นกันว่า "ความเกี่ยวข้อง" สำหรับการทำนายนั้นมีค่ามากกว่าค่า p ต่ำ ท้ายที่สุดหมายความว่าเป็นไปได้ว่าความสัมพันธ์ที่พบในชุดข้อมูลนี้ไม่ได้เกิดจากโอกาส สำหรับการทำนายมันสำคัญกว่าการหาตัวแปรที่มีอิทธิพลอย่างมากต่อการทำนาย นั่นคือเพื่อค้นหาตัวแปรที่น่าจะเป็น "ของจริง" และเมื่อมีการเปลี่ยนแปลงตลอดช่วงของค่าที่สมเหตุสมผล (ไม่ใช่แค่ค่าที่อาจเกิดขึ้นในตัวอย่างของคุณ!) ทำให้การคาดการณ์นั้นแตกต่างกันไป เมื่อคุณมีข้อมูลที่ค้างไว้เพื่อยืนยันแบบจำลองคุณสามารถใช้ตัวแปร "นัยสำคัญ" ที่ไม่สามารถจัดเตรียมไว้ได้ซึ่งจะทำให้ค่า p ต่ำ

ด้วยเหตุผลเหล่านี้ (และการสร้างคำตอบที่ดีของ chl) แม้ว่าฉันได้พบแบบจำลองแบบขั้นตอนการเปรียบเทียบ AIC และการแก้ไข Bonferroni ค่อนข้างมีประโยชน์ (โดยเฉพาะกับตัวทำนายที่เป็นไปได้หลายร้อยหรือหลายพัน) สิ่งเหล่านี้ไม่ควรเป็นปัจจัย ป้อนโมเดลของคุณ อย่าลืมคำแนะนำจากทฤษฎีเช่น: ตัวแปรที่มีเหตุผลทางทฤษฎีที่แข็งแกร่งที่จะอยู่ในรูปแบบมักจะถูกเก็บไว้ในแม้ว่าพวกเขาจะไม่สำคัญหากพวกเขาไม่ได้สร้างสมการที่ไม่ดี ( เช่น collinearity) .

หมายเหตุ : หลังจากที่คุณตัดสินในแบบจำลองและยืนยันความมีประโยชน์ของข้อมูลที่มีอยู่ก็เป็นเรื่องปกติที่จะรวมข้อมูลที่ถูกเก็บไว้ใหม่ด้วยข้อมูลที่เก็บไว้สำหรับการประเมินขั้นสุดท้าย ดังนั้นจึงไม่มีอะไรหายไปในแง่ของความแม่นยำที่คุณสามารถประมาณค่าสัมประสิทธิ์ของแบบจำลองได้


ขอบคุณ! หากคุณไม่สามารถเข้าถึงข้อมูลต้นฉบับได้ แต่มีเพียงสัมประสิทธิ์การถดถอยเพียงหนึ่งตัว Bonferroni จะปรับตัวเลือกเดียวของคุณหรือไม่?
Mikael M

4
สมมุติว่าคุณมีค่า p :-) ด้วย แต่ด้วยค่าเหล่านั้นและสัมประสิทธิ์เท่านั้นมันยากที่จะจินตนาการว่าคุณจะทำอะไรนอกจากการปรับ Bonferroni (ฉันมักจะปรับเช่นนี้ทุกครั้งที่อ่านกระดาษใด ๆ ที่มีการทดสอบหลายครั้ง: มันเป็นวิธีที่รวดเร็วในการกำจัดผลลัพธ์ที่น่าจะเป็นขยะ) คนส่วนใหญ่ยังมีสถิติสรุปสำหรับตัวแปร: คุณสามารถใช้ช่วงหรือ sds พร้อมกับ ค่าสัมประสิทธิ์ในการประเมินผลกระทบของตัวแปรอธิบายแต่ละตัวอาจมีต่อการทำนาย
whuber

ขอบคุณสำหรับคำอธิบายของคุณ ในการตรวจสอบข้าม ฉันขอขอบคุณข้อโต้แย้งสุดท้ายของคุณนั่นคือเราต้องมองหาความเกี่ยวข้องเชิงทฤษฎี (เกินกว่าค่า p)
chl

19

ฉันคิดว่านี่เป็นคำถามที่ดีมาก มันเป็นหัวใจของการทดสอบ "ปัญหา" ที่เป็นที่ถกเถียงกันหลายอย่างซึ่งเป็นภัยพิบัติในสาขาต่าง ๆ ตั้งแต่ระบาดวิทยาไปจนถึงเศรษฐมิติ หลังจากที่ทุกวิธีสามารถเรารู้ว่าถ้าอย่างมีนัยสำคัญที่เราพบคือปลอมหรือไม่? แบบจำลองหลายตัวแปรของเราเป็นจริงแค่ไหน?

ในแง่ของวิธีการทางเทคนิคเพื่อชดเชยความน่าจะเป็นของการเผยแพร่ตัวแปรเสียงรบกวนฉันจะเห็นด้วยอย่างยิ่งกับ 'whuber' ที่ใช้ส่วนหนึ่งของตัวอย่างของคุณเป็นข้อมูลการฝึกอบรมและส่วนที่เหลือเป็นข้อมูลทดสอบเป็นความคิดที่ดี นี่เป็นวิธีการที่ได้รับการกล่าวถึงในเอกสารทางเทคนิคดังนั้นหากคุณสละเวลาคุณอาจพบแนวทางที่ดีเกี่ยวกับเวลาและวิธีการใช้งาน

แต่เพื่อให้ตรงกับปรัชญาของการทดสอบหลายครั้งมากขึ้นฉันขอแนะนำให้คุณอ่านบทความที่ฉันอ้างอิงด้านล่างซึ่งบางตำแหน่งที่สนับสนุนตำแหน่งที่การปรับสำหรับการทดสอบหลายครั้งมักเป็นอันตราย (ค่าใช้จ่ายพลังงาน) ไม่จำเป็น . ฉันคนหนึ่งไม่ยอมรับการอ้างสิทธิ์โดยอัตโนมัติว่าความสามารถของเราในการตรวจสอบตัวทำนายที่มีศักยภาพจะลดลงอย่างไม่ลดละโดยการตรวจสอบของผู้อื่น ครอบครัวฉลาดประเภท 1 อัตราความผิดพลาดอาจเพิ่มขึ้นในขณะที่เรารวมถึงการทำนายอื่น ๆ ในรูปแบบที่กำหนด แต่ตราบใดที่เราไม่ได้ไปเกินขีด จำกัด ของขนาดตัวอย่างของเราน่าจะเป็นของประเภทที่ 1 ข้อผิดพลาดสำหรับแต่ละบุคคลตัวทำนายคงที่ และการควบคุมสำหรับข้อผิดพลาดที่เหมาะสำหรับครอบครัวไม่ได้ส่องสว่างว่าตัวแปรเฉพาะใดเป็นสัญญาณรบกวนและไม่ใช่ แน่นอนว่ายังมีข้อโต้แย้งแย้งเช่นกัน

ดังนั้นตราบใดที่คุณ จำกัด รายการตัวแปรที่อาจเป็นไปได้สำหรับตัวแปรที่เป็นไปได้ (กล่าวคือจะมีเส้นทางสู่ผลลัพธ์) ดังนั้นความเสี่ยงของการหลอกลวงจึงได้รับการจัดการค่อนข้างดี

อย่างไรก็ตามฉันจะเพิ่มว่าแบบจำลองการทำนายไม่เกี่ยวข้องกับ "ความจริง - ค่า" ของตัวทำนายเป็นแบบจำลองเชิงสาเหตุ อาจมีการสับสนอย่างมากในแบบจำลอง แต่ตราบใดที่เราอธิบายความแปรปรวนจำนวนมากแล้วเราก็ไม่ได้กังวลมากเกินไป สิ่งนี้ทำให้งานง่ายขึ้นอย่างน้อยก็ในแง่หนึ่ง

ไชโย

เบรนเดนที่ปรึกษาด้านชีวสถิติ

ป.ล. : คุณอาจต้องการทำการปัวซงถดถอยแบบศูนย์สำหรับข้อมูลที่คุณอธิบายแทนที่จะเป็นสองการถดถอยแยกกัน

  1. Perneger ทีวีมีอะไรผิดปกติกับการปรับ Bonferroni BMJ 1998; 316: 1236
  2. Cook, RJ & Farewell, VT การพิจารณาหลายหลากในการออกแบบและวิเคราะห์การทดลองทางคลินิก วารสารสมาคมสถิติรอยัล , ชุด A 1996; ฉบับ 159 เลขที่ 1: 93-110
  3. รอ ธ แมน, KJ ไม่มีการปรับเปลี่ยนมีความจำเป็นสำหรับการเปรียบเทียบหลาย ระบาดวิทยา 2533; ฉบับ 1 หมายเลข 1: 43-46
  4. มาร์แชลล์, JR ขุดลอกข้อมูลและ noteworthiness ระบาดวิทยา 2533; ฉบับ 1 หมายเลข 1: 5-7
  5. กรีนแลนด์เอสและโรบินส์ JM ปรับเปลี่ยนเชิงประจักษ์-Bayes สำหรับการเปรียบเทียบหลาย ๆ ที่มีประโยชน์บางครั้ง ระบาดวิทยา 2534; ฉบับ 2 หมายเลข 4: 244-251

ต่อไป: 2. พิจารณาข้อพิจารณาหลายหลากของ RJ และลาก่อน VT ในการออกแบบและวิเคราะห์การทดลองทางคลินิก วารสารสมาคมสถิติรอยัล, ชุด A 1996; ฉบับ 159, หมายเลข 1: 93-110
Brenden

ขอบคุณสำหรับความคิดเห็นของคุณเบรนเดนโดยเฉพาะคนสุดท้ายเกี่ยวกับการทำนายกับคำอธิบายเชิงสาเหตุ และยินดีต้อนรับสู่เว็บไซต์! ฉันหวังว่าจะเห็นการมีส่วนร่วมของคุณอีกมากมายในอนาคต
whuber

ต่อ: 3. Rothman KJ ไม่จำเป็นต้องทำการปรับเปลี่ยนสำหรับการเปรียบเทียบหลายรายการ ระบาดวิทยา 2533; ฉบับ 1, No. 1: 43-46 4. Marshall JR Data การขุดและข้อมูลสำคัญ ระบาดวิทยา 2533; ฉบับ 1, ไม่ใช่ 1: 5-7 5. การปรับค่ากรีนแลนด์ S. และ Robins JM Empirical-Bayes สำหรับการเปรียบเทียบหลายครั้งอาจมีประโยชน์ ระบาดวิทยา 2534; ฉบับ 2, No. 4: 244-251
Brenden

(+1) คุณอาจจะสนใจในหัวข้อต่อไปนี้: stats.stackexchange.com/questions/3252/... ดูเหมือนว่าเราจะแบ่งปันลิงก์จำนวนมากโดยทั่วไป :-)
chl

6

มีคำตอบที่ดีอยู่ที่นี่ ฉันขอเพิ่มจุดเล็ก ๆ สองสามอย่างที่ฉันไม่เห็นครอบคลุมในที่อื่น

ก่อนอื่นอะไรคือตัวแปรการตอบสนองของคุณ? โดยเฉพาะพวกเขาเข้าใจว่าเกี่ยวข้องกันหรือไม่ คุณควรทำหลาย ๆ การแยกกันสองครั้งหากพวกเขาเข้าใจว่าเป็นอิสระ (ในทางทฤษฎี) / ถ้าส่วนที่เหลือจากทั้งสองรุ่นเป็นอิสระ (สังเกตุ) มิฉะนั้นคุณควรพิจารณาการถดถอยหลายตัวแปร ('หลายตัวแปร' หมายถึง> 1 ตัวแปรตอบสนอง 'หลาย' หมายถึง> ตัวแปรตัวทำนาย 1 ตัว)

สิ่งอื่น ๆ ที่จะแบกไว้ในใจคือว่ารูปแบบมาพร้อมกับโลกทดสอบซึ่งเป็นแบบทดสอบพร้อมกันของทุกพยากรณ์ อาจเป็นไปได้ว่าการทดสอบทั่วโลกนั้นไม่สำคัญในขณะที่บางคนทำนายว่าจะเป็น 'สำคัญ' ที่ควรให้คุณหยุดถ้ามันเกิดขึ้น ในทางตรงกันข้ามถ้าการทดสอบทั่วโลกแนะนำอย่างน้อยบางส่วนของตัวทำนายที่เกี่ยวข้องซึ่งจะช่วยให้คุณได้รับการปกป้องจากปัญหาของการเปรียบเทียบหลาย ๆ อย่าง (เช่นมันเป็นการชี้ให้เห็นว่าไม่เป็นโมฆะจริงทั้งหมด) F


0

คุณสามารถทำการถดถอยที่ดูเหมือนไม่เกี่ยวข้องและใช้การทดสอบ F ใส่ข้อมูลของคุณในรูปแบบนี้:

Out1 1 P11 P12 0  0   0
Out2 0 0   0   1  P21 P22

เพื่อให้ตัวทำนายผลแรกของคุณมีค่าเมื่อผลลัพธ์นั้นคือตัวแปร y และ 0 เป็นอย่างอื่นและในทางกลับกัน ดังนั้น y ของคุณคือรายการผลลัพธ์ทั้งคู่ P11 และ P12 เป็นตัวทำนายสองตัวสำหรับผลลัพธ์แรกและ P21 และ P22 เป็นตัวทำนายสองตัวสำหรับผลลัพธ์ที่สอง หากเพศพูดเป็นตัวทำนายผลทั้งสองอย่างการใช้เพื่อทำนายผลลัพธ์ 1 ควรอยู่ในตัวแปร / คอลัมน์แยกต่างหากเมื่อทำนายผลลัพธ์ 2 ซึ่งจะช่วยให้การถดถอยของคุณมีความลาดชัน / ผลกระทบที่แตกต่างกันสำหรับแต่ละผลลัพธ์

ในกรอบนี้คุณสามารถใช้ขั้นตอนการทดสอบมาตรฐาน F

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.