โควาเรียตที่ไม่มีนัยสำคัญทางสถิติควร 'เก็บไว้ใน' เมื่อสร้างแบบจำลองหรือไม่?


39

ฉันมีโควาเรียร์หลายตัวในการคำนวณแบบจำลองและไม่ใช่ทั้งหมดที่มีนัยสำคัญทางสถิติ ฉันควรลบสิ่งที่ไม่ใช่หรือไม่

คำถามนี้อธิบายถึงปรากฏการณ์ แต่ไม่ตอบคำถามของฉัน: จะตีความผลกระทบที่ไม่สำคัญของ covariate ใน ANCOVA อย่างไร

ไม่มีอะไรในคำตอบสำหรับคำถามนั้นที่ชี้ให้เห็นว่ามีการแปรผันที่ไม่สำคัญออกไปแม้ว่าตอนนี้ฉันมีแนวโน้มที่จะเชื่อว่าพวกเขาควรจะอยู่ต่อไปก่อนที่จะอ่านคำตอบนั้น ยังสามารถอธิบายความแปรปรวนบางอย่าง (และช่วยให้แบบจำลอง) โดยไม่จำเป็นต้องอธิบายจำนวนเกินกว่าขีด จำกัด บางอย่าง (ค่าขีด จำกัด นัยสำคัญซึ่งฉันเห็นว่าไม่สามารถใช้ได้กับ covariates)

มีอีกคำถามหนึ่งในประวัติย่อที่คำตอบดูเหมือนจะบ่งบอกว่า covariates ควรเก็บไว้โดยไม่คำนึงถึงความสำคัญ แต่ก็ไม่ชัดเจนในเรื่องนั้น (ฉันต้องการเชื่อมโยงกับคำถามนั้น แต่ฉันไม่สามารถติดตามได้อีกในตอนนี้)

ดังนั้น ... โควาเรียต์ที่ไม่แสดงว่ามีนัยสำคัญทางสถิติควรถูกเก็บไว้ในการคำนวณสำหรับโมเดลหรือไม่? (ฉันได้แก้ไขคำถามนี้เพื่อชี้แจงว่า covariates ไม่เคยอยู่ในรูปแบบผลลัพธ์โดยการคำนวณอยู่ดี)

หากต้องการเพิ่มความซับซ้อนจะเกิดอะไรขึ้นถ้าค่าความแปรปรวนร่วมมีความสำคัญทางสถิติสำหรับชุดย่อยบางส่วนของข้อมูล (ชุดย่อยที่ต้องดำเนินการแยกต่างหาก) ฉันจะเริ่มต้นที่จะรักษา covariate มิฉะนั้นจะต้องใช้โมเดลที่แตกต่างกันหรือคุณจะมี covariate ที่มีนัยสำคัญทางสถิติหายไปในกรณีใดกรณีหนึ่ง หากคุณมีคำตอบสำหรับคดีแยกนี้เช่นกันโปรดพูดถึงมัน


6
โดยทั่วไปแล้วฉันจะบอกว่าคุณควรเก็บตัวแปรที่มีความสำคัญทางทฤษฎีหรือมีความสำคัญในการศึกษาก่อนหน้าแม้ว่าข้อมูลของคุณจะไม่สนับสนุนผลกระทบเหล่านั้น เพื่อที่จะได้คำตอบที่เฉพาะเจาะจงยิ่งขึ้นฉันคิดว่าคุณควรเพิ่มสองบรรทัดเพื่ออธิบายแบบจำลองและจุดประสงค์ของมัน (เช่นการระบุปัจจัยเสี่ยง, การทำนาย, ... )
ocram

ฉันจะบอกว่ามันขึ้นอยู่กับ การทดสอบเป็นเพียงตัวบ่งชี้ หากคุณเชื่อว่าควรมีการพึ่งพาอาศัยกันเล็ก ๆ น้อย ๆ แล้วคิดเกี่ยวกับการรักษาในรูปแบบ หากคุณเชื่อเช่นกันว่าการพึ่งพานั้นไม่ควรอยู่ที่นั่น
Bene

ตกลงดังนั้นคุณทั้งคู่บอกว่าการไม่ใช้ความหมายนั้นไม่ได้บอกว่าค่าความแปรปรวนร่วมนั้นถูกลบออกจากการพิจารณาดังนั้นคุณทั้งคู่จึงตอบคำถามของฉันได้จริง จริง ๆ แล้วฉันควรจะเรียบเรียงคำถามของฉันให้ชัดเจนยิ่งขึ้นระบุว่าสิ่งที่ฉันถามคือความสำคัญของ stastistical ของ covariate เป็นเงื่อนไขที่จำเป็นสำหรับการรักษามัน ("ไม่สำคัญของ covariate หมายความว่าควรลบออก ... ") และ ฉันจะยอมรับความคิดเห็นของคุณเป็นคำตอบ
น.

แม้ว่าก่อนหน้านั้นฉันต้องการตรวจสอบให้แน่ใจว่าฉันใช้คำศัพท์ที่ถูกต้อง เดิมทีฉันเขียนว่า "เก็บไว้ในแบบจำลอง" แต่นั่นดูไม่ถูกต้องเพราะเพื่อนร่วมทุนไม่เคยปรากฏในแบบจำลอง ฉันตัดสินว่า "เก็บไว้ในการคำนวณสำหรับโมเดล " (และ "ลบออกจากการพิจารณา ") แต่มีวิธีที่ดีกว่าในการพูดสิ่งนี้หรือไม่ อะไรคือคำที่เหมาะสมสำหรับสิ่งที่โควาเรียตถูกเก็บไว้ในหรือถูกลบออกจาก?
น.

3
คุณจะต้องตรวจสอบประสิทธิภาพที่ถูกต้องของขั้นตอนการคัดเลือกดังกล่าว อื่น ๆ ล้มเหลว
Frank Harrell

คำตอบ:


32

คุณได้รับคำตอบที่ดีหลายข้อแล้ว มีเหตุผลหลายประการที่จะต้องเก็บรักษาโควาเรียตและเหตุผลในการเก็บรักษาโควาเรียต นัยสำคัญทางสถิติไม่ควรเป็นปัจจัยสำคัญในกรณีส่วนใหญ่

  1. Covariates อาจมีความสำคัญที่สำคัญเช่นที่พวกเขาจะต้องมี
  2. ขนาดของเอฟเฟกต์ของโควาเรียตอาจสูงถึงแม้ว่ามันจะไม่สำคัญก็ตาม
  3. covariate อาจส่งผลกระทบด้านอื่น ๆ ของแบบจำลอง
  4. ค่าความแปรปรวนร่วมอาจเป็นส่วนหนึ่งของการตั้งสมมติฐานของคุณ

หากคุณอยู่ในโหมดสำรวจและ covariate ไม่สำคัญในวรรณคดีและขนาดเอฟเฟกต์มีขนาดเล็กและ covariate มีผลเพียงเล็กน้อยต่อโมเดลของคุณและ covariate ไม่ได้อยู่ในสมมติฐานของคุณคุณอาจลบมันออกเพื่อความเรียบง่าย .


6
สถานการณ์ที่สำคัญมาก แต่มักถูกมองข้ามถูกครอบคลุมโดย # 4 ที่นี่ แต่ฉันจะสะกดมันออก บ่อยครั้ง - โดยปกติ - คุณควรเปรียบเทียบผลลัพธ์กับพนักงานก่อนหน้านี้กับข้อมูลที่คล้ายกัน หากคนอื่น ๆ พบว่าค่าความแปรปรวนร่วมที่เฉพาะเจาะจงรวมถึงในแบบจำลองของพวกเขาคุณควรเปรียบเทียบผลลัพธ์ของพวกเขากับพวกเขาโดยไม่คำนึงว่าตัวแปรสภาพร่วมจะบรรลุระดับความสำคัญ (ทั่วไป) หรือไม่ โปรดทราบว่ากรณีที่นี่อาจแตกต่างจากรูปแบบการรายงานที่คุณตัดสินใจว่าไม่ดีโดยเฉพาะอย่างยิ่งกับรูปแบบการรายงานที่คุณตัดสินใจว่าดี
Nick Cox

1
แน่นอนว่าฉันเอนตัวไปที่ 'Keep in' (และไม่ทำให้ p-value มากสำหรับ covariates ในตอนแรก) แต่คำตอบของคุณทำให้รายการตรวจสอบที่ดีมาก (ดี ... สอง) สำหรับชนกลุ่มน้อยที่จะออกไป ขนาดของเอฟเฟกต์เป็นสิ่งที่ฉันไม่ได้พิจารณาและในขณะที่ฉันได้พิจารณาสมมติฐานฉันก็ชอบคุณมากเพราะเหตุผลที่ @ NickCox พูดถึงและทำให้การตกปลาเป็นท้อใจ
น.

25

P


10
คำตอบที่ยาวคือ "ใช่"! +1 และ LOL
Peter Flom - Reinstate Monica

หากไม่ใช่ค่า p จะมีเหตุผลอื่นใดอีกบ้างในการลบตัวทำนาย คุณพูดถึงการตีความช่วงความเชื่อมั่น แต่ดูเหมือนว่า "ช่วงที่น่าสนใจ" จะเป็นศูนย์ซึ่งหมายความว่าผู้คนจะตีความ CIs เหมือนค่า p (รวมหรือไม่รวมศูนย์)
Mark White

1
อะไรคือเหตุผลในการลบตัวทำนายเมื่อบิดเบือนคุณสมบัติทางสถิติ ไม่ชัดเจนในคำถามของคุณและ "ศูนย์"
Frank Harrell

7

ข้อมูลเชิงลึกที่มีประโยชน์อย่างใดอย่างหนึ่งก็คือว่ามีจริงๆไม่มีอะไรที่เฉพาะเจาะจงเกี่ยวกับตัวแปรร่วมสถิติการพูดให้ดูเช่นตัวแปรช่วยเหลือเขียนลงในสูตรการถดถอย บังเอิญมันอาจอธิบายได้ว่าทำไมไม่มีcovariateแท็ก ดังนั้นเนื้อหาที่นี่และที่อื่น ๆ เกี่ยวกับคำที่ไม่สำคัญในตัวแบบเชิงเส้นมีความเกี่ยวข้องเช่นเดียวกับนักวิจารณ์ที่รู้จักกันดีเกี่ยวกับการถดถอยแบบขั้นตอนแม้ว่า ANCOVA จะไม่ได้กล่าวถึงอย่างชัดเจน

โดยทั่วไปแล้วการเลือกผู้ทำนายโดยใช้ความสำคัญเพียงอย่างเดียวเป็นความคิดที่ดี หากด้วยเหตุผลบางประการที่คุณไม่สามารถระบุแบบจำลองได้ล่วงหน้าคุณควรพิจารณาแนวทางอื่น ๆ แต่ถ้าคุณวางแผนที่จะรวมไว้ในตอนแรกให้รวบรวมข้อมูลตามลำดับและไม่ต้องเผชิญกับปัญหาที่เฉพาะเจาะจง (เช่น collinearity) เพียงแค่เก็บไว้

เกี่ยวกับเหตุผลที่ทำให้พวกเขาดูเหมือนคุณจะคัดค้านฉัน อีกเหตุผลหนึ่งก็คือการลบการอนุมานอคติที่ไม่สำคัญออกจากแบบจำลอง อีกวิธีหนึ่งในการดูทั้งหมดนี้คือการถามสิ่งที่จะได้รับจากการลบโควาเรียเหล่านี้หลังจากความจริง


4

เราต้องการข้อมูลเพิ่มเติมเกี่ยวกับเป้าหมายของคุณเพื่อตอบคำถามนี้ การถดถอยใช้สำหรับวัตถุประสงค์หลักสองประการ:

  1. คาดการณ์
  2. การอนุมาน

การคาดการณ์คือเมื่อเป้าหมายของคุณคือสามารถคาดเดาค่าของตัวแปรผลลัพธ์สำหรับการสังเกตที่ไม่ได้อยู่ในกลุ่มตัวอย่าง (แม้ว่าโดยปกติจะอยู่ในช่วงของข้อมูลตัวอย่าง - มิฉะนั้นเราใช้คำว่า "การคาดการณ์") การคาดการณ์มีประโยชน์สำหรับวัตถุประสงค์ในการโฆษณาการเงิน ฯลฯ หากคุณสนใจที่จะทำนายตัวแปรผลลัพธ์บางอย่างฉันมีข้อเสนอเล็กน้อยให้คุณ

การอนุมานคือความสนุก (แม้ว่าจะไม่ใช่ที่ที่เงิน) การอนุมานคือที่ที่คุณพยายามสรุปเกี่ยวกับพารามิเตอร์ของโมเดลที่เฉพาะเจาะจง - โดยทั่วไปเพื่อกำหนดผลกระทบเชิงสาเหตุของตัวแปรหนึ่งในอีกตัวแปรหนึ่ง แม้จะมีการรับรู้ทั่วไปการวิเคราะห์การถดถอยไม่เคยเพียงพอสำหรับการอนุมานสาเหตุ คุณต้องรู้เพิ่มเติมเกี่ยวกับกระบวนการสร้างข้อมูลเสมอเพื่อทราบว่าการถดถอยของคุณบันทึกผลกระทบเชิงสาเหตุหรือไม่ ปัญหาสำคัญสำหรับการอนุมานเชิงสาเหตุจากการถดถอยคือค่าเฉลี่ยตามเงื่อนไขของข้อผิดพลาด (มีเงื่อนไขในการถดถอย) เป็นศูนย์หรือไม่ สิ่งนี้ไม่สามารถรู้ได้จากค่า p บน regressors เป็นไปได้ที่จะมีการประมาณค่าการถดถอยที่ไม่เอนเอียงหรือสอดคล้องกัน แต่ต้องใช้ความพยายามมากกว่าแค่การควบคุมที่ชัดเจนในการถดถอยและหวังว่าคุณจะได้สิ่งที่สำคัญตัวชี้วัดการเรียนรู้: เส้นทางจากสาเหตุสู่ผลกระทบและเศรษฐมิติที่ไม่เป็นอันตรายที่สุด ) ตัวชี้วัดการเรียนรู้นั้นอ่านง่ายกว่าและค่อนข้างถูก แต่ควรได้รับการเตือนว่ามันไม่ใช่วิธีการถดถอย แต่เป็นวิธีที่พวกเขาหมายถึง เพื่อให้ครอบคลุมตัวอย่างที่ดีของการออกแบบการวิจัยเชิงสังเกตการณ์ที่ดีและไม่ดีฉันขอแนะนำ "แบบจำลองเชิงสถิติและเครื่องหนังรองเท้า" ของ David Freedman (1991), ระเบียบวิธีทางสังคมวิทยาเล่มที่ 21 (สั้นและง่ายต่อการอ่านด้วยตัวอย่างที่น่าสนใจ)

นอกเหนือไปจาก: การครอบงำจิตใจด้วยเทคนิคทางสถิติในการออกแบบการวิจัยที่ดีในหลักสูตรวิทยาลัยส่วนใหญ่เป็นหลักสูตรที่สอนฉัน

ประการที่สองเพื่อกระตุ้นให้เกิดความสำคัญในปัจจุบันของปัญหานี้: ความแตกต่างระหว่างการทำนายและการอนุมานคือสาเหตุที่ข้อมูลขนาดใหญ่ไม่ได้ใช้แทนวิทยาศาสตร์

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.