อะไรคือประเด็นของการถดถอยแบบ univariate ก่อนการถดถอยหลายตัวแปร?


13

ขณะนี้ฉันกำลังทำงานกับปัญหาที่เรามีชุดข้อมูลขนาดเล็กและมีความสนใจในลักษณะพิเศษเวรกรรมของการรักษาผล

ที่ปรึกษาของฉันได้สั่งให้ฉันทำการถดถอยแบบไม่มีการเปลี่ยนแปลงบนตัวทำนายแต่ละตัวโดยให้ผลลัพธ์เป็นคำตอบจากนั้นให้การกำหนดการรักษาเป็นการตอบสนอง คือฉันกำลังถูกขอให้พอดีกับการถดถอยกับตัวแปรหนึ่งตัวในแต่ละครั้งและสร้างตารางผลลัพธ์ ฉันถามว่า "ทำไมเราต้องทำสิ่งนี้?" และคำตอบก็คือสิ่งที่เกิดขึ้นจาก "เราสนใจว่าตัวทำนายใดที่เกี่ยวข้องกับการกำหนดการรักษาและผลที่เกิดขึ้น ที่ปรึกษาของฉันเป็นนักสถิติที่ผ่านการฝึกอบรมไม่ใช่นักวิทยาศาสตร์ในสาขาอื่นดังนั้นฉันจึงเชื่อใจพวกเขา

สิ่งนี้สมเหตุสมผล แต่ยังไม่ชัดเจนว่าจะใช้ผลลัพธ์ของการวิเคราะห์ที่ไม่แปรปรวนได้อย่างไร จะไม่เลือกตัวเลือกแบบจำลองจากผลลัพธ์นี้ในอคติที่สำคัญของการประมาณการและช่วงความเชื่อมั่นที่แคบลงหรือไม่ ทำไมทุกคนควรทำเช่นนี้? ฉันสับสนและที่ปรึกษาของฉันค่อนข้างทึบแสงในประเด็นเมื่อฉันนำมันมา ใครบ้างมีทรัพยากรเกี่ยวกับเทคนิคนี้

(NB: ที่ปรึกษาของฉันบอกว่าเราไม่ได้ใช้ค่า p เป็นค่าตัด แต่เราต้องการพิจารณา "ทุกอย่าง")


6
ถ้าโดย "univariate regression" ผู้สอนของคุณจะรวมการวาด scatterplotแล้วมันเป็นคำแนะนำที่ฉลาดแน่นอน และเนื่องจากไม่มีการถดถอยที่คุณสนใจไม่ควรดำเนินการโดยไม่มีการวางแผนคุณจะได้รับข้อมูลที่เป็นประโยชน์ ทำทุกอย่างพร้อมกันถ้าคุณทำได้ด้วยเมทริกซ์สแคทเทอร์และแสดงบางอย่างที่ราบรื่นกับมัน ข้อดีจะชัดเจนเมื่อคุณเห็นวิธีต่าง ๆ ที่ตัวแปรของคุณสามารถออกจากการแสดงความสัมพันธ์เชิงเส้น
whuber

1
เกิดอะไรขึ้นถ้าข้อมูลการตอบสนองเป็นแบบไบนารีและเรากำลังใช้ glm กับลิงค์ logit? คำอธิบายของคุณชัดเจนสำหรับกรณีเชิงเส้นและตอนนี้ที่ฉันคิดเกี่ยวกับมันการใช้แผนการกระจายจะเป็นธรรมชาติ
Marcel

5
ฉันเป็นห่วงคุณอาจถามว่า :-) จริงๆแล้วความราบรื่นที่ดียังคงให้ความเข้าใจที่ดีได้ มันช่วยกระวนกระวายใจการตอบสนองเพื่อให้คุณสามารถทำการกระจาย นี่คือตัวอย่างของพล็อตดังกล่าว: stats.stackexchange.com/a/14501/919 ผมแสดงให้เห็นถึงวิธีการแก้ปัญหาอีกstats.stackexchange.com/a/138660/919
whuber

3
การถดถอยแบบ univariate นี้ก่อนเทคนิคการถดถอยแบบหลายตัวแปรเรียกว่า "การเลือกตัวแปรที่มีจุดมุ่งหมาย" ในหนังสือ Hosmer และ Lemeshow "Applied Logistic Regression"
Great38

7
ระวัง - ตัวแปรอาจไม่แสดงความสัมพันธ์ในการถดถอยที่ไม่แปรเปลี่ยน แต่มีความสำคัญในความสัมพันธ์หลายตัวแปร
Glen_b -Reinstate Monica

คำตอบ:


3

บริบทเชิงสาเหตุของการวิเคราะห์ของคุณคือตัวระบุที่สำคัญในคำถามของคุณ ในการคาดการณ์ให้เรียกใช้การถดถอยแบบไม่รวมค่าก่อนการถดถอยหลายครั้งด้วยจิตวิญญาณของ "วิธีการเลือกแบบเด็ดเดี่ยว" โดย Hosmer และ Lemenshow มีเป้าหมายเดียว ในกรณีของคุณที่ซึ่งคุณกำลังสร้างแบบจำลองเชิงสาเหตุการรันการถดถอยแบบไม่รวมค่าก่อนเรียกใช้การถดถอยหลายครั้งจะมีเป้าหมายที่แตกต่างกันโดยสิ้นเชิง ขอผมขยายต่อไป

คุณและอาจารย์ผู้สอนของคุณจะต้องมีกราฟสาเหตุที่แน่นอน กราฟเชิงสาเหตุมีความหมายที่ทดสอบได้ ภารกิจของคุณคือเริ่มต้นด้วยชุดข้อมูลที่คุณมีและเหตุผลกลับไปที่โมเดลเชิงสาเหตุที่อาจสร้างขึ้น การถดถอยแบบไม่แปรที่เขาแนะนำให้คุณเรียกใช้น่าจะเป็นขั้นตอนแรกในกระบวนการทดสอบผลกระทบของกราฟเชิงสาเหตุที่คุณมีอยู่ในใจ สมมติว่าคุณเชื่อว่าข้อมูลของคุณถูกสร้างขึ้นโดยโมเดลเชิงสาเหตุที่ปรากฎในกราฟด้านล่าง สมมติว่าคุณมีความสนใจในผลกระทบเชิงสาเหตุของ D ต่อ E กราฟด้านล่างแนะนำโฮสต์ของผลกระทบที่ทดสอบได้เช่น:

  • E คือ D ขึ้นอยู่กับแนวโน้ม
  • E และ A ขึ้นอยู่กับแนวโน้ม
  • E และ C น่าจะขึ้นอยู่กับ
  • E และ B มีแนวโน้มที่จะขึ้นอยู่กับ
  • E และ N มีแนวโน้มเป็นอิสระ

ป้อนคำอธิบายรูปภาพที่นี่

ฉันกล่าวว่านี่เป็นเพียงขั้นตอนแรกในกระบวนการค้นหาเชิงสาเหตุเพราะความสนุกที่แท้จริงจะเริ่มขึ้นเมื่อคุณเริ่มการถดถอยหลายครั้งการปรับตัวแปรต่าง ๆ และทดสอบว่าผลลัพธ์ของการถดถอยนั้นสอดคล้องกับความหมายของกราฟหรือไม่ ตัวอย่างเช่นกราฟข้างต้นแนะนำว่า E และ A ต้องเป็นอิสระเมื่อคุณทำเงื่อนไขกับ D หรือพูดอีกอย่างคือถ้าคุณถอยหลัง E บน D และ A และพบว่าสัมประสิทธิ์ของ A ไม่เท่ากับศูนย์คุณจะสรุปได้ว่า E ขึ้นอยู่กับ A หลังจากเงื่อนไขของคุณเป็น D แล้วดังนั้นกราฟเชิงสาเหตุต้องผิด มันจะให้คำแนะนำเกี่ยวกับวิธีการแก้ไขกราฟสาเหตุของคุณเนื่องจากผลลัพธ์ของการถดถอยนี้ชี้ให้เห็นว่าจะต้องมีเส้นทางระหว่าง A และ E ที่ไม่ได้แยกจาก D


1

ก่อนที่ฉันจะพยายามตอบฉันต้องการชี้ให้เห็นประเภทของข้อมูลและการกระจายของข้อมูลที่อาจมีผลต่อวิธีที่คุณประเมิน / ถอยหลัง / จำแนกมัน

นอกจากนี้คุณอาจต้องการดูที่นี่สำหรับวิธีการที่ปรึกษาของคุณอาจต้องการให้คุณใช้

พื้นหลังเล็กน้อย ในขณะที่ใช้เครื่องมือเลือกรูปแบบเป็นไปได้คุณยังต้องสามารถบอกได้ว่าเหตุใดจึงมีการใช้ตัวทำนายหรือปล่อยออกมา เครื่องมือเหล่านั้นอาจเป็นกล่องดำ คุณควรเข้าใจข้อมูลของคุณอย่างครบถ้วนและสามารถระบุได้ว่าเหตุใดจึงเลือกตัวพยากรณ์เฉพาะ (โดยเฉพาะอย่างยิ่งฉันถือว่าโครงการวิทยานิพนธ์ / ปริญญาโท)

ตัวอย่างเช่นดูที่ราคาบ้านและอายุ โดยทั่วไปราคาบ้านจะลดลงตามอายุ ดังนั้นเมื่อคุณเห็นบ้านเก่าที่มีราคาสูงในข้อมูลของคุณมันก็จะดูเหมือนว่าจะถูกลบออกไป แต่ก็ไม่ใช่ในกรณีนี้

ในฐานะที่เป็น (NB: ที่ปรึกษาของฉันได้กล่าวว่าเราไม่ได้ใช้ค่า p เป็นค่าลัด แต่เราต้องการพิจารณา "ทุกอย่าง") ค่า p ไม่ได้เป็นทั้งหมดและสิ้นสุดทุกอย่าง แต่จะมีประโยชน์ . การเรียกคืนอัลกอริธึม / โปรแกรม จำกัด และไม่สามารถดูภาพรวมทั้งหมดได้

เป็นสาเหตุที่ทำให้คุณไม่สามารถทำการถดถอยแต่ละตัวในการทำนาย / การรักษาแต่ละครั้งได้

สิ่งนี้อาจช่วยในการเลือกตัวทำนายที่จะรวมไว้ในโมเดลหลายตัวแปรพื้นฐาน จากแบบจำลองพื้นฐานนั้นคุณจะต้องดูว่าตัวทำนายเหล่านั้นมีความสำคัญและควรจะอยู่หรือไม่หรือถ้าพวกมันควรจะถูกลบออกโดยมีจุดประสงค์เพื่อให้ได้แบบจำลองที่น่าสังเวช

หรืออาจเป็นไปได้ที่คุณจะเข้าใจข้อมูลได้ดีขึ้น


1
ภรรยาของฉันและฉันซื้อบ้านเก่า แต่ไม่สามารถซื้อบ้านประวัติศาสตร์ได้ดังนั้นตัวอย่างของคุณจึงมีตัวอย่างง่ายๆ
Nick Cox

จริง ฉันหมายถึงพูดถึงราคาบ้านจริง ๆ ราคาบ้านโดยทั่วไปลดลงตามอายุอย่างไร ดังนั้นเมื่อคุณเห็นบ้านเก่าที่มีราคาสูงว่ามันจะดูเหมือนว่าจะถูกลบออกไป ฉันจะแก้ไขจุดนั้น ขอบคุณ.
Apocryphon

0

ฉันคิดว่าหัวหน้างานของคุณขอให้คุณทำการวิเคราะห์ข้อมูลเป็นครั้งแรกโดยมีวัตถุประสงค์เพื่อระบุว่าตัวแปรใดสามารถอธิบายความแปรปรวนของข้อมูลได้อย่างมีนัยสำคัญ

เมื่อคุณสรุปว่าตัวแปรใด ๆ สามารถอธิบายความแปรปรวนบางอย่างได้คุณจะสามารถประเมินว่ามันทำงานร่วมกันได้อย่างไรถ้าเป็นโคลิเนียร์หรือมีความสัมพันธ์กันเป็นต้นในขั้นตอนการสำรวจอย่างละเอียดเพื่อวิเคราะห์แบบหลายตัวแปร อาจทำให้การประเมินครั้งแรกยากขึ้นเพราะการสร้างตัวแปรแต่ละตัวคุณจะต้องลบผลกระทบของตัวแปรอื่น การประเมินว่าตัวแปรใดสามารถอธิบายการเปลี่ยนแปลงใด ๆ ได้ยากขึ้น


0

นั่นอาจเป็นวิธีที่จะเข้าใจข้อมูล แต่ประสบการณ์แสดงให้เห็นว่าการคาดการณ์จะแตกต่างกันเมื่อคุณใช้ตัวทำนายทั้งหมดรวมกันและตัวทำนายแต่ละตัวทีละตัว นั่นเป็นเพียงสิ่งที่เราเข้าใจความสามารถในการคาดการณ์ข้อมูลและเข้าใจสิ่งที่ต้องทำในขั้นตอนต่อไป
ฉันได้เห็นหลายครั้งเมื่อมีตัวแปรทั้งหมดค่า p บอกว่าตัวแปรบางอย่างไม่สำคัญ แต่ด้วยตัวแปรที่ไม่สำคัญเหล่านั้นเพียงอย่างเดียวพวกเขามีความสำคัญพอ นั่นเป็นเพราะผลกระทบแบบผสม: ไม่ใช่ว่าหัวหน้างานของคุณผิด แต่เพื่อทำความเข้าใจข้อมูลที่เราต้องทำ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.