ขนาดผลการถดถอยเชิงเส้นเมื่อใช้ตัวแปรที่แปลงแล้ว


9

เมื่อดำเนินการถดถอยเชิงเส้นมักจะมีประโยชน์ในการทำการแปลงเช่นการแปลงบันทึกสำหรับตัวแปรตามเพื่อให้บรรลุโครงสร้างการกระจายปกติดีขึ้น บ่อยครั้งที่มันยังมีประโยชน์ในการตรวจสอบเบต้าจากการถดถอยเพื่อประเมินขนาดเอฟเฟกต์ / ความเกี่ยวข้องที่แท้จริงของผลลัพธ์

สิ่งนี้ทำให้เกิดปัญหาเมื่อใช้เช่นการแปลงบันทึกขนาดของเอฟเฟกต์จะอยู่ในสเกลบันทึกและฉันได้รับการบอกว่าเนื่องจากความไม่เป็นเชิงเส้นของสเกลที่ใช้แล้วการเปลี่ยนรูปกลับของเบต้าเหล่านี้จะทำให้ค่าที่ไม่มีความหมาย ไม่มีการใช้งานจริงใด ๆ

จนถึงตอนนี้เรามักจะดำเนินการถดถอยเชิงเส้นด้วยตัวแปรแปลงเพื่อตรวจสอบความสำคัญแล้วจากนั้นถดถอยเชิงเส้นกับตัวแปรที่ไม่ได้เปลี่ยนรูปแบบเดิมเพื่อกำหนดขนาดของผลกระทบ

มีวิธีที่ถูก / ดีกว่าในการทำเช่นนี้? ส่วนใหญ่เราทำงานกับข้อมูลทางคลินิกดังนั้นตัวอย่างชีวิตจริงจะพิจารณาว่าการสัมผัสที่แน่นอนส่งผลต่อตัวแปรเช่นความสูงน้ำหนักหรือการวัดในห้องปฏิบัติการอย่างไรและเราต้องการสรุปบางสิ่งเช่น "การเปิดรับ A มีผลกระทบ ของการเพิ่มน้ำหนัก 2 กก. "

คำตอบ:


5

ฉันขอแนะนำว่าการเปลี่ยนแปลงไม่สำคัญที่จะได้รับการแจกแจงแบบปกติสำหรับข้อผิดพลาดของคุณ ความเป็นปกติไม่ใช่ข้อสมมติฐานที่จำเป็น หากคุณมีข้อมูล "เพียงพอ" ทฤษฎีบทขีด จำกัด กลางจะเริ่มทำงานและการประมาณการมาตรฐานของคุณจะกลายเป็นปกติแบบไม่แสดงอาการ หรือคุณสามารถใช้การบูตสแตรปปิ้งเป็นวิธีที่ไม่ใช้พารามิเตอร์เพื่อประเมินข้อผิดพลาดมาตรฐาน (Homoskedasticity ความแปรปรวนทั่วไปสำหรับการสังเกตข้ามหน่วยเป็นสิ่งจำเป็นสำหรับข้อผิดพลาดมาตรฐานของคุณให้ถูกต้องตัวเลือกที่แข็งแกร่งช่วยให้ heteroskedasticity)

แต่การแปลงจะช่วยให้แน่ใจว่าแบบจำลองเชิงเส้นเหมาะสม เพื่อให้ความรู้สึกนี้ลองพิจารณาวิธีที่เราสามารถตีความค่าสัมประสิทธิ์ในโมเดลที่แปลงแล้ว:

  • ผลลัพธ์คือหน่วย, ตัวทำนายคือหน่วย: การเปลี่ยนแปลงหนึ่งหน่วยในตัวทำนายนำไปสู่การเปลี่ยนแปลงหน่วยเบต้าในผลลัพธ์
  • ผลลัพธ์ในหน่วยตัวทำนายในหน่วยบันทึก: การเปลี่ยนแปลงหนึ่งเปอร์เซ็นต์ในตัวทำนายนำไปสู่การเปลี่ยนแปลงหน่วยเบต้า / 100 ในผลลัพธ์
  • ผลลัพธ์ในหน่วยบันทึกการคาดการณ์ในหน่วย: การเปลี่ยนแปลงหนึ่งหน่วยในตัวทำนายนำไปสู่การเปลี่ยนแปลงเบต้า x 100% ในผลลัพธ์
  • ผลลัพธ์ในหน่วยบันทึกการคาดการณ์ในหน่วยบันทึก: การเปลี่ยนแปลงหนึ่งเปอร์เซ็นต์ในตัวทำนายจะนำไปสู่การเปลี่ยนแปลงเปอร์เซ็นต์เบต้าในผลลัพธ์

หากจำเป็นต้องมีการแปลงเพื่อให้แบบจำลองของคุณสมเหตุสมผล (เช่นสำหรับการวางเชิงเส้นตรง) ดังนั้นการประเมินจากแบบจำลองนี้ควรใช้สำหรับการอนุมาน การประมาณการจากแบบจำลองที่คุณไม่เชื่อว่าไม่เป็นประโยชน์ การตีความข้างต้นค่อนข้างมีประโยชน์ในการทำความเข้าใจการประมาณการจากแบบจำลองที่แปลงแล้วและมักจะเกี่ยวข้องกับคำถามในมือมากกว่า ตัวอย่างเช่นนักเศรษฐศาสตร์เช่นสูตร log-log เพราะการตีความเบต้าเป็นความยืดหยุ่นซึ่งเป็นมาตรการสำคัญทางเศรษฐศาสตร์

ฉันต้องการเพิ่มว่าการแปลงกลับไม่ทำงานเนื่องจากความคาดหวังของฟังก์ชันไม่ใช่ฟังก์ชันของความคาดหวัง บันทึกของค่าที่คาดหวังของเบต้าไม่ใช่ค่าที่คาดหวังของบันทึกของเบต้า ดังนั้นตัวประมาณของคุณจึงไม่เอนเอียง สิ่งนี้จะทำให้เกิดข้อผิดพลาดมาตรฐานเช่นกัน


2

คำตอบสั้น: ถูกต้องแน่นอนการแปลงกลับของค่าเบต้านั้นไม่มีความหมาย อย่างไรก็ตามคุณสามารถรายงานความไม่เป็นเชิงเส้นเป็นสิ่งที่ต้องการ "ถ้าคุณมีน้ำหนัก 100 กิโลกรัมการกินเค้กสองชิ้นต่อวันจะเพิ่มน้ำหนักของคุณประมาณ 2 กิโลกรัมในหนึ่งสัปดาห์อย่างไรก็ตามถ้าคุณมีน้ำหนัก 200 กิโลกรัมน้ำหนักของคุณจะเพิ่มขึ้น 2.5 กก. ดูรูปที่ 1 สำหรับการพรรณนาถึงความสัมพันธ์ที่ไม่ใช่เชิงเส้นนี้ รูปที่ 1 แสดงเส้นโค้งที่พอดีกับข้อมูลดิบ) "

คำตอบยาว:

ความหมายของค่าที่แปลงกลับมีความแตกต่างกันไป แต่เมื่อทำอย่างถูกต้องมักจะมีความหมายบางอย่าง

หากคุณมีการถดถอยของค่าบันทึกธรรมชาติบนตัวทำนายสองตัวที่มีค่าเบต้าเท่ากับ 0.13 และค่าตัดเท่ากับ 7.0 ดังนั้นการแปลงกลับที่ 0.13 (1.14) นั้นไม่มีความหมายมากนัก ถูกต้อง. อย่างไรก็ตามการแปลงกลับของ 7.13 จะเป็นค่าที่สามารถตีความได้ด้วยความหมายบางอย่าง จากนั้นคุณสามารถลบการแปลงกลับเป็น 7.0 และเหลือค่าที่เหลือซึ่งเป็นเอฟเฟกต์ของคุณในระดับที่มีความหมาย (152.2) หากคุณต้องการดูค่าที่คาดการณ์ไว้คุณจะต้องคำนวณค่าทั้งหมดก่อนในค่าบันทึกจากนั้นเปลี่ยนรูปใหม่ สิ่งนี้จะต้องทำแยกต่างหากสำหรับทุกค่าที่คาดการณ์และส่งผลให้เกิดเส้นโค้งหากกราฟ

การทำเช่นนี้มักจะสมเหตุสมผลหากการเปลี่ยนแปลงของคุณมีผลกระทบค่อนข้างน้อยต่อข้อมูลของคุณ การแปลงบันทึกเวลาปฏิกิริยาเป็นค่าชนิดหนึ่งที่สามารถแปลงกลับได้ เมื่อทำอย่างถูกต้องคุณจะพบว่าค่าดูใกล้เคียงกับค่ามัธยฐานที่ทำการคำนวณอย่างง่าย ๆ กับข้อมูลดิบ

แม้ว่าจะต้องระมัดระวังในการโต้ตอบและไม่โต้ตอบ ค่าสัมพัทธ์จะแตกต่างกันไปตามสเกล การวิเคราะห์มีความอ่อนไหวต่อค่าบันทึกในขณะที่ค่าที่แปลงกลับอาจแสดงรูปแบบที่แตกต่างกันซึ่งทำให้การโต้ตอบดูเหมือนว่าพวกเขาไม่ควรอยู่ที่นั่นหรือในทางกลับกัน กล่าวอีกนัยหนึ่งคุณสามารถกลับมาเปลี่ยนแปลงสิ่งต่าง ๆ ที่เปลี่ยนแปลงข้อมูลได้เล็กน้อยตราบใดที่คุณระมัดระวัง

การเปลี่ยนแปลงบางอย่างเช่นการแปลงความน่าจะเป็นลอจิสติกสามารถมีผลกระทบค่อนข้างมากโดยเฉพาะอย่างยิ่งใกล้ถึงจุดสิ้นสุดของขนาด ตัวอย่างของสถานที่ที่คุณไม่ควรแปลงกลับมาเป็นพล็อตปฏิสัมพันธ์ใกล้ระดับความน่าจะเป็นสูงหรือต่ำสุด


2

คำถามคือเกี่ยวกับผลกระทบเล็กน้อย (ของ X ต่อ Y) ฉันคิดว่าไม่มากเกี่ยวกับการตีความค่าสัมประสิทธิ์ของแต่ละบุคคล ตามที่ชาวบ้านได้ตั้งข้อสังเกตไว้อย่างเป็นประโยชน์บางครั้งสิ่งเหล่านี้สามารถระบุได้ด้วยขนาดของเอฟเฟกต์เช่นเมื่อมีความสัมพันธ์แบบเส้นตรงและแบบเสริม

หากนั่นคือจุดสนใจวิธีการที่ง่ายที่สุดในการคิดเกี่ยวกับปัญหาน่าจะเป็นดังนี้:

ในการรับผลกระทบเล็กน้อยของ X ใน Y ในรูปแบบการถดถอยปกติแบบเชิงเส้นโดยไม่มีการโต้ตอบคุณสามารถดูค่าสัมประสิทธิ์บน X ได้ แต่นั่นก็ไม่เพียงพอเพราะคาดว่าไม่เป็นที่รู้จัก ไม่ว่าในกรณีใดสิ่งที่เราต้องการสำหรับผลกระทบส่วนใหญ่คือพล็อตหรือบทสรุปบางอย่างที่ให้การทำนายเกี่ยวกับ Y ในช่วงของค่า X และการวัดความไม่แน่นอน โดยทั่วไปแล้วคนหนึ่งอาจต้องการค่าเฉลี่ยที่คาดการณ์ไว้ Y และช่วงความเชื่อมั่น แต่ก็อาจต้องการการคาดการณ์สำหรับการแจกแจงแบบมีเงื่อนไขที่สมบูรณ์ของ Y สำหรับ X การกระจายนั้นนั้นกว้างกว่าการประเมินซิกมาของโมเดลที่พอดีเพราะคำนึงถึงความไม่แน่นอน .

มีโซลูชั่นแบบปิดหลายแบบสำหรับแบบง่าย ๆ เช่นนี้ เพื่อจุดประสงค์ในปัจจุบันเราสามารถเพิกเฉยและคิดแทนโดยทั่วไปเกี่ยวกับวิธีหากราฟผลกระทบส่วนเพิ่มโดยการจำลองในลักษณะที่เกี่ยวข้องกับตัวแบบที่ซับซ้อนโดยพลการ

สมมติว่าคุณต้องการให้เอฟเฟกต์ของการเปลี่ยนแปลง X บนค่าเฉลี่ยของ Y และคุณยินดีที่จะแก้ไขตัวแปรอื่น ๆ ทั้งหมดในค่าที่มีความหมายบางอย่าง สำหรับค่าใหม่แต่ละค่าของ X ให้นำตัวอย่างขนาด B จากการกระจายค่าสัมประสิทธิ์ของโมเดล วิธีง่ายๆในการทำเช่นนั้นในการวิจัยคือการคิดว่ามันเป็นเรื่องปกติที่มีค่าเฉลี่ยและความแปรปรวนเมทริกซ์coef(model) vcov(model)คำนวณ Y ที่คาดหวังใหม่สำหรับค่าสัมประสิทธิ์แต่ละชุดและสรุปล็อตด้วยช่วงเวลา จากนั้นไปยังค่า X ถัดไป

สำหรับฉันแล้วดูเหมือนว่าวิธีนี้ไม่ควรได้รับผลกระทบใด ๆ จากการแปลงแฟนซีที่นำไปใช้กับตัวแปรใด ๆ หากคุณยังใช้พวกเขา (หรือผู้รุกราน) ในแต่ละขั้นตอนการสุ่มตัวอย่าง ดังนั้นถ้าโมเดลที่ติดตั้งมี log (X) เป็นตัวทำนายให้ทำการบันทึก X ใหม่ของคุณก่อนที่จะคูณด้วยสัมประสิทธิ์ตัวอย่าง หากโมเดลที่ติดตั้งนั้นมี sqrt (Y) เป็นตัวแปรตามให้ยกกำลังสองแต่ละค่าเฉลี่ยที่คาดการณ์ไว้ในตัวอย่างก่อนที่จะสรุปพวกเขาเป็นช่วงเวลา

ในระยะสั้นการเขียนโปรแกรมมากขึ้น แต่การคำนวณความน่าจะเป็นน้อยกว่าและผลกระทบส่วนเพิ่มที่เข้าใจได้ทางคลินิก วิธีการนี้บางครั้งเรียกว่า CLARIFY ในวรรณคดีรัฐศาสตร์ แต่โดยทั่วไปค่อนข้างมาก

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.