โมเดลเชิงเส้น Heteroscedasticity


10

ฉันมีโมเดลเชิงเส้นต่อไปนี้:

ตัวแบบเชิงเส้น การสังเกตการกระจาย

เพื่อแก้ไขปัญหาความแตกต่างแบบตกค้างฉันพยายามใช้การแปลงบันทึกกับตัวแปรตามเป็นแต่ฉันยังคงเห็นแฟน ๆ มีผลต่อส่วนที่เหลือ ค่า DV มีขนาดค่อนข้างเล็กดังนั้นการเพิ่มค่าคงที่ +1 ก่อนที่จะบันทึกอาจไม่เหมาะสมในกรณีนี้log(Y+1)

> summary(Y)
Min.   :-0.0005647  
1st Qu.: 0.0001066  
Median : 0.0003060  
Mean   : 0.0004617  
3rd Qu.: 0.0006333  
Max.   : 0.0105730  
NA's   :30.0000000

ฉันจะแปลงตัวแปรเพื่อปรับปรุงข้อผิดพลาดการทำนายและความแปรปรวนได้อย่างไรโดยเฉพาะอย่างยิ่งสำหรับค่าที่เหมาะสมที่สุด

คำตอบ:


11

เป้าหมายของคุณคืออะไร เรารู้ว่า heteroskedasticity ไม่ได้มีอคติกับค่าสัมประสิทธิ์ของเรา มันทำให้ข้อผิดพลาดมาตรฐานของเราไม่ถูกต้องเท่านั้น ดังนั้นหากคุณสนใจเพียงความพอดีของแบบจำลองเท่านั้นความแตกต่างของความแตกต่างก็ไม่สำคัญ

คุณสามารถรับแบบจำลองที่มีประสิทธิภาพมากขึ้น ( เช่นรุ่นที่มีข้อผิดพลาดมาตรฐานน้อยกว่า) หากคุณใช้กำลังสองน้อยที่สุด ในกรณีนี้คุณต้องประเมินความแปรปรวนสำหรับการสังเกตแต่ละครั้งและน้ำหนักการสังเกตแต่ละครั้งโดยการผกผันของความแปรปรวนเฉพาะการสังเกตการณ์นั้น (ในกรณีของการweightsโต้แย้งถึงlm) ขั้นตอนการประเมินนี้จะเปลี่ยนการประมาณของคุณ

อีกวิธีหนึ่งเพื่อแก้ไขข้อผิดพลาดมาตรฐานสำหรับความแตกต่างโดยไม่ต้องเปลี่ยนประมาณการของคุณคุณสามารถใช้ข้อผิดพลาดมาตรฐานที่แข็งแกร่ง สำหรับแอพลิเคชันดูแพคเกจRsandwich

การใช้การแปลงการบันทึกอาจเป็นวิธีการที่ดีในการแก้ไขความแตกต่างของ heteroskedasticity แต่ถ้าค่าทั้งหมดของคุณเป็นค่าบวกและรูปแบบใหม่ให้การตีความที่สมเหตุสมผลเมื่อเทียบกับคำถามที่คุณถาม


เป้าหมายหลักของฉันคือการลดข้อผิดพลาด ฉันจะต้องมองหาช่องสี่เหลี่ยมที่มีน้ำหนักน้อยที่สุด แต่ฉันรู้สึกว่าการแปลง DV เป็นขั้นตอนที่ถูกต้องเพราะความแปรปรวนที่เหลือจะเพิ่มขึ้นเป็นประจำสำหรับค่าติดตั้งที่สูงขึ้น
Robert Kubrick

คุณหมายถึง "ลดข้อผิดพลาด" หมายความว่าอย่างไร ข้อผิดพลาดเฉลี่ยคือ 0 แม้จะมองในแปลงของคุณในหน้าต่างใด ๆ ที่คุณเลือกค่าเฉลี่ยคือ 0
Charlie

ฉันหมายถึงการปรับปรุงการทำนายของโมเดลนั่นคือลดข้อผิดพลาดสัมบูรณ์โดยรวมและความแปรปรวนข้อผิดพลาดโดยเฉพาะอย่างยิ่งสำหรับค่าติดตั้งที่สูงขึ้น
Robert Kubrick

1
สมมติว่าคุณสามารถแปลงในลักษณะที่ลด heteroskedasticity หากคุณต้องการทำนายคุณจะต้องใช้อินเวอร์สของการแปลงนั้นทำให้เกิดปัญหาความแตกต่างกลับคืนมา แปลงจะมีการปรับถ้าสิ่งที่คุณดูแลเกี่ยวกับค่าสัมประสิทธิ์ แต่จะไม่ได้ไปช่วยคุณถ้าคุณกำลังพยายามที่จะคาดการณ์ปีY Yyyy
Charlie

1
ฉันเดาว่าคุณไม่ต้องการทำนายการแปลงใช่ไหม? อย่างมีประสิทธิภาพการแปลงของคุณจะต้องลดระยะห่างระหว่างในระดับเดิมของคุณ คุณสร้างช่วงการทำนายในสเกลที่แปลงที่มีความกว้างใกล้เคียงกันในค่าแปลงแล้ว แต่เมื่อคุณเลิกทำการแปลงการแปลงช่วงการทำนายจะขยายไปยังสเกลดั้งเดิม y y y yyyyy
Charlie

4

คุณต้องการที่จะลองเปลี่ยนแปลง Box-Cox มันเป็นรุ่นของการแปลงพลังงาน:

˙y

y{yλ1λ(y˙)λ1,λ0y˙lny,λ=0
โดยที่คือค่าเฉลี่ยทางเรขาคณิตของข้อมูล เมื่อใช้เป็นการเปลี่ยนแปลงของตัวแปรตอบกลับบทบาทที่กำหนดของมันคือการทำให้ข้อมูลใกล้เคียงกับการแจกแจงแบบปกติมากขึ้นและความเบ้เป็นสาเหตุหลักที่ทำให้ข้อมูลดูไม่ปกติ ความรู้สึกของฉันกับแผนการกระจายของคุณคือมันจำเป็นต้องใช้กับ (บางส่วน) ตัวแปรอธิบายและการตอบสนองy˙

การสนทนาก่อนหน้านี้บางอย่างรวมถึงการแปลง normalizing อื่น ๆ ที่ใช้กันโดยทั่วไปนอกเหนือจากการสนทนาทั่วไปเช่นสแควร์รูท, บันทึกเป็นต้น และฉันจะแปลงข้อมูลที่ไม่เป็นลบรวมถึงศูนย์ได้อย่างไร? . คุณสามารถค้นหารหัส R ตามวิธีการค้นหาขั้นตอนทางสถิติใน R?

นักเศรษฐศาสตร์เศรษฐีหยุดกังวลเกี่ยวกับ heteroskedasticity หลังจากงานน้ำเชื้อของ Halbert White (1980) ในการตั้งค่าขั้นตอนการอนุมานที่แข็งแกร่งเพื่อ heteroskedasticity (ซึ่งในความเป็นจริงเพียงแค่เล่าเรื่องก่อนหน้านี้โดยนักสถิติเอฟ Eicker (1967)) ดูหน้า Wikipediaที่ฉันเพิ่งเขียนซ้ำ


ขอบคุณ ณ จุดนี้ฉันกำลังถกเถียงกันว่าจะใช้การแปลงพลังงานหรือใช้การถดถอยที่แข็งแกร่งเพื่อลดข้อผิดพลาดและปรับปรุงช่วงการทำนาย ฉันสงสัยว่าทั้งสองเทคนิคเปรียบเทียบกันอย่างไร นอกจากนี้หากฉันใช้การแปลงฉันจะต้องแปลงค่าที่ทำนายไว้ มันดูไม่เหมือนสูตรที่ชัดเจนใช่ไหม?
Robert Kubrick

หากการถดถอยที่สมบูรณ์แสดงว่าคุณหมายถึงข้อผิดพลาดมาตรฐานที่มีประสิทธิภาพตามที่ @StasK อธิบายว่าจะไม่เปลี่ยนค่าส่วนที่เหลือ / ข้อผิดพลาดเลย สัมประสิทธิ์เป็นเหมือนกับ OLS ให้เหลือเหมือนเดิมทุกประการ ข้อผิดพลาดมาตรฐานของสัมประสิทธิ์เปลี่ยนแปลงและมักจะมีขนาดใหญ่กว่า OLS SE ช่วงเวลาการคาดการณ์ได้รับการปรับปรุงเมื่อคุณใช้ข้อผิดพลาดมาตรฐานที่ถูกต้องสำหรับค่าสัมประสิทธิ์ของคุณ หากเป้าหมายของคุณคือการทำนายคุณควรยึดตัวแบบเชิงเส้นและใช้เทคนิคที่ฉันพูดถึงในคำตอบของฉัน y
Charlie

@Charlie ผมหมายถึงen.wikipedia.org/wiki/Robust_regression ฉันยังใหม่กับสิ่งนี้ แต่ฉันเข้าใจว่าการถดถอยที่แข็งแกร่งเปลี่ยนเทคนิคการประมาณค่าดังนั้นค่าที่เหลือจะต้องแตกต่างกัน
Robert Kubrick

ใช่นั่นเป็นวิธีการที่แตกต่างและเปลี่ยนแปลงประมาณการของคุณ ฉันคิดว่าการถดถอยที่แข็งแกร่งเหมาะกับกรณีที่มีผู้ผิด ขึ้นอยู่กับเวอร์ชันของการถดถอยที่มีประสิทธิภาพที่คุณตัดสินใจใช้และชุดข้อมูลเฉพาะของคุณคุณสามารถรับช่วงความมั่นใจที่กว้างขึ้นเมื่อเทียบกับ OLS
Charlie

1

มีวิธีแก้ไขปัญหา heteroskedasticity ง่าย ๆ ที่เกี่ยวข้องกับตัวแปรตามในชุดข้อมูลเวลา ฉันไม่รู้ว่าสิ่งนี้ใช้ได้กับตัวแปรตามของคุณหรือไม่ สมมติว่าเป็นแทนการใช้ Y เล็กน้อยจะเปลี่ยนเป็น% การเปลี่ยนแปลงใน Y จากช่วงเวลาปัจจุบันในช่วงก่อนหน้า ตัวอย่างเช่นสมมติว่า Y ที่ระบุของคุณคือ GDP ที่ 14 ล้านล้านเหรียญในช่วงเวลาปัจจุบันที่สุด ให้คำนวณการเปลี่ยนแปลงของจีดีพีในช่วงที่ผ่านมา (สมมติว่า 2.5%)

อนุกรมเวลาที่ระบุจะเพิ่มขึ้นเสมอและมักจะเป็น heteroskedastic (ความแปรปรวนของข้อผิดพลาดจะเพิ่มขึ้นเมื่อเวลาผ่านไปเนื่องจากค่าจะเพิ่มขึ้น) ชุดการเปลี่ยนแปลง% มักจะเป็น homoskedastic เพราะตัวแปรตามค่อนข้างนิ่ง


ค่าฉันใช้เวลาเป็นชุด% การเปลี่ยนแปลงจากช่วงก่อนหน้า Y
Robert Kubrick

มันน่าประหลาดใจมาก โดยปกติแล้วตัวแปรการเปลี่ยนแปลง% ไม่ใช่ heteroskedastic ฉันสงสัยว่าสารตกค้างน้อยกว่า heteroskedastic หรือไม่ และปัญหาพื้นฐานนั้นเป็นหนึ่งในค่าผิดปกติ ฉันเห็นการสังเกต 4 หรือ 5 ครั้งในช่วง 0.15% ซึ่งหากลบออกไปจะทำให้กราฟทั้งหมดดูน้อยลง เช่นเดียวกับที่คนอื่น ๆ ได้กล่าวถึงความแตกต่าง heteroskedasticity จะไม่เสียหายค่าสัมประสิทธิ์การถดถอยของคุณ แต่เพียงช่วงเวลาความมั่นใจของคุณและข้อผิดพลาดมาตรฐานที่เกี่ยวข้อง อย่างไรก็ตามการดูกราฟของคุณดูเหมือนว่า CIs อาจไม่ได้รับผลกระทบมากเกินไป และยังคงมีประโยชน์
Sympa
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.