การถดถอยปกติกับการถดถอยเมื่อตัวแปรต่างกัน


13

ฉันแค่พยายามที่จะเข้าใจว่าความสัมพันธ์ระหว่างการถดถอยแบบพหุ / แบบธรรมดากับการถดถอยแบบพหุ / แบบง่ายเมื่อตัวแปรแตกต่างกัน

ตัวอย่างเช่นฉันกำลังวิเคราะห์ความสัมพันธ์ระหว่างยอดเงินฝาก ( ) เทียบกับอัตราตลาด ( ) ถ้าฉันเรียกใช้การถดถอยเชิงเส้นอย่างง่ายความสัมพันธ์นั้นเป็นค่าลบและค่อนข้างสำคัญ (ประมาณ -.74) อย่างไรก็ตามถ้าฉันใช้บันทึกและ ความแตกต่างของตัวแปรตามและความแตกต่างของตัวแปรอิสระดังนั้นสมการของฉันคือที่ถดถอยด้วย , สหสัมพันธ์ของฉันและ R ^ 2 ไม่มีความหมายเลย ( )R T dYTRTddln(YT)R 2 = .004dR(T)R2=.004

ฉันแค่สงสัยว่าต่ำหมายถึงอะไร? นั่นหมายความว่าแบบจำลองของฉันไม่เหมาะสมหรือฉันไม่สนใจเมื่อฉันดูข้อมูลที่แตกต่างกันหรือไม่? ฉันรู้จากข้อมูลว่ามีความสัมพันธ์อย่างมีนัยสำคัญระหว่างตัวแปรดั้งเดิมสองตัว แต่สำหรับแบบจำลองของฉันฉันต้องดูตัวแปรที่แตกต่างกันดังนั้นเพียงแค่สงสัยว่าจะทำอย่างไรกับเรื่องนี้R 2R2R2

คำตอบ:


16

เวอร์ชั่นง่าย ๆ คือตัวแปรสองตัวที่มีแนวโน้มที่จะเปลี่ยนแปลงในทิศทางเดียวเมื่อเวลาผ่านไปจะมีความสัมพันธ์ไม่ว่าจะมีการเชื่อมต่อระหว่างกันหรือไม่ก็ตาม พิจารณาตัวแปรต่อไปนี้:

set.seed(1)
time = seq(from=1, to=100, by=1)
x  = .5 + .3*time +        rnorm(100)
y1 =  3 + .3*time +        rnorm(100)
y2 =  7 + .1*time + .8*x + rnorm(100)

y 1 y 2 x x y 2 x y 1xเป็นเพียงหน้าที่ของเวลาที่เป็นy1 เป็นหน้าที่ของทั้งเวลาและxประเด็นก็คือการรับรู้จากรหัสว่ามีจริงๆคือความสัมพันธ์ระหว่างและและว่าไม่มีความสัมพันธ์ระหว่างและy1ลองดูรูปต่อไปนี้ทั้งสามบรรทัดดูคล้ายกันมากเลยใช่ไหมy1y2xxy2xy1

ป้อนคำอธิบายรูปภาพที่นี่

ที่จริงแล้วค่าสำหรับความสัมพันธ์ระหว่างและคือ 98% และสำหรับและคือ 99% แต่เรารู้ว่าไม่มีความสัมพันธ์ที่แท้จริงระหว่างและในขณะที่มีระหว่างและ x y 1 R 2 x y 2 x y 1 x y 2R2xy1R2xy2xy1xy2แล้วเราจะแยกความแตกต่างของจริงออกจากลักษณะที่ปรากฏได้อย่างไร นั่นคือความแตกต่างที่เข้ามาสำหรับตัวแปรสองตัวใด ๆ เนื่องจากทั้งคู่มีแนวโน้มที่จะเพิ่มขึ้นเมื่อเวลาผ่านไปนั่นไม่ได้ให้ข้อมูลมากนัก แต่เมื่อมีการเพิ่มขึ้นตามจำนวนที่เฉพาะเจาะจง ความแตกต่างทำให้เราสามารถตอบคำถามนั้นได้ สังเกตุตัวเลขสองตัวต่อไปนี้ scatterplots ที่ฉันทำหลังจากสร้างความแตกต่างของตัวแปรทั้งสาม

ป้อนคำอธิบายรูปภาพที่นี่

ป้อนคำอธิบายรูปภาพที่นี่

ที่นี่เราเห็นได้อย่างชัดเจนว่าการรู้ว่า เพิ่มขึ้นเท่าใดบอกอะไรเราเกี่ยวกับจำนวนเพิ่มขึ้น ( ) แต่นี่ไม่ใช่กรณีสำหรับและ ( ) ดังนั้นคำตอบสำหรับคำถามของคุณคือคุณควรละเว้นความสัมพันธ์ระหว่างตัวแปรดั้งเดิมของคุณและดูตัวแปรที่แตกต่างกัน ระบุว่าของคุณคือ 0.004 ฉันจะบอกว่าไม่มีความสัมพันธ์ที่แท้จริง y 2 R 2 = .43 x y 1 R 2 = .07 R 2xy2R2=.43xy1R2=.07R2

บางประเด็นอื่น ๆ : ในภาพนี้ฉันเห็นว่าการเปลี่ยนแปลงเหล่านี้เกิดขึ้นพร้อมกัน ไม่มีอะไรผิดปกติกับมันและมันตามมาจากวิธีที่ฉันตั้งปัญหา แต่โดยปกติผู้คนจะสนใจเอฟเฟกต์ในบางช่วงเวลา (นั่นคือการเปลี่ยนแปลงในสิ่งหนึ่งในช่วงเวลาหนึ่งนำไปสู่การเปลี่ยนแปลงในสิ่งอื่นในภายหลัง) ที่สองคุณพูดถึงการบันทึกของหนึ่งในซีรีส์ของคุณ การบันทึกจะเปลี่ยนข้อมูลของคุณจากระดับเป็นอัตรา และเมื่อคุณแตกต่างคุณกำลังดูการเปลี่ยนแปลงของอัตรามากกว่าการเปลี่ยนแปลงในระดับ เป็นเรื่องปกติมาก แต่ฉันไม่ได้รวมองค์ประกอบนั้นไว้ในการสาธิต มันเป็นมุมฉากกับปัญหาที่ฉันพูดถึง ท้ายสุดฉันต้องการรับทราบว่าข้อมูลอนุกรมเวลามักมีความซับซ้อนมากกว่าการสาธิตของฉัน


10

@ gung เสนอคำตอบที่ดี แต่ฉันต้องการที่จะให้คำแนะนำบางอย่างกับสิ่งที่คุณกำลังแนะนำ

ความแตกต่างส่วนใหญ่จะใช้เพื่อต่อสู้กับปัญหาของหน่วยรากเช่นเมื่อกระบวนการคือ AR (1) ที่มีค่าสัมประสิทธิ์สหสัมพันธ์ของ 1 ความแตกต่างสามารถใช้อย่างมีประสิทธิภาพเพื่อลบแนวโน้มเวลาเชิงเส้นเมื่อคำผิดพลาดเป็นเสียงสีขาว (ใน โดยเฉพาะมันไม่มีความสัมพันธ์แบบอนุกรม) ตามที่ @ gung แสดงไว้ด้านบน แต่ถ้าคำผิดพลาดมีความสัมพันธ์แบบอนุกรมกับสัมประสิทธิ์สหสัมพันธ์น้อยกว่า 1 ในค่าสัมบูรณ์การใช้ความแตกต่างเพื่อลบแนวโน้มเวลาเชิงเส้นจะทำให้เกิดข้อผิดพลาดด้วยโครงสร้างที่ซับซ้อนมาก เป็นการยากที่จะได้รับข้อผิดพลาดมาตรฐานที่ถูกต้องและทำการอ้างถึงที่ถูกต้องในกรณีนี้

ดังนั้นควรทดสอบรูทยูนิตก่อนและหากตรวจพบจะทำการแก้ไขโดยใช้การแตกต่าง ถัดไปตรวจสอบแนวโน้มเวลาเชิงเส้น แก้ไขปัญหานี้ด้วยการทำให้เสียโฉม คุณจะเปิดไปยังปัญหาประเภทตัวแปรที่ละเว้นซึ่ง @gung แสดงให้เห็นอย่างชัดเจน


1
+1 นี่เป็นส่วนเสริมที่ดีสำหรับคำตอบของฉัน ฉันพยายามทำให้คำตอบของฉันง่ายและใช้งานง่าย อย่างไรก็ตามมันเป็นความจริงอย่างแน่นอนว่ามีความซับซ้อนมากกว่าที่ฉันพูดถึงและพวกเขาสามารถมีความสำคัญมาก ฉันควรจะยอมรับว่าในย่อหน้าสุดท้ายของฉัน ขอบคุณที่ทำให้ฉันซื่อสัตย์
gung - Reinstate Monica

1

เมื่อมีวัตถุประสงค์เพื่อจัดรูปแบบ / ระบุความสัมพันธ์ระหว่างสองซีรีส์หรือมากกว่าซีรีส์หนึ่งอาจจำเป็นต้องกรองตัวแปร X ที่อยู่กับที่เพื่อที่จะแปลงเป็นเสียงรบกวน นี่เป็นกระบวนการสองขั้นตอนคือต้องใช้ความแตกต่างและโครงสร้าง ARMA เพื่อรักษาความเป็นกลางและเพื่อหลีกเลี่ยง Model Specification Bias หนึ่งไม่ควรถือว่าตัวกรอง แต่สร้างตัวกรองนั้นโดยใช้ธรรมชาติที่สัมพันธ์กันโดยอัตโนมัติของซีรีย์ X นิ่ง จากนั้นจะนำชุด Y และใช้สิ่งที่ผู้ประกอบการที่แตกต่างมีความจำเป็นเพื่อให้มันหยุดนิ่งแล้วใช้ตัวกรองที่พัฒนาก่อนหน้านี้กับเครื่องเขียน Y ขั้นตอนนี้มีวัตถุประสงค์หนึ่งเดียวเท่านั้นและนั่นคือการระบุความสัมพันธ์ระหว่าง Y และ X หนึ่งไม่ควรข้ามไปยังข้อสรุปเกี่ยวกับผู้ประกอบการที่แตกต่างกันที่ต้องการ ตัวกรอง ARMA และความสัมพันธ์ระหว่างตัวแปรยกเว้นว่าใครเป็นนักเศรษฐศาสตร์ที่รู้จักรูปแบบก่อนที่พวกเขาจะสังเกตข้อมูลหรือถ้าคุณพูดกับผู้มีอำนาจโดยตรง การวิเคราะห์อย่างรอบคอบเกี่ยวกับมาตรฐานของข้อผิดพลาดที่จำเป็นต้องเชื่อว่าการทดสอบทางสถิติใด ๆ ที่อาจคำนวณได้ การคำนวณการทดสอบ F / การทดสอบ T เป็นสิ่งจำเป็น แต่ไม่เพียงพอ โดยสรุปฉันขอแนะนำให้คุณติดตามเรื่องของ "วิธีการระบุรูปแบบฟังก์ชั่นการถ่ายโอน" คนอื่นและฉันได้กล่าวถึงเรื่องนี้หลายครั้ง หากคุณต้องการคุณสามารถอ่านคำตอบของคำถามที่มีแท็ก "อนุกรมเวลา" แนบมาด้วย ในฐานะที่เป็นโยคีกล่าวว่า "คุณสามารถสังเกตได้มากโดยเพียงแค่อ่าน / ดู" บางครั้งคำตอบที่ดีและเรียบง่ายอาจนำคุณไปสู่การหลงทางและคำตอบที่อาจซับซ้อน / อนุรักษ์เกินไปเช่นของฉันอาจทำให้คุณต้องพัฒนาความเข้าใจที่ดีขึ้นของการสร้างแบบจำลองข้อมูลอนุกรมเวลา ดังที่ครั้งหนึ่งเคยพูดว่า "โตโต้เราไม่ได้อยู่ในแคนซัส (เช่นข้อมูลตัดขวาง) อีกต่อไป!"

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.