ความหมายและขอบเขตของแบบจำลองการถดถอย


13

คำถามง่ายๆที่น่าอาย - แต่ดูเหมือนว่ายังไม่ได้ถามคำถามเกี่ยวกับ Cross Validated มาก่อน:

  1. คำจำกัดความของตัวแบบการถดถอยคืออะไร?

นอกจากนี้ยังมีคำถามสนับสนุน

  1. อะไรคือสิ่งที่ไม่ได้ตัวแบบการถดถอยหรือไม่?

สำหรับเรื่องหลังนั้นฉันสนใจตัวอย่างที่ยุ่งยากซึ่งคำตอบไม่ชัดเจนในทันทีเช่น ARIMA หรือ GARCH

คำตอบ:


9

ฉันจะบอกว่า "ตัวแบบการถดถอย" เป็นประเภทของเมตาแนวคิดในแง่ที่ว่าคุณจะไม่พบคำจำกัดความของ "แบบจำลองการถดถอย" แต่แนวคิดที่เป็นรูปธรรมมากขึ้นเช่น "การถดถอยเชิงเส้น", "การถดถอยเชิงเส้น" "การถดถอยที่แข็งแกร่ง" และอื่น ๆ เช่นเดียวกับในวิชาคณิตศาสตร์เรามักจะไม่นิยาม "หมายเลข" แต่ "จำนวนธรรมชาติ", "จำนวนเต็ม", "จำนวนจริง", "หมายเลข p-adic" เป็นต้นและหากมีใครต้องการรวม จำนวน quaternions ดังนั้นไม่ว่าจะเป็น! มันไม่สำคัญหรอกสิ่งสำคัญคือหนังสือ / กระดาษที่คุณใช้อ่านคำจำกัดความในขณะนี้

คำจำกัดความเป็นเครื่องมือและสิ่งสำคัญยิ่งที่กล่าวถึงสิ่งที่เป็นสาระสำคัญของ ... สิ่งที่คำว่าหมายถึงอะไรจริง ๆแล้วไม่ค่อยคุ้มค่า

แล้วอะไรคือ "แบบจำลองการถดถอย" จากแบบจำลองทางสถิติชนิดอื่น ๆ ส่วนใหญ่ว่ามีตัวแปรตอบสนองที่คุณต้องการที่จะเป็นรูปแบบอิทธิพลจาก (หรือกำหนดโดย) ชุดของบางตัวแปร เราไม่สนใจที่จะมีอิทธิพลต่อทิศทางอื่นและเราไม่สนใจความสัมพันธ์ระหว่างตัวแปรทำนาย ส่วนใหญ่เราใช้ตัวแปรตัวทำนายตามที่กำหนดและถือว่าเป็นค่าคงที่ในโมเดลไม่ใช่ตัวแปรสุ่ม

ความสัมพันธ์ที่กล่าวถึงข้างต้นอาจเป็นแบบเส้นตรงหรือไม่เชิงเส้นระบุในลักษณะพารามิเตอร์หรือไม่แปรและอื่น ๆ

ในการวิเคราะห์จากแบบจำลองอื่น ๆ เราควรดูคำอื่น ๆ ที่มักจะใช้เพื่อแสดงถึงสิ่งที่แตกต่างกันสำหรับ "ตัวแบบการถดถอย" เช่น "ข้อผิดพลาดในตัวแปร" เมื่อเรายอมรับความเป็นไปได้ของข้อผิดพลาดการวัดในตัวแปรทำนาย ซึ่งอาจรวมอยู่ในคำอธิบายของฉันเกี่ยวกับ "แบบจำลองการถดถอย" ด้านบน แต่มักใช้เป็นแบบจำลองทางเลือก

นอกจากนี้สิ่งที่มีความหมายอาจแตกต่างกันไปในแต่ละฟิลด์ดูความแตกต่างระหว่างการปรับสภาพของ regressors กับการปฏิบัติต่อพวกมันคงที่คืออะไร

ในการทำซ้ำ: สิ่งที่สำคัญคือคำจำกัดความที่ใช้โดยผู้แต่งที่คุณกำลังอ่านอยู่ตอนนี้และไม่ใช่อภิปรัชญาเกี่ยวกับสิ่งที่ "เป็นจริง"


1
ฉันเห็นด้วยกับสาระสำคัญของคำตอบของคุณ คำถามของฉันถูกกระตุ้นโดยพบข้อความเกี่ยวกับแบบจำลองการถดถอยที่ทำให้ฉันสงสัยว่าคำสั่งนั้นใช้กับอะไร (และสิ่งที่มันใช้ไม่ได้) แน่นอนตอนนี้คุณสามารถพูดได้ว่า "ใช้วิจารณญาณที่ดีที่สุดของคุณและตรวจสอบรายละเอียดอย่างรอบคอบ" แต่บางครั้งฉันอาจต้องการที่จะปฏิเสธคำแถลงที่ตั้งสมมติฐานไว้ทันทีว่ามันไม่เป็นความจริงโดยทั่วไป . จากนั้นฉันต้องการคำจำกัดความเพื่ออ้างถึง แน่นอนว่ามีสถานการณ์ดังกล่าวมากขึ้นที่การนิยามที่แม่นยำมีประโยชน์
Richard Hardy

1
จากนั้นคุณ shouls ถามคำถามเฉพาะเกี่ยวกับการใช้งานที่คุณได้พบกับการอ้างอิง
kjetil b halvorsen

2
ฉันไม่ได้ตั้งใจจะจู้จี้จุกจิก แต่คิดว่า: มีคนถามคุณว่าคุณกำลังทำอะไรคุณพูดว่า "ฉันกำลังวิเคราะห์ / พยากรณ์ / ทดสอบ [บางสิ่ง] โดยใช้แบบจำลองการถดถอย" - "รูปแบบการถดถอยคืออะไร" -- (ความเงียบ). หรือสถานการณ์ในระดับเบื้องต้นเศรษฐ: "ศาสตราจารย์สิ่งที่เป็น ? รูปแบบการถดถอย" -- (ไม่มีคำตอบ). ฉันคิดว่าสิ่งเหล่านี้เป็นคำถามที่เป็นธรรมชาติมากดังนั้นจึงเป็นการดีที่ได้รับคำตอบ
Richard Hardy

2
ใช่มันคงจะดีถ้ามีคำตอบ แต่ฉันไม่แน่ใจว่าจะมีคำตอบที่ยอมรับได้ทั้งหมด ฉันมีความคิดที่แตกต่างอย่างมากเกี่ยวกับการถดถอยจากหนังสือสถิติเช่น Seber: "การวิเคราะห์การถดถอยเชิงเส้น" จากข้อความในสาขาเศรษฐศาสตร์ แต่ความคิดบางอย่างทั้งหมดสามารถตกลงกันได้ ฉันคิดว่ามันเป็นตระกูลของโมเดลจริงๆ จากนั้นเราสามารถถามได้ว่าอะไรคือแกนกลางทั่วไปของโมเดลนี้ทั้งหมด
kjetil b halvorsen

1
บางทีคุณอาจจะสนใจในคำถามที่เกี่ยวข้องของฉัน: ความหมายของรูปแบบการถดถอยเชิงเส้นอย่างง่าย
Richard Hardy

7

ได้รับคำตอบที่ดีสองข้อแล้ว แต่ฉันต้องการเพิ่มสองเซ็นต์ของฉัน

ในกรณีที่การถดถอยเรามีบางตัวแปรสุ่มและX_1,ตัวแปรมีการแจกแจงที่ไม่รู้จักและโครงสร้างความแปรปรวนร่วมที่ซับซ้อน เราทำให้ปัญหานี้ง่ายขึ้นโดยให้ความสำคัญกับการแจกแจงแบบมีเงื่อนไขเพียงอย่างเดียวหรือแม่นยำมากขึ้นกับการคาดการณ์ตามเงื่อนไขของเนื่องจากตัวแปรอื่น ๆ เราทำให้มันง่ายขึ้นX 1 , , X k YYX1,,XkY

μ=E(y|x1,,xk)=f(x1,,xk)

ที่ไหนเป็นหน้าที่ของการพยากรณ์ที่สามารถใช้รูปแบบที่แตกต่างกัน (เส้น, ไม่ใช่เชิงเส้น) ขึ้นอยู่กับรูปแบบการถดถอยโดยเฉพาะและเป็นค่าเฉลี่ยของการกระจายบางอย่างเมื่อความคิดของแบบจำลองการถดถอยในแง่ของทั่วไปเส้นตรงรุ่น ในของ GLM สามารถเป็นที่ตั้งของปัวซอง, ทวินาม, แกมมา ฯลฯ ด้วยการถดถอยปกติมันเป็นที่ตั้งของการกระจาย Laplace สำหรับรูปแบบที่แข็งแกร่งลดการสูญเสีย Huber ที่เรียกว่าใช้ความหนาแน่นของ Huber ในกรณีที่การถดถอยแบบควอไทล์เรามุ่งเน้นไปที่คุณสมบัติการแจกแจงอื่นเราประมาณนั่นคือควอไทล์ของการกระจายแทนที่จะเป็นค่าที่คาดไว้μ μ L 1 μfμμL1μ

ดังนั้นแทนที่จะมองเกี่ยวกับการกระจายร่วมเต็มรูปแบบที่เรามุ่งเน้นการกระจายตามเงื่อนไขของYการทำให้เข้าใจง่ายนี้เป็นคุณลักษณะสำคัญของตัวแบบการถดถอยY


ขอบคุณ สัญชาตญาณไม่เจ็บแม้ว่าฉันกำลังมองหาความหมายที่เป็นทางการมากกว่าที่ฉันสามารถโยนให้ใครบางคนที่ถามฉันดังนั้นแบบจำลองการถดถอยคืออะไร? แล้วพยายามเลือกรายละเอียด
Richard Hardy

@RichardHardy ผมคิดว่านี่เป็นคุณลักษณะที่สำคัญของรูปแบบการถดถอยที่ใช้ร่วมกันโดยทั้งหมดของพวกเขา
ทิม

3
ฉันคิดว่าคำตอบนี้เป็นวิธีที่ถูกต้องและมีประโยชน์ แต่มันจำเป็นต้องได้รับการสรุปเพื่อให้สามารถนำไปใช้กับสถานการณ์ที่คิดว่าเป็น "การถดถอย" (รวมถึง GLMs ข้อผิดพลาดทวีคูณการถดถอยด้วยการตอบสนองที่แปลงแล้ว ในวงกว้างรูปแบบการถดถอยจะระบุคุณสมบัติตั้งแต่หนึ่งรายการขึ้นไปของการแจกแจงทั้งหมดของการตอบสนองในรูปของค่าของ regressors (ภายในช่วงที่เจาะจงสุ่มหรือคงที่) โดยเฉพาะอย่างยิ่งมันสามารถไปไกลกว่าเพียงการระบุความคาดหวังหรือสมมติว่าข้อผิดพลาดเพิ่มเติม y
whuber

2

ความคิดบางอย่างขึ้นอยู่กับวรรณกรรม:

F. Hayashi ในบทที่ 1 ของตำราเรียนบัณฑิตคลาสสิก"เศรษฐมิติ" (2000) ระบุว่าสมมติฐานดังต่อไปนี้ประกอบด้วยรูปแบบการถดถอยเชิงเส้นแบบดั้งเดิม

  1. เส้นตรง
  2. เข้มงวด exogeneity
  3. ไม่มีความหลากหลายทางชีวภาพ
  4. ความแปรปรวนของข้อผิดพลาดทรงกลม
  5. ตัวแก้ไข "คงที่"

Wooldridge ในบทที่ 2 ของหนังสือตำราเศรษฐเศรษฐเบื้องต้นสุดคลาสสิคของเขา"เศรษฐมิติเบื้องต้น: วิธีการที่ทันสมัย" (2012) ระบุว่าสมการต่อไปนี้กำหนดรูปแบบการถดถอยเชิงเส้นอย่างง่าย:

y=β0+β1x+u.

กรีนในบทที่ 2 ของตำราเศรษฐศาสตร์เศรษฐมิติที่เป็นที่นิยมของเขา"การวิเคราะห์เศรษฐมิติ" (2011) รัฐ

แบบจำลองการถดถอยเชิงเส้นแบบคลาสสิกประกอบด้วยชุดของข้อสมมติฐานเกี่ยวกับวิธีที่ชุดข้อมูลจะถูกสร้างขึ้นโดย "กระบวนการสร้างข้อมูล"

และต่อมาก็ให้รายการของสมมติฐานที่คล้ายกับของฮายาชิ

เกี่ยวกับความสนใจของ OP ใน GARCH model, Bollerslev "Generalized autoregressive conditional heterosedasticity" (1986) รวมถึงวลี "GARCH regression model" ในหัวข้อ 5 และในประโยคแรกของหมวดนั้น ดังนั้นพ่อของรุ่น GARCH จึงไม่สนใจที่จะเรียก GARCH ว่าเป็นรูปแบบการถดถอย


1
การอ้างอิงทั้งสามของคุณนั้น จำกัด เฉพาะรูปแบบการถดถอยเชิงเส้นแต่คำถามของคุณนั้นกว้างกว่านั้น (ดังนั้นการใช้สิ่งนี้เป็นข้อโต้แย้งในคำตอบของคุณไปยังโพสต์อื่นซึ่งฉันคิดว่าเกิดความสนใจในปัญหานี้ฉันคิดว่าไม่ถูกต้องสมบูรณ์) ถ้าคุณบอกว่าแบบจำลองตัวแปรแฝงไม่ใช่แบบจำลองการถดถอย การเชื่อมต่อกับข้อผิดพลาดการวัดตัวแบบการถดถอยที่มีข้อผิดพลาดการวัดจะไม่เป็นตัวแบบการถดถอยอีกต่อไป ดูเหมือนจะแปลกสำหรับฉัน วิกิพีเดียเพียงแค่บอกว่ารูปแบบ reg เกี่ยวข้อง indep vars เพื่อ DEP ในแง่ที่ว่าเบต้า) Yf(X,β)
hejseb

จริงตัวอย่างของฉันสำหรับแบบจำลองการถดถอยเชิงเส้น นั่นคือสิ่งที่ฉันสามารถค้นหาในแหล่งข้อมูลที่เชื่อถือได้เช่นตำราเรียนที่ใช้กันอย่างแพร่หลายและกลายเป็นคลาสสิก ฉันไม่เชื่อใจวิกิพีเดียสำหรับคำถามเชิงสถิติและเศรษฐมิติ อย่างไรก็ตามในวิกิพีเดียมีบท "การอนุมานอ้างอิง" ที่คล้ายกับสิ่งที่ฉันได้อ้างจากตำรา คุณสามารถโพสต์ส่วนที่เกี่ยวข้องของความคิดเห็นของคุณที่นั่นเพื่อที่ฉันจะได้ตอบที่นั่นหรือไม่ ในโพสต์นี้ฉันไม่ได้พูดอะไรเกี่ยวกับแบบจำลองตัวแปรแฝง แต่เป็นการดีที่ได้ยินความเห็นของคุณ
Richard Hardy

3
ทำไมต้องชี้ที่ 3 "ไม่มีพหุสัมพันธ์" ฉันไม่เคยเห็นว่าใช้เป็นข้อสันนิษฐานในการพิสูจน์ผลลัพธ์บางอย่าง!
kjetil b halvorsen

1
@kjetilbhalvorsen โปรดอย่ารับผิดชอบสิ่งที่เขียนในตำราเรียนที่ฉันไม่ใช่ผู้เขียน แต่ขอบคุณสำหรับความคิดเห็นของหลักสูตรและมากยิ่งขึ้นสำหรับคำตอบ!
Richard Hardy
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.