ตัวอย่างการสร้างแบบจำลองการถดถอยขั้นสูง

22

ฉันกำลังมองหากรณีศึกษาการถดถอยเชิงเส้นขั้นสูงซึ่งแสดงขั้นตอนที่จำเป็นสำหรับการสร้างแบบจำลองที่ซับซ้อนความสัมพันธ์ที่ไม่ใช่เชิงเส้นหลาย ๆ แบบโดยใช้ GLM หรือ OLS มันเป็นเรื่องยากที่จะหาแหล่งข้อมูลที่นอกเหนือไปจากโรงเรียนตัวอย่าง: หนังสือส่วนใหญ่ที่ฉันอ่านจะไม่ไปไกลกว่าการแปลงบันทึกการตอบสนองควบคู่ไปกับ BoxCox ของผู้ทำนายหนึ่งคนหรือแนวความคิดตามธรรมชาติในกรณีที่ดีที่สุด นอกจากนี้ตัวอย่างทั้งหมดที่ฉันเห็นมาถึงปัญหาการแปลงข้อมูลในรูปแบบที่แยกต่างหากมักจะอยู่ในรูปแบบการทำนายเดียว

ฉันรู้ว่าการแปลง BoxCox หรือ YeoJohnson คืออะไร สิ่งที่ฉันกำลังมองหาคือกรณีศึกษาในชีวิตจริงที่มีรายละเอียดซึ่งการตอบสนอง / ความสัมพันธ์ไม่ชัดเจน ตัวอย่างเช่นการตอบสนองไม่ได้เป็นเชิงบวกอย่างเคร่งครัด (ดังนั้นคุณจึงไม่สามารถใช้ log หรือ BoxCox) ผู้ทำนายมีความสัมพันธ์แบบไม่เป็นเส้นตรงระหว่างตัวเองและต่อการตอบสนองและการแปลงข้อมูลความน่าจะเป็นสูงสุดไม่ได้บ่งบอกถึงมาตรฐาน 0.33 หรือ 0.5 เลขยกกำลัง นอกจากนี้ความแปรปรวนที่เหลือพบว่าไม่คงที่ (ไม่เคยเป็น) ดังนั้นการตอบสนองจะต้องมีการเปลี่ยนแปลงเช่นกันและตัวเลือกจะต้องทำระหว่างการถดถอยครอบครัว GLM ที่ไม่ได้มาตรฐานหรือการเปลี่ยนแปลงการตอบสนอง นักวิจัยมีแนวโน้มที่จะตัดสินใจเลือกที่จะหลีกเลี่ยงการเก็บข้อมูลมากเกินไป

แก้ไข

จนถึงตอนนี้ฉันรวบรวมทรัพยากรต่อไปนี้:

กลยุทธ์การสร้างแบบจำลองการถดถอย, F. Harrell
อนุกรมเวลาเศรษฐมิติประยุกต์ว. วชิรเอนเดอร์
โมเดลเชิงเส้นไดนามิกพร้อม R, G. Petris
การวิเคราะห์การถดถอยประยุกต์, D. Kleinbaum
บทนำสู่การเรียนรู้เชิงสถิติ, G. James / D Witten

ฉันเพิ่งอ่านล่าสุด (ISLR) และมันเป็นข้อความที่ดีมาก (5 ห้าดาวบนนาฬิกาของฉัน) แม้ว่าจะมุ่งเน้นไปที่ ML มากกว่าแบบจำลองการถดถอยขั้นสูง

นอกจากนี้ยังมีนี้โพสต์ที่ดีใน CV ว่าของขวัญที่ท้าทายกรณีที่ถดถอย

— Robert Kubrick
แหล่งที่มา

8

ฉันเชื่อว่าหนังสือ Frank Harrells ( amazon.com/ ) อาจเป็นประโยชน์

— Adam Robinsson

@ AdamRobinsson ฉันเห็นว่า TOC กำลังสัมผัสวิชาที่เกี่ยวข้องหลายอย่าง (โมเดลหลายตัวแปร, เส้นโค้ง, ความหลากหลายทางชีวภาพ) แต่วิธีการเหล่านั้นมีภาพประกอบด้วยกันในตัวอย่างจริงหรืออธิบายแต่ละหัวข้อแยกกันหรือไม่? เพราะโดยปกติในตัวอย่างในชีวิตจริงปัญหาทั้งหมดจะมาที่คุณด้วยกันและมันก็ไม่เคยชัดเจนว่าจะจัดการได้ดี

— Robert Kubrick

1

ฉันยังไม่ได้อ่านหนังสือทั้งเล่ม แต่หน้าแรก ๆ 150 หน้านั้นยอดเยี่ยมมาก ๆ (ฉันไม่ใช่คนสเตติก ตัวอย่างกว้างขวางและมีเนื้อหา หนังสือเล่มนี้มาพร้อมกับแพ็คเกจ RMS (กลยุทธ์การสร้างแบบจำลองการถดถอย) ของอาร์ฉันเคยดูหนังสือของเดวิดไคลน์บอมส์ที่แข่งขัน (ลืมชื่ออย่างน่าเสียดาย) แต่มันมีน้อยมากเกี่ยวกับกลยุทธ์และตัวอย่าง (และแพงกว่าสองเท่า)

— Adam Robinsson

3

@RobertKubrick: "การถดถอยหลายตัวแปร" หมายถึงมีการตอบสนองมากกว่าหนึ่งรายการ (ดูวิกิสำหรับแท็กที่คุณเพิ่มหรือที่นี่ ) "การถดถอยแบบหลายจุด" หมายถึงตัวทำนายมากกว่าหนึ่งตัว

— Scortchi - Reinstate Monica

3

คุณอาจต้องการตรวจสอบอนุกรมเวลาเชิงเศรษฐมิติของ Enders เวอร์ชั่นใหม่ครอบคลุมรุ่นที่ไม่ใช่เชิงเส้นตรงส่วนท้ายของหนังสือ ข้อมูลเกือบทั้งหมดเปิดเผยต่อสาธารณะบนเว็บไซต์ของ St. Louis Fed (เข้าถึงได้จาก quantmod ใน R) เพื่อให้คุณสามารถติดตามตัวอย่างชีวิตจริงได้ โมเดลเชิงเส้นไดนามิกพร้อม R ยังมีตัวอย่างบางส่วนที่มีข้อมูลจริงที่ค่อนข้างเหมาะสม

— Eric Brady

10

กลยุทธ์การสร้างแบบจำลองการถดถอยและ ISLR ซึ่งได้รับการกล่าวถึงโดยผู้อื่นแล้วเป็นคำแนะนำที่ดีมากสองข้อ ฉันมีบางคนที่คุณอาจต้องการพิจารณา

การสร้างแบบจำลองการพยากรณ์ประยุกต์โดย Kuhn และ Johnson มีกรณีศึกษาที่ดีจำนวนหนึ่งและค่อนข้างตรงไปตรงมา

$-$

แบบจำลองสารเติมแต่งทั่วไป: บทนำด้วย Rโดย Simon Wood เป็นการรักษาแบบจำลองสารเติมแต่งทั่วไปที่ดีและวิธีที่คุณเหมาะสมกับmgcvแพคเกจของเขาสำหรับ R มันมีตัวอย่างเชิงปฏิบัติที่ไม่น่าสนใจ การใช้แบบจำลอง GAM เป็นอีกทางเลือกหนึ่งในการหาการเปลี่ยนแปลง "ถูกต้อง" เนื่องจากทำในลักษณะการปรับตัวของข้อมูลผ่านการขยายตัวแบบอิสระและการประเมินความน่าจะเป็นสูงสุด อย่างไรก็ตามยังมีตัวเลือกอื่น ๆ ที่ต้องทำเช่นตัวเลือกของฟังก์ชั่นลิงค์

mboostแพคเกจสำหรับ R ยังเหมาะกับรุ่น GAM แต่ใช้วิธีการที่แตกต่างกันผ่านการส่งเสริม ฉันขอแนะนำการสอนเกี่ยวกับแพคเกจ (หนึ่งใน Vignettes)

ฉันจะพูดถึงEmpirical Model Discovery และการประเมินทฤษฎีโดย Hendry และ Doornik แม้ว่าฉันจะยังไม่ได้อ่านหนังสือเล่มนี้ด้วยตัวเอง มันได้รับการแนะนำให้ฉัน

— NRH
แหล่งที่มา

การสร้างแบบจำลองการพยากรณ์ประยุกต์ ... พอดูได้ ฉันชอบ ISLR

— Robert Kubrick

5

หนึ่งในสื่อการเรียนการสอนที่ดีที่สุดที่คุณสามารถค้นหาเกี่ยวกับการถดถอยขั้นสูงหลายแบบ (รวมถึงแบบไม่เชิงเส้น) ขั้นสูงขึ้นอยู่กับกลยุทธ์การสร้างแบบจำลองการถดถอยหนังสือโดย Frank E. Harrell Jr.

หนังสือกำลังถูกกล่าวถึงในความคิดเห็น แต่ไม่ใช่เนื้อหานี้ซึ่งเป็นแหล่งข้อมูลที่ดี

— rnso
แหล่งที่มา

2

ฉันจะแนะนำหนังสือ เศรษฐเศรษฐส่วนใหญ่ที่ไม่เป็นอันตรายโดยโดย Joshua D. Angrist และJörn-Steffen Pischke

นี่คือโลกแห่งความจริงที่สุดเกลือสู่โลกข้อความที่ฉันเป็นเจ้าของและราคาถูกสุด ๆ ใหม่ประมาณ $ 26.00 หนังสือเล่มนี้เขียนขึ้นสำหรับนักสถิติระดับบัณฑิตศึกษา / นักเศรษฐศาสตร์ดังนั้นจึงมีความก้าวหน้าอย่างมาก

ตอนนี้หนังสือเล่มนี้ไม่ใช่สิ่งที่คุณขอในแง่ที่ว่ามันไม่ได้มุ่งเน้นไปที่ "ความสัมพันธ์ที่ซับซ้อนหลายแบบที่ไม่เป็นเชิงเส้น" เท่าที่ความรู้พื้นฐานหลักเช่น

แต่ฉันกำลังเสนอหนังสือเล่มนี้เพื่อพยายามชี้แนะ ซึ่งก็คือเมื่อพูดถึงการประยุกต์ใช้การวิเคราะห์การถดถอยในโลกแห่งความจริงปัญหาที่ท้าทายที่สุดโดยทั่วไปไม่ได้เกี่ยวข้องกับความจริงที่ว่าแบบจำลองของเราไม่ซับซ้อนพอ ... เชื่อฉันว่าเรามีกลองที่ซับซ้อนมาก รุ่น! ปัญหาที่ใหญ่ที่สุดคือสิ่งที่ต้องการ

endogeneity
ไม่มีข้อมูลทั้งหมดที่เราต้องการ
มีข้อมูลมาก ... และมันก็เป็นเรื่องยุ่งเหยิง!
สำหรับคนจำนวนมากไม่สามารถตีความแบบจำลองของตนเองได้อย่างถูกต้อง (ปัญหาที่แพร่หลายมากขึ้นเมื่อเราสร้างแบบจำลองที่ซับซ้อนมากขึ้น)

ความเข้าใจอย่างแน่นหนาเกี่ยวกับ GMM ตัวกรองแบบไม่เป็นเชิงเส้นและการถดถอยแบบไม่อิงตัวแปรนั้นครอบคลุมหัวข้อทั้งหมดที่คุณระบุไว้และสามารถเรียนรู้ได้ในขณะที่คุณไปด้วย อย่างไรก็ตามด้วยข้อมูลโลกแห่งความเป็นจริงกรอบเหล่านี้มีศักยภาพที่จะซับซ้อนโดยไม่จำเป็น

บ่อยครั้งที่ความสามารถในการเรียบง่ายอย่างชาญฉลาดแทนที่จะเป็นแบบทั่วไปและมีความซับซ้อนสูงซึ่งเป็นประโยชน์ต่อคุณมากที่สุดด้วยการวิเคราะห์ในโลกแห่งความเป็นจริง หนังสือเล่มนี้จะช่วยคุณในอดีต

— Zachary Blumenfeld
แหล่งที่มา

1

คุณสามารถอ้างอิงบทนำสู่การเรียนรู้ทางสถิติด้วย R (ISLR) หนังสือเล่มนี้พูดถึงรายละเอียดเกี่ยวกับเส้นโค้งและการถดถอยพหุนามในรายละเอียดกับกรณีต่างๆ

— Vikram Venkat
แหล่งที่มา

1

ฉันไม่แน่ใจว่าคำถามของคุณมีวัตถุประสงค์อะไร ฉันสามารถแนะนำข้อความการวิเคราะห์เศรษฐมิติของกรีนได้ มีการอ้างอิงถึงเอกสารจำนวนมากภายใน ค่อนข้างมากตัวอย่างในหนังสืออ้างอิงกระดาษตีพิมพ์

หากต้องการให้รสชาติดูตัวอย่าง 7.6 "เอฟเฟ็กต์การโต้ตอบในรูปแบบบันทึกรายรับรายได้" ที่หน้า 95 มันหมายถึงกระดาษและชุดข้อมูล: Regina T. Riphahn, Achim Wambach และ Andreas ล้าน " ผลจูงใจในความต้องการการดูแลสุขภาพ: การประเมินข้อมูลการนับแผง Bivariate " วารสารเศรษฐศาสตร์ประยุกต์ประยุกต์ฉบับ 18, ฉบับที่ 4, 2003, หน้า 387-405

ตัวอย่างนี้เกี่ยวกับการใช้งานโมเดลบันทึกการทำงานและเอฟเฟกต์การโต้ตอบ คุณสามารถอ่านกระดาษทั้งหมดหรือคำอธิบายตำรานี้ นี่ไม่ใช่กรณีที่ใช้ทำขึ้น มันเป็นงานวิจัยที่ตีพิมพ์จริง นี่คือวิธีที่ผู้คนใช้วิธีการทางสถิติในการวิจัยทางเศรษฐศาสตร์

ในขณะที่ฉันเขียนหนังสือเล่มนี้ถูกรบกวนด้วยกรณีการใช้งานเช่นนี้ในการใช้วิธีการทางสถิติขั้นสูง

— Aksakal
แหล่งที่มา

0

คุณเคยดูหลักสูตร / หนังสือการวิเคราะห์อนุกรมเวลาการเงินที่ Ruey Tsay (UChicago) เขียนหรือไม่

http://faculty.chicagobooth.edu/ruey.tsay/teaching/

คลาส Ruey Tsays และตำราเรียนมีตัวอย่างของโลกแห่งความจริงมากมายในด้านการเงินของการถดถอยที่ซับซ้อนของประเภทที่สร้างขึ้นเพื่อใช้ในตลาดการเงิน บทที่ 1 เริ่มต้นด้วยตัวแบบการถดถอยหลายปัจจัยและขยายไปยังตัวแบบอนุกรมเวลา Autoregressive ตามฤดูกาลโดยบทที่ 5 หรือ 6

— zhqiat
แหล่งที่มา

2

ใช่ฉันทำและไม่ชอบเลย กว้างมาก (ไม่ว่าจะเป็นโมเดลความผันผวนจนถึงความถี่สูงไปจนถึง ARIMA ... ) สัมผัสแต่ละวิชาเบา ๆ (ไม่สามารถมีหัวข้อมากมายในมือ) และการศึกษาและความท้าทายของ R ลดลงเหลือน้อยที่สุด มันเป็นรูปแบบใหม่ของเอกสารทางวิชาการและได้ระบุทฤษฎี / แบบจำลองที่คุณสามารถหาได้จากที่อื่น นี่คือสิ่งที่ฉันหมายถึงอย่างแน่นอนในกรณีของโรงเรียนที่ไม่เคยจัดการกับความซับซ้อนของความท้าทายหลายอย่างในโลกแห่งความจริงปัญหาขั้นสูง

— Robert Kubrick