ตัวอย่างการสร้างแบบจำลองการถดถอยขั้นสูง


22

ฉันกำลังมองหากรณีศึกษาการถดถอยเชิงเส้นขั้นสูงซึ่งแสดงขั้นตอนที่จำเป็นสำหรับการสร้างแบบจำลองที่ซับซ้อนความสัมพันธ์ที่ไม่ใช่เชิงเส้นหลาย ๆ แบบโดยใช้ GLM หรือ OLS มันเป็นเรื่องยากที่จะหาแหล่งข้อมูลที่นอกเหนือไปจากโรงเรียนตัวอย่าง: หนังสือส่วนใหญ่ที่ฉันอ่านจะไม่ไปไกลกว่าการแปลงบันทึกการตอบสนองควบคู่ไปกับ BoxCox ของผู้ทำนายหนึ่งคนหรือแนวความคิดตามธรรมชาติในกรณีที่ดีที่สุด นอกจากนี้ตัวอย่างทั้งหมดที่ฉันเห็นมาถึงปัญหาการแปลงข้อมูลในรูปแบบที่แยกต่างหากมักจะอยู่ในรูปแบบการทำนายเดียว

ฉันรู้ว่าการแปลง BoxCox หรือ YeoJohnson คืออะไร สิ่งที่ฉันกำลังมองหาคือกรณีศึกษาในชีวิตจริงที่มีรายละเอียดซึ่งการตอบสนอง / ความสัมพันธ์ไม่ชัดเจน ตัวอย่างเช่นการตอบสนองไม่ได้เป็นเชิงบวกอย่างเคร่งครัด (ดังนั้นคุณจึงไม่สามารถใช้ log หรือ BoxCox) ผู้ทำนายมีความสัมพันธ์แบบไม่เป็นเส้นตรงระหว่างตัวเองและต่อการตอบสนองและการแปลงข้อมูลความน่าจะเป็นสูงสุดไม่ได้บ่งบอกถึงมาตรฐาน 0.33 หรือ 0.5 เลขยกกำลัง นอกจากนี้ความแปรปรวนที่เหลือพบว่าไม่คงที่ (ไม่เคยเป็น) ดังนั้นการตอบสนองจะต้องมีการเปลี่ยนแปลงเช่นกันและตัวเลือกจะต้องทำระหว่างการถดถอยครอบครัว GLM ที่ไม่ได้มาตรฐานหรือการเปลี่ยนแปลงการตอบสนอง นักวิจัยมีแนวโน้มที่จะตัดสินใจเลือกที่จะหลีกเลี่ยงการเก็บข้อมูลมากเกินไป

แก้ไข

จนถึงตอนนี้ฉันรวบรวมทรัพยากรต่อไปนี้:

  • กลยุทธ์การสร้างแบบจำลองการถดถอย, F. Harrell
  • อนุกรมเวลาเศรษฐมิติประยุกต์ว. วชิรเอนเดอร์
  • โมเดลเชิงเส้นไดนามิกพร้อม R, G. Petris
  • การวิเคราะห์การถดถอยประยุกต์, D. Kleinbaum
  • บทนำสู่การเรียนรู้เชิงสถิติ, G. James / D Witten

ฉันเพิ่งอ่านล่าสุด (ISLR) และมันเป็นข้อความที่ดีมาก (5 ห้าดาวบนนาฬิกาของฉัน) แม้ว่าจะมุ่งเน้นไปที่ ML มากกว่าแบบจำลองการถดถอยขั้นสูง

นอกจากนี้ยังมีนี้โพสต์ที่ดีใน CV ว่าของขวัญที่ท้าทายกรณีที่ถดถอย


8
ฉันเชื่อว่าหนังสือ Frank Harrells ( amazon.com/ ) อาจเป็นประโยชน์
Adam Robinsson

@ AdamRobinsson ฉันเห็นว่า TOC กำลังสัมผัสวิชาที่เกี่ยวข้องหลายอย่าง (โมเดลหลายตัวแปร, เส้นโค้ง, ความหลากหลายทางชีวภาพ) แต่วิธีการเหล่านั้นมีภาพประกอบด้วยกันในตัวอย่างจริงหรืออธิบายแต่ละหัวข้อแยกกันหรือไม่? เพราะโดยปกติในตัวอย่างในชีวิตจริงปัญหาทั้งหมดจะมาที่คุณด้วยกันและมันก็ไม่เคยชัดเจนว่าจะจัดการได้ดี
Robert Kubrick

1
ฉันยังไม่ได้อ่านหนังสือทั้งเล่ม แต่หน้าแรก ๆ 150 หน้านั้นยอดเยี่ยมมาก ๆ (ฉันไม่ใช่คนสเตติก ตัวอย่างกว้างขวางและมีเนื้อหา หนังสือเล่มนี้มาพร้อมกับแพ็คเกจ RMS (กลยุทธ์การสร้างแบบจำลองการถดถอย) ของอาร์ฉันเคยดูหนังสือของเดวิดไคลน์บอมส์ที่แข่งขัน (ลืมชื่ออย่างน่าเสียดาย) แต่มันมีน้อยมากเกี่ยวกับกลยุทธ์และตัวอย่าง (และแพงกว่าสองเท่า)
Adam Robinsson

3
@RobertKubrick: "การถดถอยหลายตัวแปร" หมายถึงมีการตอบสนองมากกว่าหนึ่งรายการ (ดูวิกิสำหรับแท็กที่คุณเพิ่มหรือที่นี่ ) "การถดถอยแบบหลายจุด" หมายถึงตัวทำนายมากกว่าหนึ่งตัว
Scortchi - Reinstate Monica

3
คุณอาจต้องการตรวจสอบอนุกรมเวลาเชิงเศรษฐมิติของ Enders เวอร์ชั่นใหม่ครอบคลุมรุ่นที่ไม่ใช่เชิงเส้นตรงส่วนท้ายของหนังสือ ข้อมูลเกือบทั้งหมดเปิดเผยต่อสาธารณะบนเว็บไซต์ของ St. Louis Fed (เข้าถึงได้จาก quantmod ใน R) เพื่อให้คุณสามารถติดตามตัวอย่างชีวิตจริงได้ โมเดลเชิงเส้นไดนามิกพร้อม R ยังมีตัวอย่างบางส่วนที่มีข้อมูลจริงที่ค่อนข้างเหมาะสม
Eric Brady

คำตอบ:


10

กลยุทธ์การสร้างแบบจำลองการถดถอยและ ISLR ซึ่งได้รับการกล่าวถึงโดยผู้อื่นแล้วเป็นคำแนะนำที่ดีมากสองข้อ ฉันมีบางคนที่คุณอาจต้องการพิจารณา

การสร้างแบบจำลองการพยากรณ์ประยุกต์โดย Kuhn และ Johnson มีกรณีศึกษาที่ดีจำนวนหนึ่งและค่อนข้างตรงไปตรงมา

แบบจำลองสารเติมแต่งทั่วไป: บทนำด้วย Rโดย Simon Wood เป็นการรักษาแบบจำลองสารเติมแต่งทั่วไปที่ดีและวิธีที่คุณเหมาะสมกับmgcvแพคเกจของเขาสำหรับ R มันมีตัวอย่างเชิงปฏิบัติที่ไม่น่าสนใจ การใช้แบบจำลอง GAM เป็นอีกทางเลือกหนึ่งในการหาการเปลี่ยนแปลง "ถูกต้อง" เนื่องจากทำในลักษณะการปรับตัวของข้อมูลผ่านการขยายตัวแบบอิสระและการประเมินความน่าจะเป็นสูงสุด อย่างไรก็ตามยังมีตัวเลือกอื่น ๆ ที่ต้องทำเช่นตัวเลือกของฟังก์ชั่นลิงค์

mboostแพคเกจสำหรับ R ยังเหมาะกับรุ่น GAM แต่ใช้วิธีการที่แตกต่างกันผ่านการส่งเสริม ฉันขอแนะนำการสอนเกี่ยวกับแพคเกจ (หนึ่งใน Vignettes)

ฉันจะพูดถึงEmpirical Model Discovery และการประเมินทฤษฎีโดย Hendry และ Doornik แม้ว่าฉันจะยังไม่ได้อ่านหนังสือเล่มนี้ด้วยตัวเอง มันได้รับการแนะนำให้ฉัน


การสร้างแบบจำลองการพยากรณ์ประยุกต์ ... พอดูได้ ฉันชอบ ISLR
Robert Kubrick

5

หนึ่งในสื่อการเรียนการสอนที่ดีที่สุดที่คุณสามารถค้นหาเกี่ยวกับการถดถอยขั้นสูงหลายแบบ (รวมถึงแบบไม่เชิงเส้น) ขั้นสูงขึ้นอยู่กับกลยุทธ์การสร้างแบบจำลองการถดถอยหนังสือโดย Frank E. Harrell Jr.

หนังสือกำลังถูกกล่าวถึงในความคิดเห็น แต่ไม่ใช่เนื้อหานี้ซึ่งเป็นแหล่งข้อมูลที่ดี


2

ฉันจะแนะนำหนังสือ เศรษฐเศรษฐส่วนใหญ่ที่ไม่เป็นอันตรายโดยโดย Joshua D. Angrist และJörn-Steffen Pischke

นี่คือโลกแห่งความจริงที่สุดเกลือสู่โลกข้อความที่ฉันเป็นเจ้าของและราคาถูกสุด ๆ ใหม่ประมาณ $ 26.00 หนังสือเล่มนี้เขียนขึ้นสำหรับนักสถิติระดับบัณฑิตศึกษา / นักเศรษฐศาสตร์ดังนั้นจึงมีความก้าวหน้าอย่างมาก

ตอนนี้หนังสือเล่มนี้ไม่ใช่สิ่งที่คุณขอในแง่ที่ว่ามันไม่ได้มุ่งเน้นไปที่ "ความสัมพันธ์ที่ซับซ้อนหลายแบบที่ไม่เป็นเชิงเส้น" เท่าที่ความรู้พื้นฐานหลักเช่น

แต่ฉันกำลังเสนอหนังสือเล่มนี้เพื่อพยายามชี้แนะ ซึ่งก็คือเมื่อพูดถึงการประยุกต์ใช้การวิเคราะห์การถดถอยในโลกแห่งความจริงปัญหาที่ท้าทายที่สุดโดยทั่วไปไม่ได้เกี่ยวข้องกับความจริงที่ว่าแบบจำลองของเราไม่ซับซ้อนพอ ... เชื่อฉันว่าเรามีกลองที่ซับซ้อนมาก รุ่น! ปัญหาที่ใหญ่ที่สุดคือสิ่งที่ต้องการ

  1. endogeneity
  2. ไม่มีข้อมูลทั้งหมดที่เราต้องการ
  3. มีข้อมูลมาก ... และมันก็เป็นเรื่องยุ่งเหยิง!
  4. สำหรับคนจำนวนมากไม่สามารถตีความแบบจำลองของตนเองได้อย่างถูกต้อง (ปัญหาที่แพร่หลายมากขึ้นเมื่อเราสร้างแบบจำลองที่ซับซ้อนมากขึ้น)

ความเข้าใจอย่างแน่นหนาเกี่ยวกับ GMM ตัวกรองแบบไม่เป็นเชิงเส้นและการถดถอยแบบไม่อิงตัวแปรนั้นครอบคลุมหัวข้อทั้งหมดที่คุณระบุไว้และสามารถเรียนรู้ได้ในขณะที่คุณไปด้วย อย่างไรก็ตามด้วยข้อมูลโลกแห่งความเป็นจริงกรอบเหล่านี้มีศักยภาพที่จะซับซ้อนโดยไม่จำเป็น

บ่อยครั้งที่ความสามารถในการเรียบง่ายอย่างชาญฉลาดแทนที่จะเป็นแบบทั่วไปและมีความซับซ้อนสูงซึ่งเป็นประโยชน์ต่อคุณมากที่สุดด้วยการวิเคราะห์ในโลกแห่งความเป็นจริง หนังสือเล่มนี้จะช่วยคุณในอดีต


1

คุณสามารถอ้างอิงบทนำสู่การเรียนรู้ทางสถิติด้วย R (ISLR) หนังสือเล่มนี้พูดถึงรายละเอียดเกี่ยวกับเส้นโค้งและการถดถอยพหุนามในรายละเอียดกับกรณีต่างๆ


1

ฉันไม่แน่ใจว่าคำถามของคุณมีวัตถุประสงค์อะไร ฉันสามารถแนะนำข้อความการวิเคราะห์เศรษฐมิติของกรีนได้ มีการอ้างอิงถึงเอกสารจำนวนมากภายใน ค่อนข้างมากตัวอย่างในหนังสืออ้างอิงกระดาษตีพิมพ์

หากต้องการให้รสชาติดูตัวอย่าง 7.6 "เอฟเฟ็กต์การโต้ตอบในรูปแบบบันทึกรายรับรายได้" ที่หน้า 95 มันหมายถึงกระดาษและชุดข้อมูล: Regina T. Riphahn, Achim Wambach และ Andreas ล้าน " ผลจูงใจในความต้องการการดูแลสุขภาพ: การประเมินข้อมูลการนับแผง Bivariate " วารสารเศรษฐศาสตร์ประยุกต์ประยุกต์ฉบับ 18, ฉบับที่ 4, 2003, หน้า 387-405

ตัวอย่างนี้เกี่ยวกับการใช้งานโมเดลบันทึกการทำงานและเอฟเฟกต์การโต้ตอบ คุณสามารถอ่านกระดาษทั้งหมดหรือคำอธิบายตำรานี้ นี่ไม่ใช่กรณีที่ใช้ทำขึ้น มันเป็นงานวิจัยที่ตีพิมพ์จริง นี่คือวิธีที่ผู้คนใช้วิธีการทางสถิติในการวิจัยทางเศรษฐศาสตร์

ในขณะที่ฉันเขียนหนังสือเล่มนี้ถูกรบกวนด้วยกรณีการใช้งานเช่นนี้ในการใช้วิธีการทางสถิติขั้นสูง


0

คุณเคยดูหลักสูตร / หนังสือการวิเคราะห์อนุกรมเวลาการเงินที่ Ruey Tsay (UChicago) เขียนหรือไม่

http://faculty.chicagobooth.edu/ruey.tsay/teaching/

คลาส Ruey Tsays และตำราเรียนมีตัวอย่างของโลกแห่งความจริงมากมายในด้านการเงินของการถดถอยที่ซับซ้อนของประเภทที่สร้างขึ้นเพื่อใช้ในตลาดการเงิน บทที่ 1 เริ่มต้นด้วยตัวแบบการถดถอยหลายปัจจัยและขยายไปยังตัวแบบอนุกรมเวลา Autoregressive ตามฤดูกาลโดยบทที่ 5 หรือ 6


2
ใช่ฉันทำและไม่ชอบเลย กว้างมาก (ไม่ว่าจะเป็นโมเดลความผันผวนจนถึงความถี่สูงไปจนถึง ARIMA ... ) สัมผัสแต่ละวิชาเบา ๆ (ไม่สามารถมีหัวข้อมากมายในมือ) และการศึกษาและความท้าทายของ R ลดลงเหลือน้อยที่สุด มันเป็นรูปแบบใหม่ของเอกสารทางวิชาการและได้ระบุทฤษฎี / แบบจำลองที่คุณสามารถหาได้จากที่อื่น นี่คือสิ่งที่ฉันหมายถึงอย่างแน่นอนในกรณีของโรงเรียนที่ไม่เคยจัดการกับความซับซ้อนของความท้าทายหลายอย่างในโลกแห่งความจริงปัญหาขั้นสูง
Robert Kubrick
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.