เรียนรู้การถดถอยอันดับใน R?


10

ฉันกำลังทำงานในโครงการและต้องการทรัพยากรเพื่อให้ได้ความเร็ว

ชุดข้อมูลอยู่ที่ประมาณ 35000 ข้อสังเกตในตัวแปร 30 ตัวหรือมากกว่านั้น ประมาณครึ่งหนึ่งของตัวแปรนั้นมีการจัดหมวดหมู่และบางส่วนมีค่าที่เป็นไปได้ที่แตกต่างกันมากมายเช่นถ้าคุณแบ่งตัวแปรเด็ดขาดออกเป็นตัวแปรดัมมี่คุณจะมีตัวแปรมากกว่า 30 ตัว แต่ก็ยังคงอยู่ในคำสั่งของสองสามร้อยสูงสุด (n> P)

การตอบสนองที่เราต้องการทำนายคือลำดับที่ 5 ระดับ (1,2,3,4,5) ตัวทำนายนั้นเป็นการผสมผสานอย่างต่อเนื่องและเป็นหมวดหมู่ประมาณครึ่งหนึ่ง นี่คือความคิด / แผนของฉันจนถึงตอนนี้: 1. ปฏิบัติต่อการตอบสนองอย่างต่อเนื่องและดำเนินการถดถอยเชิงเส้นวานิลลา 2. เรียกใช้ค่าปกติและเลขลอจิสติกและการถดถอยแบบ probit 3. ใช้ MARS และ / หรือรสชาติอื่นของการถดถอยแบบไม่เชิงเส้น

ฉันคุ้นเคยกับการถดถอยเชิงเส้น MARS อธิบายได้ดีจาก Hastie และ Tibshirani แต่ฉันกำลังสูญเสียเมื่อพูดถึงลำดับ logit / probit โดยเฉพาะกับตัวแปรจำนวนมากและชุดข้อมูลขนาดใหญ่

ดูเหมือนว่าแพคเกจ r ของglmnetcrจะเป็นทางออกที่ดีที่สุดของฉันจนถึงตอนนี้ แต่เอกสารแทบจะไม่พอเลยที่จะได้รับตำแหน่งที่ฉันต้องการ

ฉันจะไปเรียนรู้เพิ่มเติมได้ที่ไหน


ฉันขอแนะนำให้คุณเพิ่มแท็ก R เช่นกัน
Christopher Louden

1
เนื่องจากนี่เป็นคำถามเกี่ยวกับแบบจำลองทางสถิติคุณอาจต้องการไปที่เว็บไซต์CrossValidatedแต่โปรดจำไว้ว่ามันเป็นวิธีปฏิบัติที่แย่มากในการข้ามการโพสต์คำถาม: คุณอาจต้องการกำหนดให้เน้นประเด็นที่เกี่ยวกับระเบียบวิธีที่คุณ เผชิญหรือโยกย้ายคำถามทั้งหมด
StasK

โดยไม่ต้องอธิบายว่าทำไมจริง ๆISLบันทึก (บนหน้า 137) ที่วิเคราะห์ discriminant (เช่น LDA, QDA) มักใช้มากกว่าหลายชั้นเรียนส่วนขยายของการถดถอยโลจิสติก แพ็คเกจเช่นลงโทษ LDAอาจมีค่าตรวจสอบ
MattBagg

คำตอบ:



6

แพ็คเกจ R ที่ทรงพลังพอสมควรสำหรับการถดถอยด้วยการตอบสนองเชิงหมวดหมู่คือ VGAM บน CRAN บทความสั้นมีตัวอย่างของการถดถอยตามลำดับ แต่เป็นที่ยอมรับว่าฉันไม่เคยลองชุดข้อมูลขนาดใหญ่เช่นนี้ดังนั้นฉันจึงไม่สามารถประเมินได้ว่าจะใช้เวลานานเท่าใด คุณอาจพบเนื้อหาเพิ่มเติมบางอย่างเกี่ยวกับ VGAM บนของผู้เขียนหน้า อีกทางหนึ่งคุณสามารถดูสหายของลอร่าทอมป์สันกับหนังสือของ Agresti "การวิเคราะห์ข้อมูลหมวดหมู่" บทที่ 7 ของหนังสือของ ธ ​​อมป์สันอธิบายแบบจำลอง logit สะสมซึ่งมักใช้กับคำตอบตามลำดับ

หวังว่านี่จะช่วยได้!


3

หากคุณไม่คุ้นเคยกับการถดถอยตามลำดับโดยสิ้นเชิงฉันจะลองอ่านบท Tabachnick / Fidell ( http://www.pearsonhighered.com/educator/product/Using-Multivariate-Statistics-6E/0205849571.page ) ในหัวข้อแรก - ในขณะที่ไม่ได้เขียนสำหรับ R หนังสือเล่มนี้สามารถถ่ายทอดตรรกะทั่วไปและ "do's" และ "dos" ได้เป็นอย่างดี

เป็นคำถาม: การตอบสนองของคุณเป็นอย่างไร หากพวกมันมีสเกลบางประเภทเช่น "ดี - ไม่ดี" มันก็โอเคที่จะใช้การถดถอยเชิงเส้น (การวิจัยตลาดทำมันตลอดเวลา ... ) แต่ถ้ารายการต่าง ๆ มากขึ้นการถดถอยแบบเลขอาจดีกว่า . ฉันจำได้ว่าหนังสือบางเล่มเกี่ยวกับการสร้างแบบจำลองการสร้างความสมดุลของโครงสร้างกล่าวว่าการถดถอยเชิงเส้นนั้นดีกว่าสเกลที่ดีกว่า probit - บิตฉันจำไม่ได้ว่าหนังสือเล่มนี้ในขณะนี้ขอโทษ!

ปัญหาที่ร้ายแรงที่สุดอาจเป็นจำนวนของตัวแปรดัมมี่ - ตัวแปรดัมมี่สองร้อยตัวที่จะทำให้การวิเคราะห์ช้ายากที่จะตีความและอาจไม่เสถียร - มีกรณีเพียงพอสำหรับการรวมกันของจำลอง / จำลองแต่ละตัวหรือไม่


3

หนึ่งการอ้างอิงมาตรฐานที่เขียนจากมุมมองของสังคมศาสตร์คือหนังสือตัวแปรที่ขึ้นอยู่กับ จำกัด ของ J Scott Long มันลึกลงไปกว่าที่บอกว่า Tabachnik แนะนำในคำตอบอื่น : Tabachnik เป็นตำราอาหารที่ดีที่สุดโดยไม่มีคำอธิบายว่า "ทำไม" และไม่มีคำอธิบายใด ๆ แต่ดูเหมือนว่าคุณจะได้ประโยชน์จากการหารายละเอียดเพิ่มเติมที่สามารถพบได้ใน Long's หนังสือ การถดถอยตามลำดับควรครอบคลุมในหลักสูตรเศรษฐมิติเบื้องต้น ( Cross-Section and Panel Dataของ Wooldridge เป็นหนังสือระดับบัณฑิตศึกษาที่ยอดเยี่ยม) รวมถึงหลักสูตรสังคมศาสตร์เชิงปริมาณ (สังคมวิทยาจิตวิทยา) แม้ว่าฉันจะนึกภาพว่าหลังจะวนกลับมา ถึงหนังสือของ Long

ระบุว่าจำนวนของตัวแปรคือวา-a-Ay ต่ำกว่าขนาดของกลุ่มตัวอย่างแพคเกจ R ที่คุณควรจะมองน่าจะเป็นมากกว่าordinal คำตอบอีกข้อหนึ่งที่คุณสามารถค้นหาได้ในแพ็คเกจที่สำคัญกว่าglmnetcrMASS

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.