ฉันกำลังทำงานในโครงการและต้องการทรัพยากรเพื่อให้ได้ความเร็ว
ชุดข้อมูลอยู่ที่ประมาณ 35000 ข้อสังเกตในตัวแปร 30 ตัวหรือมากกว่านั้น ประมาณครึ่งหนึ่งของตัวแปรนั้นมีการจัดหมวดหมู่และบางส่วนมีค่าที่เป็นไปได้ที่แตกต่างกันมากมายเช่นถ้าคุณแบ่งตัวแปรเด็ดขาดออกเป็นตัวแปรดัมมี่คุณจะมีตัวแปรมากกว่า 30 ตัว แต่ก็ยังคงอยู่ในคำสั่งของสองสามร้อยสูงสุด (n> P)
การตอบสนองที่เราต้องการทำนายคือลำดับที่ 5 ระดับ (1,2,3,4,5) ตัวทำนายนั้นเป็นการผสมผสานอย่างต่อเนื่องและเป็นหมวดหมู่ประมาณครึ่งหนึ่ง นี่คือความคิด / แผนของฉันจนถึงตอนนี้: 1. ปฏิบัติต่อการตอบสนองอย่างต่อเนื่องและดำเนินการถดถอยเชิงเส้นวานิลลา 2. เรียกใช้ค่าปกติและเลขลอจิสติกและการถดถอยแบบ probit 3. ใช้ MARS และ / หรือรสชาติอื่นของการถดถอยแบบไม่เชิงเส้น
ฉันคุ้นเคยกับการถดถอยเชิงเส้น MARS อธิบายได้ดีจาก Hastie และ Tibshirani แต่ฉันกำลังสูญเสียเมื่อพูดถึงลำดับ logit / probit โดยเฉพาะกับตัวแปรจำนวนมากและชุดข้อมูลขนาดใหญ่
ดูเหมือนว่าแพคเกจ r ของglmnetcrจะเป็นทางออกที่ดีที่สุดของฉันจนถึงตอนนี้ แต่เอกสารแทบจะไม่พอเลยที่จะได้รับตำแหน่งที่ฉันต้องการ
ฉันจะไปเรียนรู้เพิ่มเติมได้ที่ไหน