มันเป็นความจริงที่สมมติฐานของการถดถอยเชิงเส้นไม่เหมือนจริง อย่างไรก็ตามนี่เป็นความจริงของแบบจำลองทางสถิติทั้งหมด "ทุกรุ่นผิด แต่บางรุ่นก็มีประโยชน์"
ฉันคิดว่าคุณอยู่ภายใต้การแสดงผลที่ไม่มีเหตุผลที่จะใช้การถดถอยเชิงเส้นเมื่อคุณสามารถใช้แบบจำลองที่ซับซ้อนมากขึ้น สิ่งนี้ไม่เป็นความจริงเพราะโดยทั่วไปแล้วโมเดลที่ซับซ้อนกว่านั้นมีความเสี่ยงที่จะเกิดการ overfitting มากขึ้นและพวกเขาใช้ทรัพยากรการคำนวณมากขึ้นซึ่งมีความสำคัญหากเช่นคุณกำลังพยายามทำสถิติบนโปรเซสเซอร์ที่ฝังตัวหรือเว็บเซิร์ฟเวอร์ โมเดลที่เรียบง่ายนั้นง่ายต่อการเข้าใจและตีความ; ในทางตรงกันข้ามโมเดลการเรียนรู้ด้วยเครื่องที่ซับซ้อนเช่นเครือข่ายประสาทมีแนวโน้มที่จะจบลงด้วยกล่องดำไม่มากก็น้อย
แม้ว่าสักวันการถดถอยเชิงเส้นจะไม่มีประโยชน์อีกต่อไปในทางปฏิบัติ (ซึ่งดูเหมือนไม่น่าเป็นไปได้อย่างมากในอนาคตอันใกล้) มันจะยังคงมีความสำคัญทางทฤษฎีเนื่องจากแบบจำลองที่ซับซ้อนมากขึ้นมีแนวโน้มที่จะสร้างการถดถอยเชิงเส้น ตัวอย่างเช่นในการทำความเข้าใจการถดถอยโลจิสติกส์แบบผสมเอฟเฟ็กต์ปกติคุณต้องเข้าใจการถดถอยเชิงเส้นเก่าแบบธรรมดาก่อน
นี่ไม่ได้เป็นการบอกว่าแบบจำลองที่ซับซ้อนใหม่และใหม่กว่านั้นไม่มีประโยชน์หรือสำคัญ หลายคนมี แต่โมเดลที่เรียบง่ายกว่านั้นจะมีการใช้กันอย่างแพร่หลายและมีความสำคัญมากกว่าและชัดเจนกว่าหากคุณจะนำเสนอโมเดลที่หลากหลาย มีการวิเคราะห์ข้อมูลที่ไม่ดีจำนวนมากที่ดำเนินการในวันนี้โดยผู้ที่เรียกตัวเองว่า "นักวิทยาศาสตร์ข้อมูล" หรือบางอย่าง แต่ไม่รู้จักสิ่งที่เป็นรากฐานเช่นช่วงความมั่นใจจริงๆ อย่าเป็นสถิติ!