คุณอาจต้องการตรวจสอบข้อมูลอ้างอิงนี้ ชุดการเรียนรู้วิทยาศาสตร์ - ชุดใช้การถดถอยโลจิสติกแบบสุ่มและวิธีการอธิบายไว้ที่นั่น
แต่เพื่อตอบคำถามของคุณทั้งสองวิธีต่างกันมากในเป้าหมายของพวกเขา การถดถอยแบบลอจิสติกเป็นเรื่องเกี่ยวกับการสร้างแบบจำลองที่เหมาะสมและ RLR นั้นเกี่ยวกับการค้นหาตัวแปรที่เข้าสู่โมเดล
การถดถอยโลจิสติกวานิลลาเป็นโมเดลเชิงเส้นทั่วไป สำหรับการตอบกลับแบบไบนารีเราวางตัวว่าอัตราต่อรองของความน่าจะเป็นในการตอบสนองเป็นฟังก์ชันเชิงเส้นของตัวทำนายจำนวนหนึ่ง ค่าสัมประสิทธิ์ของตัวทำนายถูกประเมินโดยใช้ความน่าจะเป็นสูงสุดและการอนุมานเกี่ยวกับพารามิเตอร์จากนั้นขึ้นอยู่กับคุณสมบัติตัวอย่างขนาดใหญ่ของแบบจำลอง เพื่อผลลัพธ์ที่ดีที่สุดเรามักจะสมมติว่าตัวแบบค่อนข้างเรียบง่ายและเข้าใจดี เรารู้ว่าตัวแปรอิสระส่งผลกระทบต่อการตอบสนองอย่างไร เราต้องการประเมินพารามิเตอร์ของโมเดล
แน่นอนในทางปฏิบัติเราไม่รู้เสมอว่าควรรวมตัวแปรใดในโมเดล นี่เป็นเรื่องจริงโดยเฉพาะอย่างยิ่งในสถานการณ์การเรียนรู้ของเครื่องที่จำนวนตัวแปรอธิบายที่อาจเกิดขึ้นมีขนาดใหญ่และค่าของมันก็กระจัดกระจาย
ในช่วงหลายปีที่ผ่านมาหลายคนพยายามใช้เทคนิคการปรับตัวแบบสถิติเพื่อวัตถุประสงค์ในการเลือกตัวแปร (อ่าน "คุณสมบัติ") ในการเพิ่มระดับความน่าเชื่อถือ:
- จัดวางโมเดลขนาดใหญ่และวางตัวแปรด้วยสถิติ Wald ที่ไม่สำคัญ ไม่ได้สร้างแบบจำลองที่ดีที่สุดเสมอไป
- ดูรุ่นที่เป็นไปได้ทั้งหมดและเลือก "ดีที่สุด" การคำนวณอย่างเข้มข้นและไม่แข็งแกร่ง
- พอดีกับรุ่นใหญ่ที่มีระยะการลงโทษ L1 (สไตล์บ่วงบาศ) ตัวแปรที่ไร้ประโยชน์ได้ลดลงพอดี ดีกว่า แต่ไม่เสถียรกับเมทริกซ์กระจัดกระจาย
- วิธีการแบบสุ่ม 3 ใช้ชุดย่อยแบบสุ่มพอดีกับรูปแบบการลงโทษให้กับแต่ละคนและตรวจสอบผลลัพธ์ ตัวแปรที่เกิดขึ้นบ่อยครั้งจะถูกเลือก เมื่อการตอบสนองเป็นแบบไบนารีนี่คือการถดถอยโลจิสติกแบบสุ่ม สามารถดึงเทคนิคที่คล้ายกันกับข้อมูลต่อเนื่องและโมเดลเชิงเส้นทั่วไป