ฉันเข้าใจว่าเหตุผลหนึ่งที่การถดถอยโลจิสติกส์ใช้บ่อยในการทำนายอัตราการคลิกผ่านบนเว็บคือมันสร้างแบบจำลองที่ได้รับการสอบเทียบอย่างดี มีคำอธิบายทางคณิตศาสตร์ที่ดีสำหรับเรื่องนี้หรือไม่?
ฉันเข้าใจว่าเหตุผลหนึ่งที่การถดถอยโลจิสติกส์ใช้บ่อยในการทำนายอัตราการคลิกผ่านบนเว็บคือมันสร้างแบบจำลองที่ได้รับการสอบเทียบอย่างดี มีคำอธิบายทางคณิตศาสตร์ที่ดีสำหรับเรื่องนี้หรือไม่?
คำตอบ:
ใช่.
ที่คาดการณ์ความน่าจะเป็นเวกเตอร์จากความพึงพอใจการถดถอยโลจิสติกสมการเมทริกซ์
โดยที่คือเมทริกซ์การออกแบบและyคือเวกเตอร์การตอบสนอง นี้สามารถถูกมองว่าเป็นคอลเลกชันของสมการเชิงเส้นหนึ่งที่เกิดขึ้นจากคอลัมน์ของการออกแบบเมทริกซ์แต่ละX
โดยเฉพาะคอลัมน์สกัดกั้น (ซึ่งเป็นแถวในเมทริกซ์ transposed) สมการเชิงเส้นที่เกี่ยวข้องคือ
ดังนั้นความน่าจะเป็นเฉลี่ยที่คาดการณ์โดยรวมจึงเท่ากับค่าเฉลี่ยของการตอบสนอง
โดยทั่วไปสำหรับคอลัมน์คุณลักษณะไบนารีสมการเชิงเส้นที่เกี่ยวข้องคือ
ดังนั้นผลรวม (และด้วยเหตุนี้เฉลี่ย) ของความน่าจะเป็นที่คาดการณ์ไว้เท่ากับผลรวมของการตอบสนองแม้ในขณะที่มีความเชี่ยวชาญในการระเบียนเหล่านั้นที่ 1
ฉันคิดว่าฉันสามารถให้คำอธิบายที่เข้าใจง่ายแก่คุณดังนี้
นั่นหมายความว่าหากแบบจำลองได้รับการฝึกอบรมอย่างสมบูรณ์ความน่าจะเป็นที่คาดการณ์ที่เราได้รับสำหรับชุดการฝึกอบรมจะกระจายตัวออกไปดังนั้นสำหรับแต่ละคุณลักษณะผลรวมของค่าถ่วงน้ำหนัก (ทั้งหมด) ของคุณลักษณะนั้นจะเท่ากับผลรวมของค่าของคุณลักษณะนั้น ของกลุ่มตัวอย่างที่เป็นบวก
เราสามารถเห็นได้อย่างชัดเจนว่าการถดถอยโลจิสติกนั้นได้รับการสอบเทียบอย่างดี
การอ้างอิง: โมเดลเชิงเส้นล็อกและฟิลด์สุ่มแบบมีเงื่อนไขโดย Charles Elkan