เหตุใดการถดถอยโลจิสติกจึงสร้างแบบจำลองที่ได้รับการสอบเทียบอย่างดี


13

ฉันเข้าใจว่าเหตุผลหนึ่งที่การถดถอยโลจิสติกส์ใช้บ่อยในการทำนายอัตราการคลิกผ่านบนเว็บคือมันสร้างแบบจำลองที่ได้รับการสอบเทียบอย่างดี มีคำอธิบายทางคณิตศาสตร์ที่ดีสำหรับเรื่องนี้หรือไม่?


2
การถดถอยโลจิสติกทำขึ้นเพื่อทำนายความน่าจะเป็น -> ซึ่งนำไปสู่การคาดการณ์ที่สอบเทียบแล้วหากไม่เหมาะสม ในขณะที่เครื่องมากที่สุดรูปแบบการเรียนรู้ที่ไม่ได้คาดการณ์Probabilités แต่เรียน - และมีการบิดบางอย่างที่จะมาหลอกprobabilitésจากคาดการณ์เหล่านี้ -> จึงทราบการสอบเทียบอย่างดี
ชาร์ลส์

2
ฉันควรอธิบายให้ชัดเจนในคำถาม แต่คำถามของฉันเกี่ยวกับสาเหตุที่ LR มีประโยชน์มากในการทำนายความน่าจะเป็น
lsankar4033

เป็นเรื่องที่น่าสังเกตว่าคุณสามารถใส่การถดถอยโลจิสติกส์กับผลลัพธ์ของลักษณนามที่มีการสอบเทียบไม่ดีเพื่อให้ได้แบบจำลองที่ได้รับการสอบเทียบ สิ่งนี้เรียกว่า Platt Scaling en.wikipedia.org/wiki/Platt_scaling
generic_user

คำตอบ:


15

ใช่.

ที่คาดการณ์ความน่าจะเป็นเวกเตอร์จากความพึงพอใจการถดถอยโลจิสติกสมการเมทริกซ์p

Xt(py)=0

โดยที่คือเมทริกซ์การออกแบบและyคือเวกเตอร์การตอบสนอง นี้สามารถถูกมองว่าเป็นคอลเลกชันของสมการเชิงเส้นหนึ่งที่เกิดขึ้นจากคอลัมน์ของการออกแบบเมทริกซ์แต่ละXXyX

โดยเฉพาะคอลัมน์สกัดกั้น (ซึ่งเป็นแถวในเมทริกซ์ transposed) สมการเชิงเส้นที่เกี่ยวข้องคือ

i(piyi)=0

ดังนั้นความน่าจะเป็นเฉลี่ยที่คาดการณ์โดยรวมจึงเท่ากับค่าเฉลี่ยของการตอบสนอง

โดยทั่วไปสำหรับคอลัมน์คุณลักษณะไบนารีสมการเชิงเส้นที่เกี่ยวข้องคือxij

ixij(piyi)=ixij=1(piyi)=0

ดังนั้นผลรวม (และด้วยเหตุนี้เฉลี่ย) ของความน่าจะเป็นที่คาดการณ์ไว้เท่ากับผลรวมของการตอบสนองแม้ในขณะที่มีความเชี่ยวชาญในการระเบียนเหล่านั้นที่ 1xij=1


1
p1/(1+exp(x))

1
ใช่ p เป็นรูปแบบนั้น สมการแรกมาจากการตั้งค่าอนุพันธ์ของฟังก์ชันการสูญเสียให้เป็นศูนย์
Matthew Drury

1
ที่อยู่นี้เพียงการสอบเทียบในขนาดใหญ่ซึ่งไม่ใช่สิ่งที่เราต้องการ: การสอบเทียบในขนาดเล็ก
Frank Harrell

1
@ FrankHarrell สนใจที่จะทำอย่างละเอียด? ฉันไม่เคยได้ยินคำศัพท์เหล่านี้มาก่อน
Matthew Drury

3
มีประวัติอันยาวนานในการคาดคะเนความน่าจะเป็นวรรณคดีที่จัดทำโดย US Weather Service 1950 - นั่นคือสิ่งที่คะแนน Brier ถูกใช้ครั้งแรก การสอบเทียบแบบตัวเล็กหมายความว่าหากดูที่ความเสี่ยงที่คาดการณ์ไว้ที่ 0.01, 0.02, ... , 0.99 แต่ละสิ่งเหล่านี้มีความถูกต้องเช่นทุกครั้งที่ความเสี่ยงที่คาดการณ์ไว้คือ 0.4 ผลที่เกิดขึ้นประมาณ 0.4 เวลา. ฉันเรียกว่า "การสอบเทียบแบบตัวย่อ" ขั้นตอนต่อไป: สำหรับผู้ชายที่การคาดคะเนคือ 0.4 คือผลลัพธ์ปัจจุบัน 0.4 ของเวลาสำหรับผู้หญิง
Frank Harrell

2

ฉันคิดว่าฉันสามารถให้คำอธิบายที่เข้าใจง่ายแก่คุณดังนี้


J(θ)=1mi=1m[y(i)log(hθ(x(i)))+(1y(i))log(1hθ(x(i)))]

my(i)hθ(x(i))11+exp[αjθjxj(i)]α

θj

J(θ)θj=1mi=1m[hθ(x(i))y(i)]xj(i)


i=1mhθ(x(i))xj(i)=i=1my(i)xj(i)

นั่นหมายความว่าหากแบบจำลองได้รับการฝึกอบรมอย่างสมบูรณ์ความน่าจะเป็นที่คาดการณ์ที่เราได้รับสำหรับชุดการฝึกอบรมจะกระจายตัวออกไปดังนั้นสำหรับแต่ละคุณลักษณะผลรวมของค่าถ่วงน้ำหนัก (ทั้งหมด) ของคุณลักษณะนั้นจะเท่ากับผลรวมของค่าของคุณลักษณะนั้น ของกลุ่มตัวอย่างที่เป็นบวก

αx0αθ0

i=1mhθ(x(i))x0(i)=i=1my(i)x0(i)
i=1mhθ(x(i))=i=1my(i)
hθ(x(i))
i=1mp(i)=i=1my(i)

เราสามารถเห็นได้อย่างชัดเจนว่าการถดถอยโลจิสติกนั้นได้รับการสอบเทียบอย่างดี

การอ้างอิง: โมเดลเชิงเส้นล็อกและฟิลด์สุ่มแบบมีเงื่อนไขโดย Charles Elkan

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.