เหตุใดจึงควรทำการเปลี่ยนแปลง WOE ของตัวพยากรณ์เชิงหมวดหมู่ในการถดถอยโลจิสติก


10

การเปลี่ยนแปลงน้ำหนักของหลักฐาน (WOE) ของตัวแปรเด็ดขาดมีประโยชน์เมื่อใด

ตัวอย่างสามารถเห็นได้ในการแปลง WOE

(ดังนั้นสำหรับการตอบสนอง , & ตัวทำนายหมวดหมู่ที่มีหมวดหมู่ , & ประสบความสำเร็จจากการทดลองภายในหมวดหมู่ที่ของตัวทำนายนี้, WOE สำหรับหมวดหมู่ที่ถูกกำหนดให้เป็นk y j n j j jykyjnjjj

logyjjkyjjk(njyj)njyj

& การเปลี่ยนแปลงประกอบด้วยการเข้ารหัสแต่ละหมวดหมู่ของตัวทำนายหมวดหมู่ด้วย WOE เพื่อสร้างตัวทำนายแบบต่อเนื่องใหม่)

ฉันต้องการเรียนรู้สาเหตุที่การแปลง WOE ช่วยการถดถอยโลจิสติกส์ ทฤษฎีที่อยู่เบื้องหลังสิ่งนี้คืออะไร?

คำตอบ:


6

ในตัวอย่างที่คุณเชื่อมโยงไปถึงตัวคาดคะเนหมวดหมู่จะแสดงโดยตัวแปรต่อเนื่องเดียวที่รับค่าสำหรับแต่ละระดับเท่ากับอัตราการบันทึกที่สังเกตได้ของการตอบสนองในระดับนั้น (บวกค่าคงที่):

logyjnjyj+logjk(njyj)jkyj

การทำให้งงงวยนี้ไม่ได้มีจุดประสงค์ใด ๆ ทั้งสิ้นที่ฉันคิดได้: คุณจะได้รับการตอบสนองที่คาดการณ์เช่นเดียวกับที่คุณใช้การเข้ารหัสแบบจำลองปกติ แต่องศาอิสระไม่ถูกต้องทำให้การอนุมานเกี่ยวกับโมเดลมีประโยชน์หลายรูปแบบ

ในการถดถอยหลายครั้งพร้อมตัวทำนายหมวดหมู่หลาย ๆ ตัวที่จะแปลงผมคิดว่าคุณจะคำนวณ WOE สำหรับแต่ละคนโดยใช้อัตราต่อรองบันทึก ที่จะเปลี่ยนคำตอบที่คาดการณ์ไว้; แต่เนื่องจากไม่ได้คำนึงถึงการรบกวน - อัตราต่อรองแบบมีเงื่อนไขไม่ใช่ฟังก์ชันเชิงเส้นของอัตราต่อรองของการบันทึก - ฉันไม่เห็นเหตุผลที่จะคิดว่ามันเป็นการปรับปรุงและปัญหาเชิงอนุมานยังคงอยู่


คุณช่วยอธิบายได้ไหมว่าทำไมองศาอิสระถึงผิดกับ WOE มันเป็นแค่การเปลี่ยนแปลงใช่มั้ย แล้วถ้าเรามีตัวแปรเด็ดขาดหลายตัวและเราได้ WOE สำหรับแต่ละตัวทีละตัว? จากประสบการณ์ของฉันเมื่อคุณมีตัวแปรเด็ดขาดมากมายจากนั้นถังบางอันระหว่างตัวแปรที่แตกต่างกันทับซ้อนกันมากและคุณเริ่มเห็นค่าสัมประสิทธิ์ที่ไม่มีนัยสำคัญ และคุณต้องแบกค่าสัมประสิทธิ์หลายอย่างด้วย
ดัม

1
(1) การเปลี่ยนแปลงที่ขึ้นอยู่กับการประเมินความสัมพันธ์ของผู้ทำนายต่อการตอบสนอง - สิ่งที่ควรจะเหลือไว้กับการถดถอย ดังนั้นเช่นสถิติการทดสอบอัตราส่วนความน่าจะเป็นจะไม่มีการกระจายตัวเช่นเดียวกับเมื่อมีการเปลี่ยนแปลงการแปลงล่วงหน้า (2) จุดดี! - การถดถอยแบบ WOE หลายครั้งจะไม่เทียบเท่ากับตัวแปรแบบจำลอง (ยกเว้นว่าแบบจำลองนั้นอิ่มตัว) (3) อะไรนะ? (4) ค่าสัมประสิทธิ์ไม่หนักกว่า WOE
Scortchi - Reinstate Monica

ฉันเดาว่า WoE เป็นของเหลือจากช่วงเวลาที่การคำนวณมีปัญหามากกว่าวันนี้ ดังนั้นบางทีด้วยการคาดคะเนหมวดหมู่ที่มีหลายระดับการแปลงเป็นตัวแปรตัวเลขเป็นแนวคิดที่ยอดเยี่ยม!
kjetil b halvorsen

1

การแบ่งประเภทหยาบโดยใช้การวัดน้ำหนักของหลักฐาน (WoE) มีข้อดีดังต่อไปนี้ - WoE แสดงความสัมพันธ์เชิงเส้นกับลอการิทึมธรรมชาติของอัตราส่วนอัตราต่อรองซึ่งเป็นตัวแปรตามในการถดถอยโลจิสติก
ดังนั้นคำถามของการสะกดผิดแบบไม่ได้เกิดขึ้นในการถดถอยโลจิสติกเมื่อเราใช้ WoE แทนค่าจริงของตัวแปร

อัลฟ่าบีตาW o E ( V R 1 )ln(p/1p) = + * + * + *αβWoE(Var1)W o E ( V a r 2 ) η W o E ( V a r 3 )γWoE(Var2)ηWoE(Var3)

ที่มา: หนึ่งใน PPTs ที่เทรนเนอร์ของฉันแสดงให้ฉันเห็นในระหว่างการฝึกอบรม บริษัท


2
"model misspecification ไม่ได้เกิดขึ้นในการถดถอยโลจิสติกเมื่อเราใช้ WoE แทนค่าจริงของตัวแปร" คุณช่วยอธิบาย / พิสูจน์ทางคณิตศาสตร์ได้ไหม?
อาดัม

ฉันไม่ได้มาจากพื้นหลังการวิเคราะห์ความเสี่ยง แต่หน้า 131,132 ของหนังสือเล่มนี้ดูเหมือนจะบอกว่าดังนั้นbooks.google.co.th/in
Srikanth Guhan

ลิงค์นี้อ้างว่าเหมือนกันแม้ว่าจะไม่มีการอธิบายทางคณิตศาสตร์analyticbridge.com/forum/topics/ …
Srikanth Guhan

1
ขอบคุณสำหรับการเชื่อมโยง แต่เห็นได้ชัดว่ามันไม่จริงที่อัตรากำไรขั้นต้นของการบันทึกซึ่ง WoE เป็นสัดส่วนมีความสัมพันธ์แบบเชิงเส้นกับอัตราต่อรองแบบมีเงื่อนไขซึ่งการถดถอยแบบโลจิสติกส์เกี่ยวข้อง การรบกวนกับผู้ทำนายคนอื่น ๆ อาจส่งผลให้ WoE สั่งหมวดหมู่แตกต่างกัน
Scortchi - Reinstate Monica

1

การแปลง WOE ช่วยเมื่อคุณมีข้อมูลตัวเลขและหมวดหมู่ที่คุณต้องการรวมและค่าที่หายไปตลอดที่คุณต้องการดึงข้อมูลจาก การแปลงทุกอย่างเป็น WOE จะช่วยให้ "สร้างมาตรฐาน" ข้อมูลประเภทต่าง ๆ มากมาย (แม้กระทั่งข้อมูลที่หายไป) ลงบนมาตราส่วนอัตราต่อรองของบันทึกเดียวกัน โพสต์บล็อกนี้อธิบายสิ่งต่าง ๆ ได้ดีพอสมควร: http://multithreaded.stitchfix.com/blog/2015/08/13/weight-of-evidence/

เรื่องราวสั้น ๆ ก็คือ Logistic Regression กับ WOE ควรจะเป็น (และเรียกว่า) เรียกว่า Semi-Naive Bayesian Classifier (SNBC) หากคุณกำลังพยายามที่จะเข้าใจอัลกอริทึมชื่อ SNBC นั้นสำหรับฉันมีข้อมูลมากกว่านี้

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.