การแทนที่ตัวแปรด้วย WoE (น้ำหนักของหลักฐาน) ใน Logistic Regression

นี่เป็นคำถามเกี่ยวกับการฝึกฝนหรือวิธีการตามด้วยเพื่อนร่วมงานของฉัน ในขณะที่ทำแบบจำลองการถดถอยโลจิสติกฉันได้เห็นผู้คนแทนที่ตัวแปรเด็ดขาด (หรือตัวแปรต่อเนื่องซึ่งถูก binned) ด้วยน้ำหนักของหลักฐาน (WoE) นี้จะกระทำเพื่อที่จะสร้างความต่อเนื่องสัมพันธ์ระหว่าง regressor และตัวแปรตาม เท่าที่ฉันเข้าใจเมื่อสร้างแบบจำลองแล้วตัวแปรในสมการไม่ใช่ตัวแปรในชุดข้อมูล แต่ตัวแปรในสมการนั้นเป็นความสำคัญหรือน้ำหนักของตัวแปรในการแยกตัวแปรตาม !

คำถามของฉันคือตอนนี้เราจะตีความรูปแบบหรือค่าสัมประสิทธิ์แบบจำลองได้อย่างไร ตัวอย่างเช่นสำหรับสมการต่อไปนี้:

\log (\frac{p}{1 - p}) = β_{0} + β_{1} x_{1}

$\log\bigg(\frac{p}{1-p}\bigg) = \beta_0 + \beta_1x_1$

เราสามารถพูดได้ว่า เป็นเพิ่มขึ้นเมื่อเทียบกับในอัตราส่วนที่แปลกสำหรับ 1 เพิ่มขึ้นหน่วยในตัวแปร x_1 $\exp(\beta_1)$ $x_1$

แต่ถ้าตัวแปรถูกแทนที่ด้วย WoE แล้วการตีความจะถูกเปลี่ยนเป็น: การเพิ่มขึ้นของอัตราส่วนคี่สำหรับการเพิ่ม 1 หน่วยในความสำคัญ / น้ำหนักของตัวแปร

ฉันได้เห็นการฝึกฝนนี้ในอินเทอร์เน็ต แต่ไม่มีที่ไหนที่ฉันพบคำตอบของคำถามนี้ ลิงก์นี้จากชุมชนนี้เองเกี่ยวข้องกับข้อความค้นหาที่คล้ายกันซึ่งมีคนเขียนไว้:

WoE แสดงความสัมพันธ์เชิงเส้นกับลอการิทึมธรรมชาติของอัตราต่อรองซึ่งเป็นตัวแปรตามในการถดถอยโลจิสติก ดังนั้นคำถามของการสะกดผิดแบบไม่ได้เกิดขึ้นในการถดถอยโลจิสติกเมื่อเราใช้ WoE แทนค่าจริงของตัวแปร

แต่ฉันก็ยังไม่ได้คำอธิบาย โปรดช่วยฉันเข้าใจสิ่งที่ฉันหายไป

— SamRoy
แหล่งที่มา

\exp (β_{1})

$\exp(\beta_1)$ คืออัตราต่อรองที่เกี่ยวข้องกับการเพิ่มขึ้น 1 หน่วยในไม่ใช่ " การเพิ่มขึ้นสัมพันธ์กับอัตราต่อรองที่สัมพันธ์กับการเพิ่มขึ้น 1 หน่วยใน "

x_{1}

$x_1$

x_{1}

$x_1$

— gung - Reinstate Monica

Nope ชัดเจนเพื่อกำจัดคุณต้องใช้อัตราส่วนของ LHS หลังการยกกำลัง

β_{0}

$\beta_{0}$

— SamRoy

อัตราต่อรองคือ p / (1-p) ดังนั้นถ้า p (x) = exp (𝛽0 + 𝛽1x) และ p (x + 1) = exp (𝛽0 + 𝛽1x + 𝛽1) โปรดทราบว่า p (x + 1) = exp (𝛽0 + 𝛽1x) exp (𝛽1) และสุดท้ายอัตราต่อรอง p (x + 1) / p (x) = exp (𝛽1) ตามที่ระบุไว้โดยstats.stackexchange.com/users/7290/gung

— hwrd

คำตอบ:

วิธีการ WoE ประกอบด้วยสองขั้นตอน:

1 - เพื่อแยกตัวแปร (ต่อเนื่อง) ออกเป็นสองสามหมวดหมู่หรือเปลี่ยนเป็นกลุ่ม (แยกกัน) เป็นสองสามหมวดหมู่ (และในทั้งสองกรณีคุณถือว่าการสังเกตทั้งหมดในหมวดหมู่เดียวมีผล "เดียวกัน" ต่อตัวแปรตาม)
2 - เพื่อคำนวณ WoE ค่าสำหรับแต่ละหมวดหมู่ (จากนั้นค่า x ต้นฉบับจะถูกแทนที่ด้วยค่า WoE)

การแปลง WoE มีผลในเชิงบวกสามอย่าง: (
1) มันสามารถเปลี่ยนตัวแปรอิสระเพื่อสร้างความสัมพันธ์แบบโมโนโทนิกกับตัวแปรตาม ที่จริงแล้วมันทำมากกว่านี้ - เพื่อรักษาความสัมพันธ์แบบ monotonic มันจะเพียงพอที่จะ "recode" มันไปยังมาตรการสั่งใด ๆ (เช่น 1,2,3,4 ... ) แต่การแปลง WoE สั่งหมวดหมู่ใน "logistic จริง ๆ " "สเกลซึ่งเป็นธรรมชาติสำหรับการถดถอยโลจิสติก
2) สำหรับตัวแปรที่มีค่าไม่ต่อเนื่อง (มีประชากรเบาบาง) มากเกินไปค่าเหล่านี้สามารถจัดกลุ่มเป็นหมวดหมู่ (ประชากรหนาแน่น) และ WoE สามารถใช้แสดงข้อมูลสำหรับหมวดหมู่ทั้งหมด
3) ผลกระทบ (univariate) ของแต่ละหมวดหมู่ต่อตัวแปรตามสามารถเปรียบเทียบข้ามหมวดหมู่และข้ามตัวแปรได้เพราะ WoE เป็นค่ามาตรฐาน (ตัวอย่างเช่นคุณสามารถเปรียบเทียบ WoE ของคนที่แต่งงานแล้วกับ WoE ของผู้ใช้งานด้วยตนเอง)

นอกจากนี้ยังมี (อย่างน้อย) สามข้อเสีย:
1) การสูญเสียข้อมูล (การเปลี่ยนแปลง) เนื่องจากการ binning ไม่กี่ประเภท
2) มันเป็น "univariate" การวัดดังนั้นจึงไม่คำนึงถึงความสัมพันธ์ระหว่างตัวแปรอิสระ
3) มันง่ายที่จะ จัดการ (มากเกินไป) ผลของตัวแปรตามวิธีการสร้างหมวดหมู่

ตามอัตภาพ betas ของการถดถอย (ที่ x ถูกแทนที่ด้วย WoE) จะไม่ตีความต่อ se แต่พวกเขาจะถูกคูณกับ WoE เพื่อให้ได้ "คะแนน" (ตัวอย่างเช่นเบต้าสำหรับตัวแปร "สถานะสมรส" สามารถคูณกับ WoE ของ กลุ่ม "คนที่แต่งงานแล้ว" เพื่อดูคะแนนของคนที่แต่งงาน; เบต้าสำหรับตัวแปร "อาชีพ" สามารถคูณด้วย WoE ของ "คนทำงานด้วยตนเอง" เพื่อดูคะแนนของคนทำงานด้วยตนเองถ้าคุณสนใจคะแนนของคนงานแต่งงานด้วยตนเอง คุณสรุปคะแนนทั้งสองนี้และดูว่ามีผลต่อผลลัพธ์อย่างไร) ยิ่งคะแนนยิ่งสูงเท่าไหร่ก็ยิ่งมีโอกาสมากเท่านั้นที่จะได้ผลลัพธ์เท่ากับ 1

— Brano Cuchran
แหล่งที่มา

(+1) เพราะเหตุใดจึงเป็นประโยชน์ในการถอดรหัสตัวพยากรณ์เพื่อให้มีความสัมพันธ์แบบ monotonic กับการตอบสนอง

— Scortchi - Reinstate Monica

@Scortchi ฉันสามารถนึกถึงตัวอย่าง - ตัวแปรอิสระคือความสูงของคน (วัดเป็นซม.) ผู้คนกำลังช็อปปิ้งเสื้อผ้าที่ดีตัวแปรตามนั้นน่าจะเป็นเหตุการณ์ไบนารี - ไม่ว่าพวกเขาจะสามารถซื้อเสื้อผ้าที่เหมาะสมและสะดวกสบายหรือไม่ก็ตาม เห็นได้ชัดว่าคนที่มีขนาดเล็กมากและสูงมากจะมีปัญหาในการซื้อเสื้อผ้าที่เหมาะสมในขณะที่คนที่อยู่ตรงกลางสามารถทำได้อย่างง่ายดาย ด้วยการถดถอยที่เรียบง่าย (ไม่มีปฏิสัมพันธ์และไม่มีการเปลี่ยนแปลง) คุณสามารถสร้างแบบจำลองความน่าจะเป็นที่จะซื้อเสื้อผ้าที่เหมาะสมทั้งเพิ่มหรือลดตามความสูงของผู้คน

— Brano Cuchran

ผู้คนมักจะไม่ใช้การแปลงพยากรณ์แบบไม่ใช้โมโนโทนิก - ไม่ใช่ในการสร้างแบบจำลองเชิงประจักษ์ การรวมการโต้ตอบสามารถลบหรือแนะนำความสัมพันธ์ที่ไม่ใช่แบบโมโนโทนิกแบบมีเงื่อนไขเช่นเดียวกับตัวทำนายอื่น ๆ แต่การเป็นตัวแทนของผู้ทำนายที่มีฟังก์ชั่นพื้นฐานพหุนามหรือเส้นโค้งเป็นวิธีที่ตรงไปตรงมาของการอนุญาตให้พวกเขา; และอีกอันหนึ่งคือการใช้งานมันและจากนั้นจึงจัดให้เป็นหมวดหมู่โดยใช้เช่นการเข้ารหัสระดับอ้างอิง อย่างน้อยที่สุดก็ง่ายกว่าการแปลง WoE นี้มาก ไม่มีการแบ่งปันความเสียหายกับ ...

— Scortchi - Reinstate Monica

... การอนุมานและการตีความที่เกิดขึ้นจากการกำหนดตัวทำนายในแง่ของการตอบสนอง; & ทั้งหมดอนุญาตให้มีการสร้างแบบจำลองความสัมพันธ์ตามเงื่อนไขที่ไม่ใช่แบบโมโนโทนิแม้ว่าความสัมพันธ์ส่วนใหญ่จะเป็นแบบโมโนโทนิก (หรือในทางกลับกัน) ฉันคิดว่าสิ่งที่ฉันได้รับคือการแปลง WoE ดูเหมือนว่าฉันจะเป็นทางออกในการค้นหาปัญหา มีคลาสของสถานการณ์ที่ทำให้เกิดการทำนายที่ดีกว่าวิธีที่ใช้กันอย่างแพร่หลายมากขึ้นหรือไม่? - แม้ว่าจะเป็นคำถามที่แตกต่างจากคำถามที่คุณตอบไปแล้ว (บางทีstats.stackexchange.com/q/166816/17230 )

— Scortchi - Reinstate Monica

ถ้าคุณมีข้อมูลเด็ดขาดแล้วล่ะ? ประโยชน์เพียงอย่างเดียว "เพื่อสร้างความสัมพันธ์แบบโมโนโทนิก" คืออะไร? ดูเหมือนว่าองค์ประกอบที่สำคัญของ WoE นั้นแท้จริงแล้วในกระบวนการ binning

— information_interchange

เหตุผลในการใช้ WOE ในการถดถอยโลจิสติกคือการสร้างสิ่งที่บางครั้งเรียกว่า Semi-Naive Bayesian Classifier (SNBC) จุดเริ่มต้นของโพสต์บล็อกนี้อธิบายสิ่งต่าง ๆ ได้ดี: http://multithreaded.stitchfix.com/blog/2015/08/13/weight-of-evidence/

พารามิเตอร์เบต้าในแบบจำลองนั้นมีความลำเอียงเชิงเส้นของผลกระทบที่ไร้เดียงสา (หรือที่รู้จักกันว่าน้ำหนักของหลักฐาน) เนื่องจากการปรากฏตัวของผู้ทำนายคนอื่น ๆ และพวกเขาสามารถตีความได้ว่าเป็นการเปลี่ยนแปลงเชิงเส้นในอัตราต่อรองของ ตัวทำนายอื่น ๆ

— Stephened
แหล่งที่มา

Weight of Evidence (WoE) เป็นเทคนิคที่มีประสิทธิภาพในการแปลงและเลือกตัวแปร มันถูกใช้อย่างกว้างขวางในการให้คะแนนเครดิตเพื่อวัดการแยกของลูกค้าที่ดีและไม่ดี (ตัวแปร) ข้อดี :: - จัดการกับค่าที่หายไปจัดการกับค่าผิดปกติการแปลงจะขึ้นอยู่กับค่าการกระจายของ logrithmic ไม่จำเป็นต้องใช้ตัวแปรดัมมี่โดยใช้เทคนิคการ binning ที่เหมาะสมซึ่งสามารถสร้างความสัมพันธ์แบบโมโนโทนิกได้โดยอิสระและขึ้นอยู่กับ

mono_bin () = ใช้สำหรับตัวแปรที่เป็นตัวเลข char_bin () = ใช้สำหรับตัวแปรตัวอักษร

— Krishna75
แหล่งที่มา