วิธีการรักษาผู้ทำนายตามหมวดหมู่ใน LASSO


17

ฉันใช้ LASSO ที่มีตัวแปลตัวแปรเด็ดขาดและตัวต่อเนื่องบางตัว ฉันมีคำถามเกี่ยวกับตัวแปรเด็ดขาด ขั้นตอนแรกที่ฉันเข้าใจคือการแบ่งพวกเขาแต่ละคนออกเป็นหุ่นจำลองพวกเขาให้เป็นมาตรฐานสำหรับการลงโทษที่เป็นธรรมจากนั้นถอยกลับ มีหลายตัวเลือกสำหรับจัดการกับตัวแปรจำลอง:

  1. รวมถึงหุ่นทั้งหมดยกเว้นหุ่นตัวใดตัวหนึ่งสำหรับแต่ละปัจจัยโดยปล่อยให้สิ่งนั้นอยู่ในระดับอ้างอิง การตีความสัมประสิทธิ์ดัมมี่นั้นสัมพันธ์กับหมวดหมู่ "อ้างอิง" ที่ยกเว้น ขณะนี้การสกัดกั้นเป็นการตอบสนองเฉลี่ยสำหรับหมวดหมู่อ้างอิง

  2. จัดกลุ่มตัวแปรในแต่ละปัจจัยดังนั้นพวกมันจึงถูกยกเว้นหรือรวมอยู่ด้วย ฉันเชื่อว่านั่นคือสิ่งที่ @Glen_b กำลังแนะนำที่นี่ :

    โดยปกติแล้วคุณเก็บปัจจัยทั้งหมดไว้ด้วยกัน มีแพ็คเกจ R หลายที่สามารถทำได้รวมถึง glmnet

  3. รวมทุกระดับตามที่แนะนำโดย @Andrew M ที่นี่ :

    คุณอาจต้องการเปลี่ยนฟังก์ชั่นคอนทราสต์เริ่มต้นซึ่งโดยปกติแล้วจะแยกระดับหนึ่งของแต่ละปัจจัยออกมา แต่เนื่องจากการลงโทษด้วยเชือกทำให้ไม่จำเป็นต้องระบุตัวตนอีกต่อไปและในความเป็นจริงแล้วการตีความตัวแปรที่เลือกมีความซับซ้อนมากขึ้น เมื่อต้องการทำสิ่งนี้ให้ตั้งค่า

    contr.Dummy <- function(contrasts, ...){
       conT <- contr.treatment(contrasts=FALSE, ...)
       conT
    }
    options(contrasts=c(ordered='contr.Dummy', unordered='contr.Dummy'))
    

    ตอนนี้ไม่ว่าคุณจะเลือกระดับของปัจจัยใดคุณสามารถคิดว่ามันเป็นการเสนอแนะว่าระดับเฉพาะเหล่านี้มีความสำคัญเมื่อเทียบกับระดับที่ข้ามไปทั้งหมด ในการเรียนรู้ของเครื่องฉันได้เห็นการเข้ารหัสนี้เรียกว่าการเข้ารหัสแบบร้อนแรง

คำถาม:

  1. การตีความของการสกัดกั้นและค่าสัมประสิทธิ์ภายใต้วิธีการเหล่านี้แต่ละวิธีคืออะไร?
  2. สิ่งที่ต้องพิจารณาในการเลือกหนึ่งในนั้นคืออะไร?
  3. เราไม่ได้ปรับค่าสัมประสิทธิ์ dummy แล้วตีความว่าเป็นการเปลี่ยนจากไปเป็น on หรือไม่?

คำตอบ:


6

β

ในการตอบคำถามเฉพาะของคุณ:

(1) LASSO เป็นวิธีการประมาณค่าสัมประสิทธิ์ แต่สัมประสิทธิ์เองถูกกำหนดโดยสมการต้นแบบเริ่มต้นสำหรับการถดถอยของคุณ ดังนั้นการตีความสัมประสิทธิ์จะเหมือนกับในการถดถอยเชิงเส้นมาตรฐาน พวกเขาเป็นตัวแทนของอัตราการเปลี่ยนแปลงของการตอบสนองที่คาดหวังเนื่องจากการเปลี่ยนแปลงในตัวแปรอธิบาย

(2) เอกสารข้างต้นแนะนำให้จัดกลุ่มตัวแปร แต่เก็บหมวดหมู่อ้างอิงไว้ โดยปริยายถือว่าคุณกำลังเปรียบเทียบการมีอยู่ของตัวแปรเด็ดขาดกับโมเดลที่ลบออก แต่ยังคงมีคำดักจับ

(3) ตามที่ระบุไว้ข้างต้นวิธีการประมาณค่าไม่มีผลต่อการตีความสัมประสิทธิ์ซึ่งกำหนดโดยคำแถลงโมเดล


1
Hatshepsut: หากคุณคิดว่าคำตอบนี้มีประโยชน์คุณควรพิจารณาupvotingและ / หรือ ยอมรับมัน ถ้าไม่ใช่คุณอาจบอกได้ว่ามีอะไรหายไปบ้าง
S. Kolassa - Reinstate Monica

@StephanKolassa เสร็จแล้ว
Hatshepsut
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.