ความสำคัญของตัวแปรในการถดถอยโลจิสติกส์


11

ฉันอาจจะจัดการกับปัญหาที่อาจแก้ไขได้หลายร้อยครั้งก่อนหน้านี้ แต่ฉันไม่แน่ใจว่าจะหาคำตอบได้ที่ไหน

เมื่อใช้การถดถอยโลจิสติกให้คุณสมบัติมากมายและพยายามทำนายค่าหมวดหมู่ไบนารีฉันสนใจในการเลือกชุดย่อยของคุณสมบัติที่ทำนายดี y yx1,...,xnyy

มีขั้นตอนคล้ายกับบ่วงบาศที่สามารถใช้ได้หรือไม่? (ฉันเคยเห็นบ่วงบาศที่ใช้สำหรับการถดถอยเชิงเส้นเท่านั้น)

ดูที่ค่าสัมประสิทธิ์ของรุ่นที่ติดตั้งแล้วซึ่งบ่งบอกถึงความสำคัญของคุณสมบัติที่แตกต่างกันหรือไม่?

แก้ไข - การชี้แจงหลังจากเห็นคำตอบบางส่วน:

  1. เมื่อฉันอ้างถึงขนาดของสัมประสิทธิ์การติดตั้งฉันหมายถึงคุณลักษณะที่ได้รับการปรับให้เป็นมาตรฐาน (หมายถึง 0 และความแปรปรวน 1) มิฉะนั้นตามที่ @probabilityislogic ชี้ให้เห็น 1000x จะมีความสำคัญน้อยกว่า x

  2. ฉันไม่สนใจเพียงแค่ค้นหา k-subset ที่ดีที่สุด (ตามที่ @Davide กำลังนำเสนอ) แต่ให้น้ำหนักความสำคัญของคุณลักษณะที่แตกต่างกันเมื่อเทียบกัน ตัวอย่างเช่นคุณลักษณะหนึ่งอาจเป็น "อายุ" และอีกคุณสมบัติหนึ่งคืออายุ> 30 " ความสำคัญที่เพิ่มขึ้นของพวกเขาอาจมีเพียงเล็กน้อย แต่ทั้งคู่อาจมีความสำคัญ

คำตอบ:


8

คำตอบของ DWin นั้นให้คำตอบ แต่เข้าใจน้อยฉันจึงคิดว่ามันอาจมีประโยชน์ในการให้คำอธิบาย

หากคุณมีสองชั้นเรียนคุณมีพื้นพยายามที่จะประเมินx_i) นี่คือทั้งหมดที่คุณต้องการและโมเดลการถดถอยแบบโลจิสติกถือว่า:p=P(yi=1|X=xi)

logp1p=logP(yi=1|X=xi)P(yi=0|X=xi)=β0+β1Txi

สิ่งที่ฉันคิดว่าคุณหมายถึงความสำคัญของคุณลักษณะเป็นวิธีการที่มันมีผลต่อหรือในคำอื่น ๆ สิ่งที่เป็นIJ}}p pjppxij

หลังจากการเปลี่ยนแปลงเล็กน้อยคุณจะเห็นได้ว่า

p=eβ0+β1Txi1+eβ0+β1Txix_i}}

เมื่อคุณคำนวณอนุพันธ์ของคุณคุณจะเห็นว่า

pxij=βjeβ0+β1Txi

ชัดเจนขึ้นอยู่กับมูลค่าของตัวแปรอื่น ๆ ทั้งหมด อย่างไรก็ตามคุณสามารถสังเกตได้ว่าการเข้าสู่ระบบของสัมประสิทธิ์สามารถตีความในแบบที่คุณต้องการ: ถ้ามันเป็นเชิงลบคุณสมบัตินี้จะลดความน่าจะเป็น p

ในขั้นตอนการประมาณค่าของคุณคุณกำลังพยายามประมาณ s สมมติว่าแบบจำลองของคุณถูกต้อง ด้วยการทำให้เป็นปกติคุณจะมีอคติในการประมาณการเหล่านี้ สำหรับการถดถอยริดจ์และตัวแปรอิสระคุณสามารถรับโซลูชันแบบปิด:β

βr^=β^β^+λแลมบ์ดา}

อย่างที่คุณเห็นสิ่งนี้สามารถเปลี่ยนสัญลักษณ์ของค่าสัมประสิทธิ์ของคุณได้แม้การตีความจะแยกจากกัน


1
พิมพ์ผิดในส่วนของ eq1?
เฟอร์นันโด

7

คำตอบสำหรับคำถามสุดท้ายของคุณคือหมายเลขไม่คงที่ ขนาดของสัมประสิทธิ์ไม่มีทางวัดความสำคัญ เชือกสามารถใช้สำหรับการถดถอยโลจิสติก คุณจำเป็นต้องศึกษาพื้นที่เพิ่มเติมอย่างขยันหมั่นเพียร วิธีการที่คุณต้องศึกษาคือวิธีการที่ "ลงโทษ" หากคุณกำลังมองหาวิธีการตรวจจับที่เปิดเผยตัวทำนาย "เงา" คำที่อาจถูกกำหนดไว้ที่ไหนสักแห่ง แต่ไม่ได้ใช้งานโดยทั่วไปคุณต้องมองหาวิธีที่ตรวจสอบการปฏิสัมพันธ์และโครงสร้างที่ไม่ใช่เชิงเส้นภายในพื้นที่ตัวทำนายและ เชื่อมโยงผลลัพธ์ไปยังพื้นที่นั้น มีการพูดคุยกันเล็กน้อยในประเด็นและวิธีการเหล่านี้ในข้อความ "กลยุทธ์การสร้างแบบจำลองการถดถอย" ของแฟรงก์ฮาร์เรลล์

กลยุทธ์การเลือกย้อนหลังจะล้มเหลวในการส่งมอบผลลัพธ์ที่ถูกต้อง (แม้ว่าจะส่งผลลัพธ์) หากคุณดูกรณีของตัวทำนายแบบสุ่ม 20 รายการสำหรับเหตุการณ์ 100 เหตุการณ์คุณอาจพบว่ามี 2 หรือ 3 ตัวที่จะถูกเลือกด้วยกระบวนการคัดเลือกแบบย้อนหลัง ความชุกของการเลือกย้อนหลังในโลกแห่งความเป็นจริงสะท้อนให้เห็นถึงความคิดทางสถิติไม่ระวัง แต่ค่อนข้างง่ายใน SAS และ SPSS และขาดความซับซ้อนของฐานผู้ใช้ของผลิตภัณฑ์เหล่านั้น ฐานผู้ใช้ R มีเวลาในการเข้าถึงวิธีการดังกล่าวและผู้ใช้ที่โพสต์คำขอในรายการส่งเมลและดังนั้นพวกเขามักจะได้รับคำแนะนำเกี่ยวกับปัญหาที่เกี่ยวข้องกับวิธีการเลือกย้อนหลัง (หรือส่งต่อ)


1
ฉันรู้ว่าฉันควรจะ - ฉันจะซาบซึ้งมากพอยน์เตอร์ที่จะเริ่มต้น
Guy Adini

ฉันจะเพิ่มตัวอย่างเพื่อสำรองข้อมูลนี้ สมมติว่าเราตั้ง{1} จากนั้น (unpenalised) ค่าสัมประสิทธิ์ประมาณสำหรับจะครั้งมีขนาดเล็กกว่า (unpenalised) ค่าสัมประสิทธิ์ประมาณสำหรับ{1} แต่ให้สังเกตว่าความแข็งแกร่งของตัวทำนายสองตัวจะเหมือนกันทุกประการ x n + 1 1,000 x 1xn+1=1000x1xn+11000x1
ความน่าจะเป็นเชิง

โปรดดูความคิดเห็นของฉันด้านบน (ใช้คุณสมบัติปกติ) ขอบคุณ
Guy Adini

ขอบคุณ. ฉันจะดูว่า คุณสามารถตั้งชื่ออัลกอริทึมทั่วไปสองสามอย่างที่ใช้ใน "การตรวจสอบการมีปฏิสัมพันธ์และโครงสร้างที่ไม่ใช่เชิงเส้นภายในพื้นที่ตัวทำนาย" หรือว่าเป็นสถานการณ์เป็นกรณี ๆ ไปหรือไม่?
Guy Adini

คุณสามารถใช้เส้นโค้งการถดถอยเพื่อค้นหาคำที่ไม่ใช่เชิงเส้นและเส้นโค้งสามารถ "ข้าม" ซึ่งช่วยให้การระบุผลกระทบที่ถูก จำกัด ไปยังพื้นที่หนึ่งของพื้นที่การทำนาย 2D คุณยังสามารถใช้วิธีการถดถอยแบบโลคอล ใน R วิธีการถดถอยที่ใช้มากที่สุดน่าจะเป็นแพ็คเกจ 'mgcv' แต่แพ็คเกจ 'locfit' ที่เก่ากว่านั้นยังคงมีอยู่
DWIN

-4

ภาษาอังกฤษไม่ใช่ภาษาแม่ของฉันดังนั้นฉันอาจไม่เข้าใจว่าปัญหาของคุณคืออะไร แต่ถ้าคุณต้องการค้นหาแบบจำลองที่ดีที่สุดคุณสามารถลองใช้ขั้นตอนย้อนหลัง จากนั้นคุณสามารถดูทั้งค่า residuals_vs_predicted และกราฟ qq-plot เพื่อตรวจสอบว่าแบบจำลองอธิบายปรากฏการณ์ของคุณได้ดีหรือไม่


ขอบคุณ! ฉันคิดว่าสิ่งที่คุณแนะนำคือการเพิ่มคุณสมบัติที่สัมพันธ์กันมากขึ้นแบบค่อยเป็นค่อยไป มันสมเหตุสมผล แต่ไม่ช่วยให้ฉันเข้าใจว่า "คุณสมบัติ" มีความสำคัญมากกว่าฟีเจอร์ B มากเพียงใดตัวอย่างเช่นสมมติว่าฉันมีฟีเจอร์ x หนึ่งตัวและฟีเจอร์อื่น ๆ x + <เสียงรบกวนเล็กน้อย> จากนั้นทั้งคู่ก็เป็นคุณสมบัติที่มีประโยชน์ แต่อีกอันหนึ่งเป็นอีกเงา ฉันต้องการวิธีที่จะแสดงให้เห็นว่า x + <ไม่สำคัญ> ก็สำคัญเช่นกัน
Guy Adini

ไม่ขั้นตอนย้อนหลังเริ่มต้นด้วยโมเดลที่มี covariates ทั้งหมดแล้วลบ covariate (ซึ่งสัมประสิทธิ์ไม่สำคัญ) ทีละขั้นตอน (จนกว่าคุณจะมีโมเดลที่มีค่าสัมประสิทธิ์ที่สำคัญเท่านั้น) ฉันคิดว่ามีวิธีการที่ซับซ้อนกว่านี้เพื่อให้บรรลุเป้าหมายเดียวกัน แต่ฉันเป็นแค่นักศึกษาปริญญาตรี!
Davide
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.