การทำความเข้าใจว่าคุณลักษณะใดสำคัญที่สุดสำหรับการถดถอยโลจิสติก

17

ฉันได้สร้างลักษณนามการถดถอยโลจิสติกที่มีความแม่นยำมากกับข้อมูลของฉัน ตอนนี้ฉันต้องการเข้าใจที่ดีขึ้นว่าทำไมมันถึงทำงานได้ดี โดยเฉพาะฉันต้องการจัดอันดับว่าคุณลักษณะใดที่ทำให้เกิดผลงานมากที่สุด (ซึ่งฟีเจอร์ใดมีความสำคัญมากที่สุด) และในเชิงปริมาณการกำหนดว่าแต่ละฟีเจอร์มีส่วนสนับสนุนความแม่นยำของโมเดลโดยรวมอย่างไร (หรือบางอย่างในเส้นเลือดนี้) ฉันจะทำสิ่งนี้ได้อย่างไร

ความคิดแรกของฉันคือการจัดอันดับพวกเขาตามค่าสัมประสิทธิ์ของพวกเขา แต่ฉันคิดว่ามันไม่ถูกต้อง หากฉันมีคุณสมบัติสองอย่างที่มีประโยชน์เท่าเทียมกัน แต่การแพร่กระจายของรายการแรกมีขนาดใหญ่เป็นสิบเท่าของอันดับที่สองดังนั้นฉันคาดว่ารายการแรกจะได้รับค่าสัมประสิทธิ์ต่ำกว่าครั้งที่สอง มีวิธีที่เหมาะสมกว่าในการประเมินความสำคัญของคุณลักษณะหรือไม่

โปรดทราบว่าฉันไม่ได้พยายามที่จะเข้าใจว่าการเปลี่ยนแปลงเล็ก ๆ น้อย ๆ ในคุณลักษณะส่งผลกระทบต่อความน่าจะเป็นของผลลัพธ์ ค่อนข้างฉันพยายามที่จะเข้าใจว่าแต่ละคุณสมบัติมีคุณค่าในแง่ของการทำให้ลักษณนามถูกต้อง นอกจากนี้เป้าหมายของฉันไม่มากนักที่จะทำการเลือกคุณสมบัติหรือสร้างแบบจำลองที่มีคุณสมบัติน้อยลง แต่พยายามที่จะให้ "ความสามารถอธิบายได้" สำหรับแบบจำลองที่เรียนรู้ดังนั้นตัวแยกประเภทไม่ได้เป็นเพียงกล่องดำทึบ

— ใบสำคัญแสดงสิทธิอนุพันธ์
แหล่งที่มา

ฉันจะเข้าไปในป่าสุ่มนั่นก็เป็นเทคนิคที่ดีเช่นกัน คุณสามารถตรวจสอบการแบ่งยอดนิยมเหนือป่าเพื่อรับสัญชาตญาณว่าคุณลักษณะใดมีส่วนร่วมในการทำนายมากที่สุด

14

สิ่งแรกที่ควรทราบคือคุณไม่ได้ใช้การถดถอยโลจิสติกเป็นลักษณนาม ความจริงที่ว่าเป็นเลขฐานสองไม่มีอะไรเกี่ยวข้องกับการใช้วิธีการความน่าจะเป็นสูงสุดในการจำแนกการสังเกตการณ์ เมื่อคุณผ่านมาแล้วให้จดจ่อกับการวัดข้อมูลมาตรฐานทองคำซึ่งเป็นผลพลอยได้ของความน่าจะเป็นสูงสุด: อัตราส่วนความน่าจะเป็นสถิติ คุณสามารถผลิตแผนภูมิแสดงผลงานบางส่วนของแต่ละทำนายในแง่ของบางส่วนของ $Y$ $\chi^2$ $\chi^2$ สถิติ. สถิติเหล่านี้มีข้อมูล / กำลังไฟสูงสุด คุณสามารถใช้ bootstrap เพื่อแสดงว่ายากแค่ไหนที่จะเลือก "ผู้ชนะ" และ "ผู้แพ้" โดยรับช่วงความมั่นใจในการจัดอันดับของข้อมูลการทำนายที่จัดทำโดยผู้ทำนายแต่ละคนเมื่อมีการคาดการณ์ตัวทำนายอื่น ตัวอย่างอยู่ในหัวข้อ 5.4 ของบันทึกหลักสูตรของฉัน - คลิกที่เอกสารประกอบคำบรรยายและเอกสารประกอบคำบรรยายอีกครั้ง

หากคุณมีคุณสมบัติที่มีความสัมพันธ์สูงคุณสามารถทำการ "ทดสอบก้อน" เพื่อรวมอิทธิพลของพวกเขาเข้าด้วยกัน แผนภูมิที่ให้สิ่งนี้แสดงไว้ในรูปที่ 15.11 โดยที่sizeแสดงถึงการมีส่วนร่วมของตัวทำนาย 4 ตัว

— Frank Harrell
แหล่งที่มา

6

คำตอบสั้น ๆ คือไม่มีวิธีเดียว "ถูกต้อง" ในการตอบคำถามนี้

สำหรับความคิดเห็นที่ดีที่สุดของปัญหาที่ดูเอกสาร Ulrike Groemping ของเช่นประมาณค่าของความสำคัญในการถดถอยเชิงเส้นบนพื้นฐานของความแปรปรวนสลายตัว ตัวเลือกที่เธอกล่าวถึงมีตั้งแต่การวิเคราะห์พฤติกรรมอย่างง่ายไปจนถึงการแก้ปัญหาที่ซับซ้อนและใช้งาน CPU สูง

http://prof.beuth-hochschule.de/fileadmin/prof/groemp/downloads/amstat07mayp139.pdf

Groemping เสนอแนวทางของเธอเองในแพ็คเกจ R ที่เรียกว่า RELAIMPO ที่ควรค่าแก่การอ่าน

https://cran.r-project.org/web/packages/relaimpo/relaimpo.pdf

หนึ่งฮิวริสติกที่รวดเร็วและสกปรกที่ฉันเคยใช้คือการสรุปค่าไคสแควร์ (ค่า F, สถิติ t) ที่เชื่อมโยงกับพารามิเตอร์แต่ละตัวจากนั้นให้ค่าแต่ละค่ากับผลรวมนั้นอีกครั้ง ผลลัพธ์จะเป็นตัวชี้วัดที่มีความสำคัญอันดับสัมพัทธ์

ที่กล่าวว่าฉันไม่เคยเป็นแฟนของ "สัมประสิทธิ์เบต้ามาตรฐาน" ถึงแม้ว่าพวกเขาจะได้รับการแนะนำโดยผู้เชี่ยวชาญและใช้กันอย่างแพร่หลาย นี่คือปัญหาที่เกิดขึ้นกับพวกเขา: การสร้างมาตรฐานนั้นไม่ได้แปรผันและภายนอกกับโซลูชันของโมเดล กล่าวอีกนัยหนึ่งวิธีการนี้ไม่ได้สะท้อนลักษณะตามเงื่อนไขของผลลัพธ์ของโมเดล

— ไมค์ฮันเตอร์
แหล่งที่มา

ขอบคุณสำหรับคำตอบและลิงค์! คุณสามารถอธิบายรายละเอียดเพิ่มเติมหรือช่วยฉันเข้าใจว่า "ภายนอกโซลูชันโมเดล" และ "ลักษณะตามเงื่อนไขของผลลัพธ์ของโมเดล" หมายความว่าอย่างไร (ฉันไม่ใช่ผู้เชี่ยวชาญในด้านสถิติอนิจจา)

— DW

1

ไม่ต้องห่วง. แนวคิดเกี่ยวกับวิธีที่แบบจำลอง "ควบคุม" หรือเงื่อนไขสำหรับปัจจัยอื่น ๆ ในแบบจำลองอาจเป็นหนึ่งในสิ่งเหล่านั้นซึ่งนักสถิติหลายคนสามารถเห็นด้วยจริง นอกจากนี้ยังเป็นหัวข้อที่เห็นความเห็นมากมายในเว็บไซต์นี้ นี่คือลิงค์ไปยังหนึ่งเธรดดังกล่าว: stats.stackexchange.com/questions/17336/ ......หนึ่งในความคิดเห็นที่ดีที่สุดในนั้นคือโดย @whuber ผู้กล่าวว่า 'คุณอาจคิดว่า "การควบคุม" เป็น "การบัญชี (ในความหมายน้อยที่สุด ) สำหรับการสนับสนุน / อิทธิพล / ผลกระทบ / การเชื่อมโยงของตัวแปรกับตัวแปรอื่น ๆ ทั้งหมด '

— Mike Hunter

ขอบคุณ! ฉันคุ้นเคยกับแนวคิดเรื่อง "การควบคุมเพื่อ" ปัจจัยบางอย่าง สิ่งนั้นเกี่ยวข้องหรือช่วยให้เข้าใจความหมายของ "ภายนอกกับตัวแบบจำลอง" หรือ "ลักษณะตามเงื่อนไขของผลลัพธ์ของแบบจำลอง"

— DW

การตั้งมาตรฐานการทำนายเพื่อสร้าง "เบต้ามาตรฐาน" มักจะทำก่อนที่จะสร้างแบบจำลองถูกต้องหรือไม่ ดังนั้นการแปลงรูปนั้นจึงเป็น "ภายนอก" ของโซลูชันของโมเดล กับฉันจนถึงตอนนี้

— Mike Hunter

ตกลง. ฉันสามารถเข้าใจสิ่งที่คุณหมายถึงโดย "ภายนอก" ในขณะนี้ - ขอบคุณสำหรับคำอธิบาย คุณช่วยอธิบายได้ไหมว่าทำไมปัญหานี้ถึงเกิดขึ้นและ "ธรรมชาติตามเงื่อนไข ... " หมายถึงอะไร (บางทีคำถามสองข้อนี้เป็นคำถามเดียวกันกับคำตอบเดียวกัน ... ) ขออภัยที่จะถามคำถามของคุณ! ฉันกระตือรือร้นที่จะเข้าใจสิ่งที่คุณเขียน

— DW

3

วิธีที่มีประสิทธิภาพพอสมควรในการทำเช่นนี้คือลองปรับรุ่น N ครั้งโดยที่ N คือจำนวนคุณลักษณะ แต่ละครั้งใช้คุณสมบัติของ N-1 และทิ้งคุณสมบัติหนึ่งไว้ จากนั้นคุณสามารถใช้การตรวจสอบความถูกต้องที่คุณชื่นชอบเพื่อวัดว่าการรวมหรือแยกคุณลักษณะแต่ละรายการมีผลต่อประสิทธิภาพของโมเดลมากน้อยเพียงใด ขึ้นอยู่กับจำนวนฟีเจอร์ที่คุณมีซึ่งอาจมีราคาแพง

— แดเนียลจอห์นสัน
แหล่งที่มา

4

สิ่งนี้ไม่สามารถจัดการกับฟีเจอร์ที่สัมพันธ์กันได้ มันง่ายที่จะสร้างสถานการณ์ที่คุณสมบัติสองอย่างนั้นมีความสัมพันธ์กันสูงดังนั้นการลบหนึ่งในนั้นจะส่งผลกระทบต่อพลังการทำนายน้อยที่สุด แต่การลบทั้งสองอย่างนั้นกระทบอย่างรุนแรง โดยพื้นฐานแล้วหนึ่งในสิ่งที่นักทำนายสองคนมีข้อมูลเกือบเหมือนกัน แต่สำคัญ

— Matthew Drury

2

ฉันเห็นด้วย. นี่ก็เป็นอันตรายเช่นกันเมื่อตรวจสอบค่าสัมประสิทธิ์

— Daniel Johnson

1

ค่อนข้างจริง. ค่อนข้างจริง.

— Matthew Drury

2

คุณถูกต้องในการสังเกตของคุณว่าเพียงแค่ดูขนาดของค่าสัมประสิทธิ์โดยประมาณ $|\hat{\beta_j}|$ ไม่มีความหมายมากสำหรับเหตุผลที่กล่าวถึง แต่การปรับอย่างง่ายคือการคูณค่าสัมประสิทธิ์โดยการเบี่ยงเบนมาตรฐานที่ประมาณไว้ของตัวทำนาย $|\hat{\beta_j}| \hat{\sigma}_j$ และใช้สิ่งนี้เป็นเครื่องวัดความสำคัญ บางครั้งเรียกว่าสัมประสิทธิ์เบต้าที่ได้มาตรฐานและในการถดถอยโลจิสติกมันหมายถึงการเปลี่ยนแปลงในอัตราการบันทึกโดยประมาณของความสำเร็จที่เกิดจากการเบี่ยงเบนมาตรฐานหนึ่งการเปลี่ยนแปลงใน $x_j$ . ปัญหาหนึ่งของเรื่องนี้คือมันพังลงเมื่อคุณไม่ได้จัดการกับตัวทำนายตัวเลขอีกต่อไป

เกี่ยวกับประเด็นสุดท้ายของคุณแน่นอนว่าอาจเป็นไปได้ว่าตัวแปรอาจมีส่วนร่วมมากกับอัตราต่อรองของล็อกโดยประมาณในขณะที่ไม่ส่งผลกระทบต่อราคาล็อก "จริง" มากนัก แต่ฉันไม่คิดว่าจะต้องกังวลมากเกินไปหากเรา มีความมั่นใจในขั้นตอนที่ทำให้เกิดการประมาณการ

— dsaxton
แหล่งที่มา

0

คุณถูกต้องเกี่ยวกับสาเหตุที่คุณไม่ควรใช้สัมประสิทธิ์เป็นตัวชี้วัดความเกี่ยวข้อง แต่คุณสามารถทำได้ถ้าคุณหารพวกมันด้วยข้อผิดพลาดมาตรฐาน! หากคุณได้ประเมินโมเดลด้วย R แล้วมันก็ทำไปแล้วสำหรับคุณ! คุณสามารถลบฟีเจอร์ที่สำคัญที่สุดออกจากโมเดลและดูว่ามันทำงานอย่างไร

วิธีการแก้ปัญหาแบบฮิวริสติกมากขึ้นเพื่อศึกษาว่าการเปลี่ยนแปลงตัวแปรที่แตกต่างกันเปลี่ยนแปลงผลลัพธ์อย่างไร: ลองอินพุตที่แตกต่างกันและศึกษาความน่าจะเป็นที่ประมาณไว้ อย่างไรก็ตามเนื่องจากแบบจำลองของคุณค่อนข้างเรียบง่ายฉันจึงขอร้องให้ทำเช่นนั้น

— เดวิด
แหล่งที่มา