ฉันกลายเป็นผู้ทำลายล้างบ้างเมื่อพูดถึงการจัดลำดับความสำคัญที่แปรผัน (ในบริบทของแบบจำลองหลายตัวแปรทุกชนิด)
บ่อยครั้งในการทำงานของฉันฉันถูกขอให้ช่วยทีมอื่นสร้างการจัดลำดับความสำคัญของตัวแปรหรือสร้างการจัดลำดับความสำคัญของตัวแปรจากงานของฉันเอง ในการตอบสนองต่อคำขอเหล่านี้ฉันถามคำถามต่อไปนี้
คุณต้องการให้อันดับความสำคัญของตัวแปรนี้คืออะไร คุณหวังว่าจะเรียนรู้อะไรจากมัน? คุณต้องการใช้การตัดสินใจประเภทใด
คำตอบที่ฉันได้รับมักจะตกอยู่ในหนึ่งในสองหมวดหมู่
- ฉันต้องการทราบความสำคัญของตัวแปรต่าง ๆ ในแบบจำลองของฉันในการทำนายการตอบสนอง
- ฉันต้องการใช้สำหรับการเลือกคุณสมบัติโดยลบตัวแปรที่มีความสำคัญต่ำ
คำตอบแรกคือ tautological (ฉันต้องการอันดับความสำคัญของตัวแปรเพราะฉันต้องการอันดับความสำคัญของตัวแปร) ฉันต้องสมมติว่าการจัดอันดับเหล่านี้เติมความต้องการทางด้านจิตใจเมื่อบริโภคผลลัพธ์ของแบบจำลองหลายตัวแปร ฉันมีเวลายากที่จะเข้าใจสิ่งนี้เนื่องจากการจัดอันดับตัวแปร "ความสำคัญ" เป็นรายบุคคลดูเหมือนจะปฏิเสธธรรมชาติหลายมิติของแบบจำลองในคำถาม
การตอบสนองครั้งที่สองจะลดการเลือกย้อนหลังอย่างไม่เป็นทางการซึ่งเป็นความผิดทางสถิติซึ่งได้รับการบันทึกไว้อย่างดีในส่วนอื่น ๆ ของ
ฉันยังต่อสู้กับธรรมชาติของการจัดอันดับความสำคัญที่กำหนดไว้อย่างไม่ดี ดูเหมือนจะมีข้อตกลงเล็ก ๆ น้อย ๆ เกี่ยวกับแนวคิดพื้นฐานที่การจัดอันดับควรวัดผล มีหลายวิธีในการกำหนดคะแนนความสำคัญหรือการจัดอันดับและโดยทั่วไปแล้วพวกเขาต้องทนทุกข์ทรมานจากข้อบกพร่องและคำเตือน:
- พวกเขาสามารถขึ้นอยู่กับอัลกอริทึมสูงเช่นเดียวกับในการจัดอันดับความสำคัญในป่าสุ่มและ gbms
- พวกเขาสามารถมีความแปรปรวนสูงมากเปลี่ยนไปอย่างมากกับการก่อกวนข้อมูลพื้นฐาน
- พวกเขาสามารถทนทุกข์ทรมานอย่างมากจากความสัมพันธ์ในการทำนายอินพุต
ดังนั้นทั้งหมดที่กล่าวว่าคำถามของฉันคืออะไรการใช้การจัดอันดับความสำคัญของตัวแปรที่ถูกต้องคืออะไรหรืออะไรคือข้อโต้แย้งที่น่าเชื่อถือ (สำหรับนักสถิติหรือฆราวาส) สำหรับความไร้ประโยชน์ของความปรารถนาดังกล่าว? ฉันสนใจทั้งข้อโต้แย้งเชิงทฤษฎีทั่วไปและกรณีศึกษาแล้วแต่อย่างใดจะมีประสิทธิภาพมากขึ้นในการทำให้จุด
glmnet
มีให้