การจัดลำดับความสำคัญของตัวแปรมีประโยชน์อย่างไร


25

ฉันกลายเป็นผู้ทำลายล้างบ้างเมื่อพูดถึงการจัดลำดับความสำคัญที่แปรผัน (ในบริบทของแบบจำลองหลายตัวแปรทุกชนิด)

บ่อยครั้งในการทำงานของฉันฉันถูกขอให้ช่วยทีมอื่นสร้างการจัดลำดับความสำคัญของตัวแปรหรือสร้างการจัดลำดับความสำคัญของตัวแปรจากงานของฉันเอง ในการตอบสนองต่อคำขอเหล่านี้ฉันถามคำถามต่อไปนี้

คุณต้องการให้อันดับความสำคัญของตัวแปรนี้คืออะไร คุณหวังว่าจะเรียนรู้อะไรจากมัน? คุณต้องการใช้การตัดสินใจประเภทใด

คำตอบที่ฉันได้รับมักจะตกอยู่ในหนึ่งในสองหมวดหมู่

  • ฉันต้องการทราบความสำคัญของตัวแปรต่าง ๆ ในแบบจำลองของฉันในการทำนายการตอบสนอง
  • ฉันต้องการใช้สำหรับการเลือกคุณสมบัติโดยลบตัวแปรที่มีความสำคัญต่ำ

คำตอบแรกคือ tautological (ฉันต้องการอันดับความสำคัญของตัวแปรเพราะฉันต้องการอันดับความสำคัญของตัวแปร) ฉันต้องสมมติว่าการจัดอันดับเหล่านี้เติมความต้องการทางด้านจิตใจเมื่อบริโภคผลลัพธ์ของแบบจำลองหลายตัวแปร ฉันมีเวลายากที่จะเข้าใจสิ่งนี้เนื่องจากการจัดอันดับตัวแปร "ความสำคัญ" เป็นรายบุคคลดูเหมือนจะปฏิเสธธรรมชาติหลายมิติของแบบจำลองในคำถาม

การตอบสนองครั้งที่สองจะลดการเลือกย้อนหลังอย่างไม่เป็นทางการซึ่งเป็นความผิดทางสถิติซึ่งได้รับการบันทึกไว้อย่างดีในส่วนอื่น ๆ ของ

ฉันยังต่อสู้กับธรรมชาติของการจัดอันดับความสำคัญที่กำหนดไว้อย่างไม่ดี ดูเหมือนจะมีข้อตกลงเล็ก ๆ น้อย ๆ เกี่ยวกับแนวคิดพื้นฐานที่การจัดอันดับควรวัดผล มีหลายวิธีในการกำหนดคะแนนความสำคัญหรือการจัดอันดับและโดยทั่วไปแล้วพวกเขาต้องทนทุกข์ทรมานจากข้อบกพร่องและคำเตือน:

  • พวกเขาสามารถขึ้นอยู่กับอัลกอริทึมสูงเช่นเดียวกับในการจัดอันดับความสำคัญในป่าสุ่มและ gbms
  • พวกเขาสามารถมีความแปรปรวนสูงมากเปลี่ยนไปอย่างมากกับการก่อกวนข้อมูลพื้นฐาน
  • พวกเขาสามารถทนทุกข์ทรมานอย่างมากจากความสัมพันธ์ในการทำนายอินพุต

ดังนั้นทั้งหมดที่กล่าวว่าคำถามของฉันคืออะไรการใช้การจัดอันดับความสำคัญของตัวแปรที่ถูกต้องคืออะไรหรืออะไรคือข้อโต้แย้งที่น่าเชื่อถือ (สำหรับนักสถิติหรือฆราวาส) สำหรับความไร้ประโยชน์ของความปรารถนาดังกล่าว? ฉันสนใจทั้งข้อโต้แย้งเชิงทฤษฎีทั่วไปและกรณีศึกษาแล้วแต่อย่างใดจะมีประสิทธิภาพมากขึ้นในการทำให้จุด


1
การใช้ความสำคัญของตัวแปร (จากขั้นตอนที่เหมาะสม) เพื่อกรองตัวคาดเดาที่อ่อนแอนั้นดูเหมือนจะเป็นความคิดที่แย่มาก คุณช่วยอธิบายได้ไหมว่าทำไมคุณถึงคิดว่าสิ่งนี้ไม่ดี?
dsaxton

3
ฉันคิดว่าโดยทั่วไปฉันคิดว่ากระบวนการทางสถิติหลายอย่างไม่ได้ถูกควบคุมโดยตัวทำนาย "สำคัญ" โดยเป็นการสะสมของผลกระทบเล็ก ๆ มากมาย ตัวอย่างเช่นพลังของการถดถอยของสันเขาสามารถอธิบายได้โดยยอมรับโครงสร้างนี้อย่างชัดเจน กล่าวอีกวิธีหนึ่งเหตุผลที่เราควรเชื่อนิรนัยในแนวคิดของ "ผู้ทำนายอ่อนแอ" และทำไมเราควรกรองพวกเขาออก? และทำไมเราจึงควรใช้ขั้นตอนที่ไม่เป็นทางการดังกล่าวเมื่อglmnetมีให้
Matthew Drury

2
ในสาขาใดก็ตามที่เราไม่เชี่ยวชาญเราต้องการทราบว่าสิ่งใดสำคัญที่ต้องกังวล! หนังสือธุรกิจและการจัดการจำนวนมากดูเหมือนจะเกี่ยวกับการอธิบายในระยะยาวที่คุณระบุปัญหาที่สำคัญและมุ่งเน้นไปที่พวกเขา (ใช่แน่นอน) ฉันสงสัยว่าการสื่อสารผิดพลาดที่นี่มักจะเริ่มจากคนที่ไม่ใช่เชิงสถิติสมมติว่ามีวิธีการหาปริมาณความสำคัญและเป็นหน้าที่ของคนทางสถิติที่จะรู้วิธีการทำและไม่ต้องกังวลกับความยากลำบากของมัน ฉันไม่รู้วิธีการทั่วไปน้อยลง แต่การสนทนาบางส่วนที่นี่ดูเหมือนจะพลาดประเด็นสำคัญในคำถามของคุณ
Nick Cox

คำตอบ:


8

ฉันได้แย้งว่าความสำคัญของตัวแปรเป็นแนวคิดที่ลื่นไหลเนื่องจากคำถามนี้วางตัว การตอบสนองแบบแรกสุดที่คุณได้รับจากคำถามของคุณและความหวังที่ไม่สมจริงของผู้ที่จะตีความผลลัพธ์ที่มีความสำคัญของตัวแปรในแง่ของเวรกรรมตามที่ @DexGroves จำเป็นต้องทำอย่างละเอียด

ในความเป็นธรรมกับผู้ที่จะใช้การเลือกย้อนหลังแม้แฟรงก์ Harrell อนุญาตให้มันเป็นส่วนหนึ่งของกลยุทธ์การสร้างแบบจำลอง จากหน้า 97 ของกลยุทธ์การสร้างแบบจำลองการถดถอยของเขารุ่นที่ 2 (ข้อความที่คล้ายกันอยู่ในหน้า 131 ของบันทึกหลักสูตรที่เกี่ยวข้อง):

  1. ทำการเลือกตัวแปรแบบถอยหลังถอยหลังแบบ จำกัด หากการแยกส่วนสำคัญกว่าความแม่นยำ

การใช้ตัวเลือกแบบย้อนกลับที่ จำกัด นี้อาจเป็นขั้นตอนที่ 13 ซึ่งเป็นขั้นตอนสุดท้ายก่อนรุ่นสุดท้าย (ขั้นตอนที่ 14) มันมาได้ดีหลังจากขั้นตอนแรกที่สำคัญ:

  1. รวบรวมข้อมูลที่เกี่ยวข้องที่แม่นยำที่สุดเท่าที่จะเป็นไปได้ด้วยการแจกแจงกว้างสำหรับค่าตัวทำนาย ...
  2. กำหนดสมมติฐานที่ดีที่นำไปสู่การกำหนดผู้ทำนายที่เหมาะสมและการโต้ตอบที่เป็นไปได้ ...

จากประสบการณ์ของฉันผู้คนมักต้องการข้ามขั้นตอนที่ 2 และให้กระบวนการอัตโนมัติแทนที่แอปพลิเคชันอัจฉริยะของความรู้ในสาระสำคัญ สิ่งนี้อาจนำไปสู่การเน้นที่ความสำคัญของตัวแปร

แบบจำลองเต็มรูปแบบของขั้นตอนที่ 14 ของ Harrell นั้นตามด้วยการตรวจสอบและปรับเพิ่มอีก 5 ขั้นตอนด้วยขั้นตอนสุดท้าย:

  1. พัฒนาความเรียบง่ายให้กับโมเดลเต็มรูปแบบโดยประมาณความถูกต้องตามระดับที่ต้องการ

ดังที่คำตอบอื่น ๆ ระบุไว้มีปัญหาเรื่องความสามารถในการดำเนินการต้นทุนและความเรียบง่ายที่เข้าสู่การใช้งานจริงของผลลัพธ์การสร้างแบบจำลอง ตัวอย่างเช่นถ้าฉันพัฒนาผู้ให้บริการชีวภาพโรคมะเร็งตัวใหม่ที่ปรับปรุงการพยากรณ์โรค แต่ค่าใช้จ่าย $ 100,000 ต่อการทดสอบอาจเป็นการยากที่จะโน้มน้าวให้ผู้ประกันตนหรือรัฐบาลจ่ายเงินสำหรับการทดสอบเว้นแต่จะมีประโยชน์อย่างน่าประทับใจ ดังนั้นจึงไม่มีเหตุผลที่ใครจะต้องการมุ่งเน้นไปที่ตัวแปรที่ "สำคัญที่สุด" หรือทำให้รูปแบบที่ถูกต้องง่ายขึ้นให้เป็นแบบที่ค่อนข้างแม่นยำน้อยกว่า แต่ง่ายกว่าหรือแพงกว่าที่จะนำไปใช้

แต่การเลือกตัวแปรและการทำให้เรียบง่ายของตัวแปรนี้ควรใช้เพื่อจุดประสงค์เฉพาะและฉันคิดว่านั่นเป็นสิ่งที่เกิดความยากลำบาก ปัญหานี้คล้ายคลึงกับการประเมินโครงร่างการจัดประเภทโดยพิจารณาจากเปอร์เซ็นต์ของกรณีที่จำแนกอย่างถูกต้องเท่านั้น เช่นเดียวกับข้อผิดพลาดการจำแนกประเภทที่แตกต่างกันอาจมีค่าใช้จ่ายที่แตกต่างกันรูปแบบการทำให้เข้าใจง่ายของโมเดลที่แตกต่างกันอาจมีค่าใช้จ่ายต่างกัน

ดังนั้นฉันคิดว่าประเด็นที่จะมุ่งเน้นไปที่นักวิเคราะห์คือความสามารถในการประเมินและแสดงให้เห็นถึงต้นทุนและผลประโยชน์เหล่านี้ได้อย่างน่าเชื่อถือด้วยกระบวนการสร้างแบบจำลองทางสถิติแทนที่จะกังวลมากเกินไปเกี่ยวกับแนวคิดเชิงนามธรรมของความถูกต้องทางสถิติ ตัวอย่างเช่นหน้า 157-8 ของบันทึกย่อของชั้นของ Harrell ที่ลิงก์ด้านบนมีตัวอย่างของการใช้ bootstrap เพื่อแสดงความหลากหลายของตัวทำนายการจัดอันดับอย่างน้อยกำลังสอง ผลลัพธ์ที่คล้ายกันสามารถพบได้สำหรับชุดตัวแปรที่เลือกโดย LASSO

หากความแปรปรวนประเภทนั้นในการเลือกตัวแปรไม่ได้เข้ามาในแอปพลิเคชั่นที่ใช้งานได้จริงของรุ่นนั้น ๆ ก็โอเค งานคือการประมาณจำนวนและประเภทของปัญหาที่จะทำให้เข้าใจง่าย


2
นี่เป็นคำตอบที่ยอดเยี่ยม @EdM และค่อนข้างสอดคล้องกับความคิดเห็นที่ฉันได้พัฒนาในเรื่องนี้ ฉันชอบจุดสองจุดของคุณโดยเฉพาะอย่างยิ่ง 1) ตัวทำนายที่ยอมรับไม่ได้ (สำหรับเหตุผลทางศีลธรรมกฎระเบียบหรือธุรกิจ) ควรได้รับการคัดเลือกก่อนการสร้างแบบจำลอง 2) การทำให้เข้าใจง่ายของแบบจำลองขั้นสุดท้ายควรเป็นวัตถุประสงค์ที่ชัดเจน สิ่งเหล่านี้เป็นจุดสำคัญที่ฉันมักจะพยายามคลายกับคำถามทางธุรกิจของฉัน
Matthew Drury

Pr(β0)

จากที่กล่าวมาฉันยังคงสงสัยว่ามีแนวคิดพื้นฐานบางอย่างที่การจัดอันดับความสำคัญกำลังพยายามจับภาพหรือไม่หากพวกเขาทั้งหมดเป็นเพียงการโจมตีแบบเฉพาะกิจที่มีปัญหาทางสถิติที่ไม่ชัดเจน
Matthew Drury

1
@MatthewDrury แฟรงค์แฮร์เรลมีวิธีการอย่างหนึ่งในการประเมิน "ความสำคัญของตัวแปร" โดยพิจารณาจากส่วนของโอกาสในการบันทึกที่อธิบายโดยแต่ละตัวแปร นั่นไม่ใช่สิ่งที่บุคคลที่มีความซับซ้อนน้อยอาจหมายถึงวลี เช่นเดียวกับคุณฉันได้ใช้เศษส่วนของเวลาที่ LASSO เลือกตัวทำนายแต่ละตัวในกลุ่มตัวอย่างบูตสแตรปหลาย ๆ แบบซึ่งเป็นวิธีที่ดีที่สุดที่ฉันสามารถนึกได้เพื่ออธิบายความหลากหลายของการเลือกตัวแปร ซึ่งส่วนใหญ่ผลักฉันออกจาก LASSO และไปสู่การถดถอยสันสำหรับปัญหาในระดับปานกลาง
EdM

8

นี่เป็นข้อมูลที่สมบูรณ์ แต่ฉันพบว่าความสำคัญของตัวแปรมีประโยชน์ในการระบุข้อผิดพลาดหรือจุดอ่อนใน GBM

ความสำคัญที่ผันแปรได้ทำให้คุณเห็นภาพรวมแบบตัดขวางขนาดใหญ่ของโมเดลที่ยากที่จะรับได้ ตัวแปรที่สูงกว่าในรายการกำลังเห็นกิจกรรมมากขึ้น (ไม่ว่าพวกเขาจะมีความสำคัญมากกว่าหรือไม่ก็เป็นคำถามอื่น) บ่อยครั้งที่ตัวทำนายพฤติกรรมที่ไม่ดี (เช่นสิ่งที่คาดการณ์ล่วงหน้าหรือปัจจัยที่มีความสำคัญสูง) จะยิงขึ้นไปด้านบน

หากมีความขัดแย้งกันอย่างมากระหว่างความสำคัญของตัวแปรปรีชาและความสำคัญของตัวแปร GBM มักจะมีความรู้ที่มีคุณค่าที่จะได้รับหรือพบข้อผิดพลาด

ฉันจะเพิ่มคำตอบที่สามให้กับ "คุณถามฉันเกี่ยวกับเรื่องนี้ทำไม?" คำถามซึ่งก็คือ "เพราะฉันต้องการที่จะเข้าใจสิ่งที่เป็นสาเหตุของการตอบสนองของฉัน" EEP


4

การจัดอันดับความสำคัญของตัวแปรมีบทบาทที่ชัดเจนในโลกธุรกิจที่ใช้เมื่อใดก็ตามที่มีความจำเป็นที่จะต้องจัดลำดับความสำคัญของอินพุตจำนวนมากที่อาจเกิดขึ้นกับกระบวนการกระบวนการใด ๆ ข้อมูลนี้ให้ทิศทางในแง่ของกลยุทธ์ที่มุ่งเน้นสำหรับการโจมตีปัญหาการทำงานจากส่วนใหญ่ไปสู่ความสำคัญน้อยที่สุดเช่นการลดต้นทุนกระบวนการเนื่องจากตัวแปรสามารถใช้ประโยชน์ได้และไม่ได้รับการแก้ไขหรือปัจจัยเชิงโครงสร้างที่มีภูมิคุ้มกันต่อการจัดการ ในตอนท้ายของวันนี้ควรส่งผลการทดสอบ A / B บางชนิด

อย่างไรก็ตามถึงประเด็นของคุณแมตต์และการจัดอันดับตามลำดับความแตกต่างเล็กน้อยหรือความแตกต่างระหว่างตัวแปรสามารถคลุมเครือหรือคลุมเครือทำให้เกิดประโยชน์


ฉันเห็นด้วยกับประโยชน์ของการจัดอันดับตัวแปรในหลายกรณีธุรกิจ แต่ที่นี่ความกังวลของ 'อัลกอริทึมที่แตกต่างกันให้การจัดอันดับที่แตกต่าง' ยังคงไม่ได้รับการแก้ไข คุณมีข้อเสนอแนะเพื่อที่อยู่ที่? ดูคำถามของฉันได้ที่นี่stats.stackexchange.com/q/251248/71287และความคิดเห็นด้านล่าง
Aliweb

3
@aliweb ปัญหาของความแตกต่างไม่มีวิธีแก้ไขปัญหาแบบรวมเดี่ยว ประเด็นนี้มีความละเอียดอ่อนพอ ๆ กับความแตกต่างระหว่างลำดับชั้นและลำดับชั้นที่มีการเปิดเผยการจัดอันดับโลกในความเป็นจริงทั้งในระดับท้องถิ่นและชั่วคราว ความคิดเห็นที่ดีที่สุดของวรรณกรรมเกี่ยวกับความสำคัญของตัวแปรที่สัมพันธ์กันอาจเป็นของ Ulrike Groemping ซึ่งเอกสารนั้นค่อนข้างครอบคลุมเกี่ยวกับตัวชี้วัดต่างๆที่มีอยู่ นอกจากนี้โมดูล R และวิธีการของเธอ - RELAMPO - เป็นวิธีการที่เข้มงวดในการประเมินความสำคัญสัมพัทธ์ที่มีอยู่
Mike Hunter

3

ฉันเห็นด้วยกับคุณอย่างสมบูรณ์ในมุมมองทางทฤษฎี แต่ในมุมมองของภาคปฏิบัติความสำคัญของตัวแปรนั้นมีประโยชน์มาก

ลองมาเป็นตัวอย่างที่ บริษัท ประกันภัยต้องการลดจำนวนคำถามในแบบสอบถามที่เป็นตัวชี้วัดความเสี่ยงของลูกค้าของพวกเขา คำถามที่ซับซ้อนมากขึ้นคือลูกค้ามีโอกาสน้อยที่จะซื้อผลิตภัณฑ์ ด้วยเหตุผลดังกล่าวพวกเขาต้องการลดคำถามที่มีประโยชน์น้อยลงเมื่อรักษาระดับการวัดความเสี่ยง การแก้ปัญหามักจะใช้ความสำคัญของตัวแปรเพื่อกำหนดว่าคำถามใดที่จะถูกลบออกจากแบบสอบถาม (และมี "การคาดการณ์ที่เหมือนกันมากหรือน้อย" เกี่ยวกับโปรไฟล์ความเสี่ยงของโอกาส)


ฉันเห็นด้วยกับประโยชน์ของการจัดอันดับตัวแปรในหลายกรณีธุรกิจ แต่ที่นี่ความกังวลของ 'อัลกอริทึมที่แตกต่างกันให้การจัดอันดับที่แตกต่าง' ยังคงไม่ได้รับการแก้ไข คุณมีข้อเสนอแนะเพื่อที่อยู่ที่? ดูคำถามของฉันได้ที่นี่stats.stackexchange.com/q/251248/71287และความคิดเห็นด้านล่าง
Aliweb

@aliweb: ฉันคิดว่า Matthew ได้ให้คำตอบที่ยอดเยี่ยมสำหรับคำถามของคุณแล้ว
Metariat
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.