วิธีการตีความผลลัพธ์เมื่อสันเขาและเชือกแยกทั้งสองทำงานได้ดี แต่ให้ค่าสัมประสิทธิ์ที่แตกต่างกัน

ฉันกำลังใช้ตัวแบบการถดถอยทั้งกับ Lasso และ Ridge (เพื่อทำนายตัวแปรผลลัพธ์แบบไม่ต่อเนื่องตั้งแต่ 0-5) ก่อนที่จะใช้รูปแบบที่ผมใช้SelectKBestวิธีการในการscikit-learnที่จะลดการตั้งค่าให้สถานที่นั้น250ไป25 หากไม่มีการเลือกคุณสมบัติเริ่มต้นทั้ง Lasso และ Ridge ให้คะแนนความแม่นยำที่ต่ำกว่า [ซึ่งอาจเป็นเพราะกลุ่มตัวอย่างขนาดเล็ก 600] นอกจากนี้โปรดทราบว่าคุณลักษณะบางอย่างมีความสัมพันธ์

หลังจากรันโมเดลฉันสังเกตว่าความแม่นยำในการทำนายนั้นใกล้เคียงกับ Lasso และ Ridge อย่างไรก็ตามเมื่อฉันตรวจสอบ 10 คุณสมบัติแรกหลังจากสั่งซื้อโดยค่าสัมประสิทธิ์สัมบูรณ์ฉันเห็นว่ามีการทับซ้อนกันมากที่สุด 50%

นั่นคือเนื่องจากความสำคัญของคุณสมบัติที่แตกต่างกันได้รับการกำหนดโดยแต่ละวิธีฉันอาจมีการตีความที่แตกต่างกันโดยสิ้นเชิงกับรุ่นที่ฉันเลือก

โดยปกติแล้วคุณสมบัติดังกล่าวจะแสดงถึงพฤติกรรมบางประการของผู้ใช้ในเว็บไซต์ ดังนั้นฉันต้องการอธิบายสิ่งที่ค้นพบโดยเน้นคุณสมบัติ (พฤติกรรมผู้ใช้) ด้วยความสามารถในการคาดเดาที่สูงขึ้นและคุณสมบัติที่อ่อนแอกว่า (พฤติกรรมผู้ใช้) อย่างไรก็ตามฉันไม่ทราบวิธีการก้าวไปข้างหน้า ณ จุดนี้ ฉันจะเข้าใกล้การตีความตัวแบบได้อย่างไร ตัวอย่างเช่นควรรวมทั้งสองและเน้นที่ทับซ้อนกันหรือฉันควรจะไปกับ Lasso เพราะมันให้ตีความมากกว่า

— renakre
แหล่งที่มา

(+1) การทำให้เป็นมาตรฐานสามารถมองเห็นได้ว่าทำให้ค่าสัมประสิทธิ์ของแต่ละบุคคลแย่ลงในขณะที่ปรับปรุงประสิทธิภาพการทำงานแบบรวมของพวกเขาในการทำนายคำตอบใหม่ คุณพยายามทำอะไรให้สำเร็จด้วยการตีความของคุณ?

— Scortchi - Reinstate Monica

@Scortchi ขอบคุณสำหรับการตอบสนอง ฉันเพิ่มสิ่งนี้

Normally, the features represent some aspects of user behavior in a web site. Therefore, I want to explain the findings by highlighting the features (user behaviors) with stronger predictive ability vs weaker features (user behaviors) .

— renakre

+1 AFAIK ความสัมพันธ์ระหว่างค่าสัมประสิทธิ์ริดจ์กับแลมบ์ดาไม่จำเป็นต้องเป็นแบบโมโนโทนิคในขณะที่อยู่ในบ่วงบาศ ดังนั้นในบางระดับการหดตัวค่าสัมบูรณ์ของสัมประสิทธิ์ในสันและเชือกอาจแตกต่างกันมาก ต้องบอกว่าฉันจะขอบคุณถ้ามีคนสามารถร่างหลักฐานนี้หรืออธิบายในเชิงคณิตศาสตร์ในไม่ช้า

— --ukasz Grad

ตรวจสอบให้แน่ใจว่าคุณกำลังเรียงลำดับสัมประสิทธิ์ "เบต้า" ดูstats.stackexchange.com/a/243439/70282คุณสามารถรับพวกเขาได้โดยการฝึกอบรมเกี่ยวกับตัวแปรมาตรฐานหรือโดยการปรับในภายหลังตามที่อธิบายไว้ในลิงค์

— Chris

@ ŁukaszGradค่าสัมประสิทธิ์ LASSO ไม่จำเป็นต้องมีฟังก์ชั่นโมโนโทนของหากตัวทำนายมีความสัมพันธ์กัน; ดูรูปที่ 6.6 ของISLRสำหรับตัวอย่าง

λ

$\lambda$

— EdM

การถดถอยของสันเขาสนับสนุนให้สัมประสิทธิ์ทั้งหมดมีค่าน้อย Lasso ส่งเสริมให้สัมประสิทธิ์จำนวนมาก / มากที่สุด [**] กลายเป็นศูนย์และไม่กี่ศูนย์ ทั้งคู่จะลดความแม่นยำในชุดฝึกอบรม แต่ปรับปรุงการทำนายในบางวิธี:

การถดถอยของสันเขาพยายามที่จะปรับปรุงการวางนัยทั่วไปให้กับชุดการทดสอบโดยลดความพอดี
บ่วงบาศจะลดจำนวนของค่าสัมประสิทธิ์ที่ไม่เป็นศูนย์แม้ว่าสิ่งนี้จะเป็นการลงโทษประสิทธิภาพในชุดฝึกอบรมและชุดทดสอบ

คุณสามารถเลือกค่าสัมประสิทธิ์ที่แตกต่างกันได้หากข้อมูลของคุณมีความสัมพันธ์สูง ดังนั้นคุณอาจมีคุณสมบัติ 5 อย่างที่สัมพันธ์กัน:

โดยการกำหนดค่าสัมประสิทธิ์ขนาดเล็ก แต่ไม่เป็นศูนย์ให้กับคุณสมบัติทั้งหมดเหล่านี้การถดถอยของสันสามารถบรรลุการสูญเสียต่ำในชุดการฝึกอบรม
บ่วงบาศอาจเลือกเพียงหนึ่งเดียวของเหล่านี้ที่มีความสัมพันธ์ที่ดีกับอีกสี่ และไม่มีเหตุผลว่าทำไมจึงควรเลือกคุณลักษณะที่มีค่าสัมประสิทธิ์สูงที่สุดในเวอร์ชันถดถอยของสันเขา

[*] สำหรับคำนิยามของ 'select' ความหมาย: กำหนดค่าสัมประสิทธิ์ที่ไม่เป็นศูนย์ซึ่งยังคงเป็นบิตที่โบกมือเนื่องจากค่าสัมประสิทธิ์การถดถอยของสันเขาจะมีแนวโน้มที่จะไม่เป็นศูนย์ แต่เช่นบางคนอาจจะเป็น 1e-8 และอื่น ๆ อาจเป็นเช่น 0.01

[**] ความแตกต่าง: Richard Hardy ชี้ให้เห็นสำหรับการใช้งานบางกรณีคุณค่าของสามารถเลือกได้ซึ่งจะส่งผลให้สัมประสิทธิ์ LASSO ทั้งหมดไม่ใช่ศูนย์ แต่มีการหดตัวเล็กน้อย $\lambda$

— Hugh Perkins
แหล่งที่มา

คำแนะนำที่ดี ตรวจสอบที่ดีคือการทำเมทริกซ์ความสัมพันธ์ ตัวแปรที่ไม่ทับซ้อนกันอาจมีความสัมพันธ์สูง

— Chris

คำตอบที่ดี! อย่างไรก็ตามฉันไม่แน่ใจว่ามันยุติธรรมที่จะแนะนำว่าสันเขาพยายามที่จะผลักดันการทดสอบในระดับสากลโดยไม่พูดถึงคำว่า lasso ตัวอย่างเช่นหากแบบจำลองที่แท้จริงนั้นกระจัดกระจาย (และในชุดย่อยของตัวทำนายของเรา) เราสามารถคาดได้ทันทีว่าบ่วงบาศจะมีประสิทธิภาพการทดสอบที่ดีกว่าสันเขา

— user795305

นี่คือหลักการ 'เดิมพันใน sparsity' ตัวอย่างเช่นดูพล็อตแรกที่นี่: คณะ. bscb.cornell.edu/~bien/simulator_vignettes/lasso.html

— user795305

การเปรียบเทียบตัวเลือกตัวแปร (LASSO) และค่าสัมประสิทธิ์การถดถอยในตัวอย่างบูทสแตรปหลายตัวของข้อมูลสามารถแสดงปัญหาเหล่านี้ได้เป็นอย่างดี ด้วยตัวทำนายความสัมพันธ์เหล่านั้นที่เลือกโดย LASSO จาก bootstraps ที่แตกต่างกันอาจแตกต่างกันมากในขณะที่ยังให้ประสิทธิภาพการทำนายที่คล้ายกัน เป็นการดีที่กระบวนการสร้างแบบจำลองทั้งหมดรวมถึงการลดชุดคุณลักษณะเริ่มต้นควรทำซ้ำใน bootstraps หลาย ๆ อันเพื่อบันทึกคุณภาพของกระบวนการ

— EdM

λ

$\lambda$