จะตีความตัวแปรที่ถูกแยกออกจากหรือรวมอยู่ในรูปแบบ lasso ได้อย่างไร?


9

ฉันได้รับจากการโพสต์อื่น ๆ ว่าไม่มีความสำคัญ 'ความสำคัญ' หรือ 'ความสำคัญ' เพื่อทำนายตัวแปรที่เข้าสู่แบบจำลองเชือกเนื่องจากการคำนวณค่า p หรือค่าเบี่ยงเบนมาตรฐานของตัวแปรเหล่านั้นยังคงทำงานอยู่

ภายใต้การใช้เหตุผลนั้นถูกต้องหรือไม่ที่จะยืนยันว่าไม่สามารถพูดได้ว่าตัวแปรที่ถูกแยกออกจากตัวแบบเชือกเป็น 'ไม่เกี่ยวข้อง' หรือ 'ไม่สำคัญ'?

ถ้าเป็นเช่นนั้นฉันสามารถเรียกร้องอะไรได้บ้างเกี่ยวกับตัวแปรที่ถูกแยกออกหรือรวมไว้ในแบบจำลองเชือก ในกรณีเฉพาะของฉันฉันเลือกแลมบ์ดาพารามิเตอร์การปรับแต่งโดยทำซ้ำการตรวจสอบความถูกต้องข้าม 10 เท่า 100 ครั้งเพื่อลด randonmess และเฉลี่ยโค้งข้อผิดพลาด

UPDATE1: ฉันได้ทำตามคำแนะนำด้านล่างและเรียกใช้ lasso อีกครั้งโดยใช้ตัวอย่าง bootstrap ฉันได้ไปกับตัวอย่าง 100 รายการ (จำนวนนั้นเป็นสิ่งที่พลังคอมพิวเตอร์ของฉันสามารถจัดการข้ามคืนได้) และรูปแบบบางอย่างก็ปรากฏ 2 ใน 41 ตัวแปรของฉันเข้าสู่โมเดลมากกว่า 95% ของเวลา, 3 ตัวแปรมากกว่า 90% และ 5 ตัวแปรมากกว่า 85% ตัวแปร 5 ตัวนั้นเป็นหนึ่งใน 9 ที่เข้าสู่แบบจำลองเมื่อฉันรันด้วยตัวอย่างดั้งเดิมและเป็นตัวแปรที่มีค่าสัมประสิทธิ์สูงสุดแล้ว หากฉันใช้บ่วงบาศพร้อมกับตัวอย่าง bootstrap 1,000 ตัวอย่างและรูปแบบเหล่านั้นได้รับการดูแลรักษาสิ่งที่จะเป็นวิธีที่ดีที่สุดในการนำเสนอผลลัพธ์ของฉันคืออะไร

  • ตัวอย่างบูต 1,000 อันมีเสียงดังเพียงพอหรือไม่ (ขนาดตัวอย่างของฉันคือ 116)

  • ฉันควรแสดงรายการตัวแปรทั้งหมดและความถี่ที่พวกเขาเข้าสู่แบบจำลองแล้วยืนยันว่าสิ่งที่ป้อนบ่อยขึ้นมีแนวโน้มที่จะมีความหมายมากกว่า?

  • นั่นคือเท่าที่ฉันสามารถไปกับการเรียกร้องของฉันได้อย่างไร เพราะมันเป็นงานที่อยู่ระหว่างดำเนินการ (ดูด้านบน) ฉันไม่สามารถใช้ค่าการตัดได้ใช่ไหม

UPDATE2: ทำตามคำแนะนำด้านล่างฉันได้คำนวณสิ่งต่อไปนี้: โดยเฉลี่ยแล้ว 78% ของตัวแปรในรูปแบบเดิมป้อนรุ่นที่สร้างขึ้นสำหรับตัวอย่าง bootstrap 100 ตัวอย่าง ในทางกลับกันเพียง 41% สำหรับวิธีอื่น ๆ สิ่งนี้จะต้องทำในส่วนที่ดีกับความจริงที่ว่ารูปแบบที่สร้างขึ้นสำหรับตัวอย่าง bootstrap มีแนวโน้มที่จะรวมตัวแปรมากขึ้น (17 โดยเฉลี่ย) กว่ารุ่นเดิม (9)

Update3: ถ้าคุณจะช่วยฉันในการแปลผลที่ฉันได้รับจากความร่วมมือและการจำลอง Monte Carlo, โปรดดูได้ที่นี้โพสต์อื่น ๆ

คำตอบ:


10

ข้อสรุปของคุณถูกต้อง คิดถึงสองด้าน:

  1. พลังงานทางสถิติเพื่อตรวจจับผลกระทบ ถ้าพลังไม่สูงมากใครจะพลาดเอฟเฟกต์จริงที่ยิ่งใหญ่ได้
  2. ความน่าเชื่อถือ: มีความน่าจะเป็นสูงในการค้นหาคุณสมบัติ (จริง) ที่เหมาะสม

มีข้อพิจารณาหลักอย่างน้อย 4 ข้อ:

  1. เป็นวิธีที่คุณทำซ้ำโดยใช้ชุดข้อมูลเดียวกันได้หรือไม่?
  2. เป็นวิธีการทำซ้ำโดยผู้อื่นโดยใช้ชุดข้อมูลเดียวกันได้หรือไม่
  3. ผลลัพธ์สามารถทำซ้ำได้โดยใช้ชุดข้อมูลอื่นหรือไม่
  4. ผลลัพธ์น่าเชื่อถือหรือไม่

เมื่อเราปรารถนาที่จะทำมากกว่าการคาดการณ์ แต่เพื่อสรุปข้อสรุปเกี่ยวกับคุณลักษณะที่มีความสำคัญในการทำนายผลลัพธ์ 3. และ 4. มีความสำคัญ

คุณได้ระบุไว้ 3. (และเพื่อจุดประสงค์นี้มี bootstraps 100 รายการเพียงพอ) แต่นอกเหนือจากเศษส่วนการรวมแต่ละคุณลักษณะเราจำเป็นต้องทราบระยะทางโดยเฉลี่ยสัมบูรณ์ระหว่างชุดคุณลักษณะ bootstrap และชุดคุณลักษณะที่เลือกดั้งเดิม ตัวอย่างเช่นจำนวนคุณลักษณะโดยเฉลี่ยที่ตรวจพบจากตัวอย่างทั้งหมดที่พบในตัวอย่าง bootstrap คืออะไร จำนวนเฉลี่ยของฟีเจอร์ที่เลือกจากตัวอย่าง bootstrap ที่พบในการวิเคราะห์ต้นฉบับคืออะไร? สัดส่วนของเวลาที่ bootstrap พบการจับคู่ที่แน่นอนกับชุดคุณลักษณะดั้งเดิมคืออะไร สัดส่วนที่ bootstrap มีอยู่ภายในคุณลักษณะหนึ่งของการยอมรับอย่างแน่นอนกับของดั้งเดิม? คุณสมบัติสองประการ?

ไม่เหมาะสมที่จะบอกว่าควรใช้การตัดออกใด ๆ ในการสรุปโดยรวม

เกี่ยวกับส่วนที่ 4 ไม่มีสิ่งใดที่ระบุถึงความน่าเชื่อถือของกระบวนการกล่าวคือความใกล้เคียงของชุดคุณลักษณะคือชุดคุณลักษณะ 'จริง' ในการพูดถึงเรื่องนั้นคุณอาจทำการศึกษาการจำลองแบบมอนติคาร์โลโดยใช้ผลบ่วงตัวอย่างดั้งเดิมเป็น 'ความจริง' และจำลองเวกเตอร์การตอบสนองใหม่หลายร้อยครั้งโดยใช้โครงสร้างข้อผิดพลาดที่สันนิษฐาน สำหรับการจำลองซ้ำแต่ละครั้งคุณเรียกใช้บ่วงบาศบนเมทริกซ์ตัวทำนายเดิมทั้งหมดและเวกเตอร์การตอบสนองใหม่และพิจารณาว่าชุดคุณสมบัติ Lasso ที่เลือกนั้นใกล้เคียงกับความจริงที่คุณจำลองมามากแค่ไหน เงื่อนไขการจำลองใหม่ทั้งชุดของตัวทำนายผู้สมัครและใช้การประมาณค่าสัมประสิทธิ์จากแบบจำลองการติดตั้งครั้งแรก (และในกรณี Lasso, ชุดของตัวทำนายที่เลือก) เป็น 'ความจริง' ที่สะดวกในการจำลองจาก

เพื่อจำลองการรับรู้ใหม่ของ Y รับต้นฉบับ X เมทริกซ์และค่าสัมประสิทธิ์การถดถอยจริงตอนนี้เราสามารถใช้ความแปรปรวนที่เหลือและถือว่าปกติด้วยค่าเฉลี่ยเป็นศูนย์หรือมากกว่าเชิงประจักษ์บันทึกส่วนที่เหลือทั้งหมดจากแบบเดิมและนำตัวอย่าง bootstrap จากพวกเขาเพื่อเพิ่มส่วนที่เหลือให้กับตัวทำนายเชิงเส้น Xβสำหรับแต่ละการจำลอง จากนั้นกระบวนการสร้างแบบจำลองดั้งเดิมจะเริ่มต้นจากศูนย์ (รวมถึงการเลือกการปรับโทษที่เหมาะสม) และการพัฒนาโมเดลใหม่ สำหรับการทำซ้ำ 100 ครั้งหรือมากกว่านั้นให้เปรียบเทียบโมเดลใหม่กับโมเดลจริงที่คุณกำลังจำลอง

นี่คือการตรวจสอบความน่าเชื่อถือที่ดีของกระบวนการ - ความสามารถในการค้นหาคุณลักษณะ 'ที่แท้จริง' และเพื่อให้ได้ค่าประมาณที่ดี β.

เมื่อไหร่ Y เป็นไบนารีแทนที่จะจัดการกับเศษเหลือทิ้งการจำลองใหม่เกี่ยวข้องกับการคำนวณตัวทำนายเชิงเส้น Xβ จากแบบเดิม (เช่นการใช้เชือก) การเปลี่ยนแปลงโลจิสติกและการสร้างแบบจำลอง Monte Carlo ใหม่ Yเวกเตอร์เพื่อให้พอดีกับอีกครั้ง ใน R หนึ่งสามารถพูดได้เช่น

lp <- predict(...) # assuming suitable predict method available, or fitted()
probs <- plogis(lp)
y <- ifelse(runif(n) <= probs, 1, 0)

3
คุณควรจะระบุไว้ล่วงหน้าว่าและฉันควรจะถาม คุณกำลังผลักซองจดหมายไปไกลเกินกว่าที่ข้อมูลที่มีจะรองรับ คิดแบบนี้ สำหรับผลลัพธ์ไบนารีเพื่อประเมินเฉพาะการสกัดกั้นในรูปแบบโลจิสติกไบนารีคุณต้องมีการสังเกตอย่างน้อย 96 ครั้ง จากนั้นคุณต้องมีเหตุการณ์ประมาณ 15 เหตุการณ์ต่อตัวทำนายผู้สมัคร (ถ้าไม่ใช่การลงโทษ) โอกาสที่กระบวนการของคุณจะตรวจสอบความถูกต้องในชุดข้อมูลในอนาคตนั้นมีขนาดค่อนข้างเล็ก อีกวิธีหนึ่งในการดูว่าการสนทนาทั้งหมดนี้มีความสำคัญมากกว่า (เปรียบเทียบกับการมีขนาดใหญ่กว่า)N)
Frank Harrell

1
ฉันไม่ได้หมายถึง bootstrapping ฉันหมายถึงว่าคุณสามารถเรียนรู้อะไรจากตัวแปรตัวเลือกมากมายเมื่อคุณมีเพียง 32 เหตุการณ์
Frank Harrell

3
Lasso เหมาะสมกว่าวิธีการส่วนใหญ่ แต่ความน่าเชื่อถือลดลงเมื่อขนาดตัวอย่างเล็ก คุณกำลังเรียกร้อง parsimony โดยใช้ lasso แทนการลงโทษ (ridge; L2) กำลังสอง คุณจะได้รับการวินิจฉัยที่ดีขึ้นอย่างไม่ต้องสงสัยโดยใช้บทลงโทษแบบทวีคูณ หรือทำการลดความรุนแรงของข้อมูล (masked toY) จากนั้นใส่โมเดลสามัญที่ไม่ได้ผ่านการปรับเทียบ
Frank Harrell

1
ทำการทดลองการจำลองซ้ำที่ฉันแนะนำเพื่อตรวจสอบความน่าเชื่อถือที่แท้จริงของวิธีการในการตั้งค่าที่แน่นอนของคุณ
Frank Harrell

2
ฉันจำเป็นต้องเข้าสู่ระบบปิดการสนทนานี้ - คำตอบพื้นฐานสำหรับคำถามของคุณคือการเขียนโปรแกรมขั้นพื้นฐาน R บวกจะดูที่การจำลองง่ายๆในbiostat.mc.vanderbilt.edu/rms
Frank Harrell
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.