LASSO ที่มีเงื่อนไขการโต้ตอบ - ไม่เป็นไรหากเอฟเฟกต์หลักถูกย่อเป็นศูนย์?


25

การถดถอยแบบ LASSO จะลดค่าสัมประสิทธิ์เป็นศูนย์จึงเป็นการเลือกแบบจำลองได้อย่างมีประสิทธิภาพ ฉันเชื่อว่าในข้อมูลของฉันมีการโต้ตอบที่มีความหมายระหว่างค่าเล็กน้อยและค่าคงที่ต่อเนื่อง อย่างไรก็ตามไม่จำเป็นว่าเป็น 'เอฟเฟ็กต์หลัก' ของโมเดลจริงที่มีความหมาย (ไม่เป็นศูนย์) แน่นอนฉันไม่ทราบว่าสิ่งนี้เป็นรูปแบบจริงเพราะไม่เป็นที่รู้จัก วัตถุประสงค์ของฉันคือการหาแบบจำลองที่แท้จริงและทำนายผลลัพธ์ให้ใกล้เคียงที่สุด

ฉันได้เรียนรู้ว่าวิธีการแบบดั้งเดิมในการสร้างแบบจำลองจะรวมถึงผลกระทบหลักเสมอก่อนที่จะรวมการโต้ตอบ ดังนั้นจึงไม่มีแบบจำลองโดยไม่มีผลกระทบหลักของ covariatesและหากมีปฏิสัมพันธ์ของ covariatesในรูปแบบเดียวกัน ฟังก์ชั่นใน จึงคัดสรรแง่รูปแบบ (เช่นขึ้นอยู่กับการย้อนกลับหรือส่งต่อ AIC) ปฏิบัติตามกฎนี้XZX* * * *ZstepR

LASSO ดูเหมือนจะทำงานแตกต่างกัน เนื่องจากพารามิเตอร์ทั้งหมดถูกลงโทษมันอาจเกิดขึ้นได้อย่างไม่ต้องสงสัยเลยว่าเอฟเฟกต์หลักจะหดเป็นศูนย์ในขณะที่การทำงานร่วมกันของโมเดลที่ดีที่สุด (เช่นการตรวจสอบความถูกต้องแบบไขว้) ไม่ใช่ศูนย์ นี้ผมพบว่าโดยเฉพาะอย่างยิ่งสำหรับข้อมูลของฉันเมื่อใช้R's glmnetแพคเกจ

ฉันได้รับการวิจารณ์ตามกฎข้อแรกที่กล่าวถึงข้างต้นนั่นคือรูปแบบ Lasso ที่ผ่านการตรวจสอบความถูกต้องครั้งสุดท้ายของฉันไม่ได้รวมคำศัพท์หลักที่มีผลกระทบที่สอดคล้องกันของการโต้ตอบที่ไม่เป็นศูนย์ อย่างไรก็ตามกฎนี้ดูเหมือนค่อนข้างแปลกในบริบทนี้ สิ่งที่เกิดขึ้นคือคำถามว่าพารามิเตอร์ในตัวแบบจริงเป็นศูนย์หรือไม่ สมมติว่ามันเป็น แต่การโต้ตอบไม่ใช่ศูนย์จากนั้น LASSO จะระบุสิ่งนี้บางทีจึงหารูปแบบที่ถูกต้อง ในความเป็นจริงดูเหมือนว่าการคาดการณ์จากรุ่นนี้จะแม่นยำกว่าเพราะโมเดลไม่มีผลกระทบหลักที่เป็นศูนย์จริงซึ่งเป็นตัวแปรเสียงได้อย่างมีประสิทธิภาพ

ฉันขอปฏิเสธคำวิจารณ์ที่มีพื้นฐานมาจากนี้หรือฉันควรระมัดระวังไว้ก่อนว่า LASSO จะมีผลกระทบหลักก่อนที่จะมีการโต้ตอบหรือไม่?


2
บางคนลงคะแนนนี้ ฉันสนใจทำไม
tomka

1
การทำนายเป้าหมายการอนุมานหรืออะไรอย่างอื่นเข้าด้วยกันใช่หรือไม่
Andrew M

@AndrewM ฉันต้องการประเมินโมเดลจริงเช่นเดียวกับที่เป็นไปได้ตีความตัวแปรที่ทำให้เกิดตัวแปรตามและยังใช้ค่าที่คาดการณ์ไว้
tomka

2
สำหรับเป้าหมายแรกของคุณโปรดทราบว่าการตรวจสอบความถูกต้องไขว้กันนั้นไม่สอดคล้องกับการเลือกแบบจำลอง ในความเป็นจริงมันได้รับการแสดงให้เห็นว่ารูปแบบที่ "จริง" มีแนวโน้มที่จะเป็นส่วนหนึ่งของรุ่นที่เพิ่มประสิทธิภาพการพยากรณ์ของเรา สำหรับเป้าหมายที่สองของคุณโปรดทราบว่าบ่วงบาศให้การประมาณค่าแบบเอนเอียงอย่างยิ่ง ดังนั้นฉันคิดว่าคุณต้องตัดสินใจว่าเป้าหมายหลักของคุณคืออะไรและแก้ไขคำถามของคุณเพื่อชี้แจงก่อนที่จะสามารถให้คำแนะนำที่เป็นประโยชน์ได้
Andrew M

@AndrewM คำถามของฉันคือ: ผลกระทบหลักควรจะรวมอยู่ในรูปแบบเมื่อใช้ LASSO? คำถามนี้อาจตอบได้สำหรับทั้งคู่ของฉันแยกจากกัน ฉันไม่คิดว่าคำถามนี้ต้องการการแก้ไขเพิ่มเติม แต่เป็นสิ่งสำคัญที่จะต้องระบุวัตถุประสงค์เหล่านี้ดูการแก้ไขในวรรคแรก
tomka

คำตอบ:


10

ปัญหาหนึ่งในการตอบคำถามนี้คือมันยากที่จะกระทบ LASSO กับแนวคิดของ "ตัวจริง" ในแอพพลิเคชั่นส่วนใหญ่ในโลกแห่งความเป็นจริง ในกรณีนั้นเช่นเดียวกับเทคนิคการเลือกตัวแปรใด ๆ ผู้ทำนายเฉพาะที่กลับมาพร้อมกับค่าสัมประสิทธิ์ที่ไม่เป็นศูนย์ของ LASSO จะขึ้นอยู่กับความหลากหลายของการสุ่มตัวอย่างจากประชากรพื้นฐาน คุณสามารถตรวจสอบสิ่งนี้ได้โดยการดำเนินการ LASSO ในตัวอย่างบูทสแตรปหลายชุดจากชุดข้อมูลเดียวกันและเปรียบเทียบชุดของตัวแปรตัวทำนายที่ส่งคืน

นอกจากนี้ตามที่ @AndrewM ระบุไว้ในความคิดเห็นความเอนเอียงของการประมาณการที่จัดทำโดย LASSO หมายความว่าคุณจะไม่สามารถคาดการณ์ผลลัพธ์ได้ "ใกล้เคียงที่สุด" แต่คุณกำลังทำนายผลลัพธ์ที่อยู่บนพื้นฐานของตัวเลือกเฉพาะของการแลกเปลี่ยนความแปรปรวนแบบอคติที่หลีกเลี่ยงไม่ได้

ด้วยความยากลำบากเหล่านั้นฉันหวังว่าคุณจะต้องการรู้ด้วยตัวคุณเองไม่ใช่เพียงเพื่อสนองนักวิจารณ์ขนาดของเอฟเฟ็กต์หลักของตัวแปรที่นำไปสู่การมีปฏิสัมพันธ์ มีแพ็คเกจที่มีอยู่ใน R, glinternetซึ่งดูเหมือนว่าจะทำสิ่งที่คุณต้องการอย่างแม่นยำ (แม้ว่าฉันจะไม่มีประสบการณ์กับมัน):

กลุ่ม -Lasso INTERACT-NET เหมาะกับโมเดลเชิงเส้นตรงของปฏิสัมพันธ์แบบคู่ที่ตรงตามลำดับชั้นที่แข็งแกร่ง: หากค่าสัมประสิทธิ์การทำงานร่วมกันประมาณว่าไม่ใช่ศูนย์ดังนั้นเอฟเฟกต์หลักที่เกี่ยวข้องทั้งสองก็จะมีค่าสัมประสิทธิ์โดยประมาณที่ไม่เป็นศูนย์ รองรับตัวแปรเด็ดขาด (ปัจจัย) ที่มีจำนวนระดับโดยพลการตัวแปรต่อเนื่องและชุดค่าผสม

หรือหากคุณไม่มีตัวทำนายมากเกินไปคุณอาจพิจารณาการถดถอยแบบสันแทนซึ่งจะคืนค่าสัมประสิทธิ์สำหรับตัวแปรทั้งหมดที่อาจน้อยกว่ามากขึ้นอยู่กับความหลากหลายของตัวอย่างข้อมูลของคุณ


9

ฉันมาสายสำหรับงานปาร์ตี้ แต่นี่คือความคิดของฉันบางประการเกี่ยวกับปัญหาของคุณ

  1. บ่วงบาศเลือกสิ่งที่เป็นข้อมูล ให้พิจารณา lasso เป็นวิธีการเพื่อให้ได้ประสิทธิภาพการทำนายสูงสุดด้วยจำนวนคุณลักษณะที่น้อยที่สุด มันเป็นเรื่องที่ดีมากในบางกรณี Lasso เลือกปฏิสัมพันธ์และไม่ใช่เอฟเฟกต์หลัก นั่นหมายถึงว่าเอฟเฟ็กต์หลักนั้นไม่ใช่ข้อมูล แต่เป็นการโต้ตอบ

  2. คุณเป็นเพียงการรายงานสิ่งที่คุณค้นพบ คุณใช้วิธีการบางอย่างและสร้างผลลัพธ์บางอย่าง คุณรายงานในลักษณะโปร่งใสที่อนุญาตให้ทำซ้ำได้ ในความคิดของฉันงานของคุณเสร็จแล้ว ผลลัพธ์มีวัตถุประสงค์คุณพบสิ่งที่คุณพบและไม่ใช่หน้าที่ของคุณที่จะให้เหตุผลว่าทำไมคุณจึงไม่พบสิ่งอื่น

  3. ทุกหน่วยงานมีข้อ จำกัด การโต้ตอบเป็นเพียงแค่หน่วย ให้บอกว่าคุณเรียนสี สีสามารถรวมอยู่ในแบบจำลองของคุณเป็นความยาวของคลื่นหรือความยาวของคลื่นบันทึกหรือเป็น 3 ตัวแปร RGB หรือเป็นปฏิสัมพันธ์ของสีและสีอ่อนและอื่น ๆ ไม่มีการแสดงสีที่ถูกต้องหรือไม่ถูกต้องโดยเนื้อแท้ คุณจะเลือกคนที่เหมาะสมกับปัญหาของคุณมากที่สุด การโต้ตอบเป็นเพียงแค่หน่วยที่คุณสามารถใช้โดยพลการ พื้นที่ของหน้าต่างเป็นเพียงการโต้ตอบของความสูงและความกว้างคุณควรรวมความสูงและความกว้างของหน้าต่างในโมเดลของคุณหรือไม่ ความเร็วเป็นเพียงปฏิสัมพันธ์ระหว่างมวลและความเร็ว และความเร็วเป็นเพียงการโต้ตอบของเวลาและระยะทาง Manhours เป็นเพียงปฏิสัมพันธ์ของเวลาและจำนวนคนทำงาน ปริมาณการรักษาทางคณิตศาสตร์ * อายุเท่ากับความสูง * ความกว้าง คำว่า "คุณต้องรวมเอฟเฟกต์หลัก ๆ ไว้เสมอ" คือการพูดเกินจริง

  4. Lasso ไม่ได้ประมาณโมเดลจริงมันไม่ได้มีไว้สำหรับอนุมานและตัวแปรที่เลือกไม่เสถียร หากคุณมีตัวทำนายที่สัมพันธ์กัน Lasso มีแนวโน้มที่จะเลือกหนึ่งตัวและผลักดันตัวอื่น ๆ ให้เป็น 0 ดังนั้นโมเดลของคุณจะละเว้นสัดส่วนที่สำคัญของตัวแปรข้อมูล นอกจากนี้ตามที่ระบุไว้ในความคิดเห็นหากคุณพบแลมบ์ดาที่ดีที่สุดในการครอสวิดิเดชั่น Lasso จะเลือกตัวแปรมากกว่าแบบจำลองจริงที่มี ปัญหาอีกประการหนึ่งคือการเลือกจาก Lasso นั้นไม่เสถียร ดังนั้นถ้าคุณเรียกใช้บ่วงบาศอีกครั้งในตัวอย่างที่แตกต่างจากประชากรคุณจะจบด้วยชุดของตัวแปรที่เลือก ดังนั้นอย่าใส่น้ำหนักมากนักในการเลือกตัวแปร นอกจากนี้เบต้าก็มีอคติดังนั้นจึงไม่สามารถใช้สำหรับการทดสอบสมมุติฐานแบบพารามิเตอร์แบบคลาสสิก อย่างไรก็ตามมีวิธีอยู่รอบ ๆ (จุดถัดไป)

  5. การอนุมานด้วยบ่วงบาศ Lasso สามารถใช้ในการอนุมานเกี่ยวกับการทำนาย วิธีที่ง่ายที่สุดคือการบู๊ตสแตรปและนับจำนวนครั้งที่เลือกตัวแปรแต่ละตัวหารด้วยจำนวนชิ้นตัวอย่างใหม่และคุณมีค่า p ของคุณ P ในกรณีนั้นคือความน่าจะเป็นของตัวแปรที่เลือกโดย lasso คุณยังสามารถจบลงด้วยเอฟเฟกต์การโต้ตอบที่สำคัญและเอฟเฟ็กต์หลักที่ไม่มีนัยสำคัญ แต่นั่นไม่ใช่ปัญหาก็สามารถเกิดขึ้นได้กับการทดสอบสมมติฐานปกติเช่นกัน การรักษาที่ยอดเยี่ยมของหัวข้อนี้อยู่ใน Hastie et อัล หนังสือฟรี: การเรียนรู้เชิงสถิติด้วย Sparsity ตอนที่ 6 http://web.stanford.edu/~hastie/StatLearnSparsity/bootstrap สามารถดำเนินการได้ทั้งค่าแลมบ์ดาซึ่งจะส่งผลให้เกิดความมั่นคงในเส้นทางสำหรับตัวแปรทั้งหมด สิ่งนี้สามารถขยายได้ด้วยวิธีการเลือกความเสถียรเพื่อค้นหาชุดของตัวแปรที่สำคัญที่แก้ไขสำหรับข้อผิดพลาดที่เกิดจากครอบครัว http://onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2010.00740.x/abstractนอกจากนี้ยังมีวิธีการอื่นสำหรับการอนุมานด้วย lasso ซึ่งอาจเป็นประโยชน์ บ่วงบาศดัดแปลงหรือบ่วงบาศ ตรวจสอบกับการใช้งาน R อยู่ที่นี่ DOI: 10.1214 / 15-STS527 หรือ IMO คำอธิบายที่เข้าถึงได้ง่ายขึ้นใน Buhlmanm, Van de Geer Book: สถิติสำหรับข้อมูลมิติสูงhttp://www.springer.com/la/book/9783642201912

  6. สิ่งอื่น ๆ ที่เกี่ยวข้องกับเชือกที่ต้องระวัง เท่าที่ฉันรู้สันหรือยืดหยุ่นสุทธิมีแนวโน้มที่จะดีกว่าเชือก หากมีความรู้เกี่ยวกับตัวแปรของโดเมนสามารถใช้กลุ่ม lasso หรือ sparse group lasso เพื่อบังคับให้ Lasso เก็บหรือละทิ้งกลุ่มทำนายทั้งหมดแทนที่จะจัดการพวกมันทีละตัว (เช่นเส้นทางยีน, ตัวแปรปัจจัยหลอกรหัส) สำหรับบ่วงบาศอวกาศข้อมูลหรือสั่งซื้อสามารถนำมาใช้ เชือกแบบสุ่มที่ถูกนำเสนอในกระดาษคัดสรรความเสถียรที่กล่าวถึงข้างต้นมีแนวโน้มที่จะผลิตสปาร์เซอร์รุ่นที่มีสมรรถนะเช่นเดียวกับบ่วงมาตรฐาน


1
ชอบจริงๆ # 3
user4581

0

ฉันมีแอปพลิเคชันที่ฉันต้องการให้เอฟเฟกต์หลักจำนวนเล็กน้อยโดยเฉพาะไม่ถูกลงโทษ ให้ Y = X.main เบต้า + X.inter beta.inter + eps

a) fit.Y = OLS (X.main, Y) ปล่อยให้ tilde.Y = Y - ทำนาย (พอดี. Y, X.main) b) พอดี [, j] = OLS (X.main, X.inter [, j]) สำหรับ j = 1 ... k ให้ tilde.X.inter [, j] = X.inter [, j] - ทำนาย (fit.j, X.main) c) พอดี = Lasso (tilde.X.inter, tilde.y) สัมประสิทธิ์ของเอฟเฟกต์หลักเท่ากับพอดี Y - coef (พอดี) * พอดี [, 1: สลัว (X.inter) [2]] สัมประสิทธิ์ผลการปฏิสัมพันธ์เท่ากับ coef (พอดี)

ในขั้นตอน a และ b ไม่จำเป็นต้องแยกตัวอย่าง นั่นเหมาะกับฉัน!

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.