ทำไมการเลือกชุดย่อยที่ดีที่สุดจึงไม่ได้รับความนิยมเมื่อเทียบกับเชือก


13

ฉันกำลังอ่านเกี่ยวกับการเลือกชุดย่อยที่ดีที่สุดในองค์ประกอบของหนังสือการเรียนรู้ทางสถิติ ถ้าฉันมีตัวทำนาย 3 ตัวฉันจะสร้างชุดย่อย:2 3 = 8x1,x2,x323=8

  1. ชุดย่อยที่ไม่มีตัวทำนาย
  2. เซตย่อยที่มีตัวทำนายx1
  3. เซตย่อยที่มีตัวทำนายx2
  4. เซตย่อยที่มีตัวทำนายx3
  5. เซตย่อยที่มีตัวทำนายx1,x2
  6. เซตย่อยที่มีตัวทำนายx1,x3
  7. เซตย่อยที่มีตัวทำนายx2,x3
  8. เซตย่อยที่มีตัวทำนายx1,x2,x3

จากนั้นฉันจะทดสอบแบบจำลองเหล่านี้ทั้งหมดในข้อมูลการทดสอบเพื่อเลือกแบบที่ดีที่สุด

ตอนนี้คำถามของฉันคือเหตุใดการเลือกชุดย่อยที่ดีที่สุดจึงไม่ได้รับความนิยมเมื่อเทียบกับเช่นบ่วงบาศ

ถ้าฉันเปรียบเทียบฟังก์ชั่น thresholding ของเซตย่อยและ lasso ที่ดีที่สุดฉันจะเห็นว่าเซตย่อยที่ดีที่สุดกำหนดค่าสัมประสิทธิ์บางค่าให้เป็นศูนย์เช่น lasso แต่ค่าสัมประสิทธิ์อื่น ๆ (ที่ไม่ใช่ศูนย์) จะยังคงมีค่า ols พวกเขาจะไม่ได้รับอคติ ในขณะที่ lasso สัมประสิทธิ์บางอย่างจะเป็นศูนย์และอื่น ๆ (ไม่ใช่ศูนย์) จะมีอคติ รูปด้านล่างแสดงว่าดีกว่า: ป้อนคำอธิบายรูปภาพที่นี่

จากภาพส่วนหนึ่งของเส้นสีแดงในกล่องเซตย่อยที่ดีที่สุดวางลงบนสีเทา อีกส่วนหนึ่งวางอยู่ในแกน x ซึ่งสัมประสิทธิ์บางค่าเป็นศูนย์ เส้นสีเทากำหนดโซลูชันที่ไม่เอนเอียง ในเชือกอคติบางส่วนเป็นที่รู้จักโดย\จากรูปนี้ฉันเห็นว่าเซตย่อยที่ดีที่สุดดีกว่าบ่วงบาศ! อะไรคือข้อเสียของการใช้ชุดย่อยที่ดีที่สุด?λ


1
.. และเส้นโค้งอะไรที่ดูเหมือนว่าเมื่อการสุ่มในข้อมูลทำให้คุณเลือกหนึ่งในส่วนย่อยที่ผิดจำนวนมากและการประมาณค่าสัมประสิทธิ์ที่เกี่ยวข้องนั้นห่างไกลจากศูนย์เมื่อเทียบกับข้อผิดพลาดมาตรฐานของพวกเขา
jbowman

2
@ jbowman ฉันไม่เข้าใจอย่างชัดเจนว่าทำไมการสุ่มข้อมูลจึงทำให้ฉันเลือกผิด หากฉันจะใช้การตรวจสอบความถูกต้องไขว้เพื่อเลือกเซ็ตย่อยที่ดีที่สุดฉันจะมีโอกาสน้อยลงในการเลือกเซ็ตย่อยที่ไม่ถูกต้อง
วิลล์

1
คุณดูเหมือนจะมี "ความลำเอียงน้อยลง" กับ "ดีกว่า" อะไรทำให้คุณได้รับคุณค่าที่สูงเช่นนี้บนความเป็นกลาง
Matthew Drury

คำตอบ:


16

ในการเลือกเซ็ตย่อยพารามิเตอร์ที่ไม่ใช่ศูนย์จะไม่เอนเอียงหากคุณเลือกเซ็ตเซ็ตของโมเดลที่ถูกต้องเท่านั้นเช่นถ้าคุณลบเฉพาะตัวทำนายที่มีค่าสัมประสิทธิ์จริงเป็นศูนย์ หากขั้นตอนการเลือกของคุณทำให้คุณไม่รวมตัวทำนายที่มีค่าสัมประสิทธิ์เป็นศูนย์จริงค่าสัมประสิทธิ์การประมาณทั้งหมดจะถูกลำเอียง สิ่งนี้จะเอาชนะอาร์กิวเมนต์ของคุณหากคุณยอมรับว่าการเลือกนั้นไม่สมบูรณ์แบบ

ดังนั้นเพื่อให้ "มั่นใจ" จากแบบจำลองที่ไม่เอนเอียงคุณควรทำผิดด้านข้างของการรวมตัวทำนายมากกว่าหรือแม้แต่ทั้งหมดที่เกี่ยวข้อง นั่นคือคุณไม่ควรเลือกเลย

ทำไมนี่เป็นความคิดที่ไม่ดี เนื่องจากการแลกเปลี่ยนอคติแปรปรวน ใช่โมเดลขนาดใหญ่ของคุณจะไม่เอนเอียง แต่จะมีความแปรปรวนขนาดใหญ่และความแปรปรวนจะมีผลต่อการทำนายข้อผิดพลาด (หรืออื่น ๆ )

ดังนั้นจึงเป็นการดีกว่าที่จะยอมรับว่าการประเมินพารามิเตอร์จะมีอคติ แต่มีความแปรปรวนต่ำกว่า (การทำให้เป็นมาตรฐาน) แทนที่จะหวังว่าการเลือกชุดย่อยของเราจะลบพารามิเตอร์ศูนย์ที่แท้จริงเท่านั้นดังนั้นเราจึงมีโมเดลที่เป็นกลาง

เนื่องจากคุณเขียนว่าคุณประเมินทั้งสองวิธีโดยใช้การตรวจสอบความถูกต้องข้ามสิ่งนี้จะช่วยลดข้อกังวลบางอย่างข้างต้น ปัญหาที่เหลืออีกประการสำหรับการจัดกลุ่มที่ดีที่สุดยังคงอยู่: มัน จำกัด พารามิเตอร์บางอย่างให้เป็นศูนย์อย่างแน่นอนและปล่อยให้คนอื่น ๆ ลอยได้อย่างอิสระ ดังนั้นจึงมีความไม่ต่อเนื่องในการประมาณการซึ่งไม่ได้อยู่ที่นั่นหากเราบิดบ่วงบาศเกินจุดเมื่อมีการรวมหรือแยกตัวทำนายสมมติว่าการตรวจสอบความถูกต้องของข้อมูลส่งออก "ดีที่สุด" ที่อยู่ใกล้กับดังนั้นเราจึงไม่แน่ใจว่าควรจะรวม p หรือไม่ ในกรณีนี้ฉันจะยืนยันว่าเหมาะสมกว่าที่จะ จำกัด การประมาณพารามิเตอร์λ 0พีλ λ 0 βพีβ P = 0 β P = β OLSพีλλ0pλλ0β^pผ่าน lasso ไปยังค่าเล็ก ๆ (สัมบูรณ์) แทนที่จะแยกออกทั้งหมดหรือปล่อยให้มันลอยได้อย่างอิสระตามที่ดีที่สุดของชุดย่อยβ^p=0β^p=β^pOLS

สิ่งนี้อาจเป็นประโยชน์: เหตุใดการหดตัวจึงทำงานได้


อืมมม ฉันไม่คิดว่านี่เป็นคำตอบว่าทำไมชุดย่อยที่ดีที่สุดนั้นแย่กว่าบ่วงบาศ (ซึ่งเป็นคำถามหลักที่นี่)
อะมีบาพูดว่า Reinstate Monica

@amoeba: คุณต้องการที่จะทำอย่างละเอียด?
Stephan Kolassa

ฉันเข้าใจคำถามว่าทำไม Lasso ถึงชอบเซตย่อยที่ดีที่สุด ลองนึกภาพเราใส่ทั้งสองเข้าไปในลูปการตรวจสอบข้ามและจากนั้นปรับพารามิเตอร์ lasso หรือหาเซตย่อยที่ดีที่สุด แนะนำให้ใช้บ่วงบาศ ฉันเข้าใจคำถามว่าทำไม (ดูเช่นชื่อของคำถาม) และฉันไม่แน่ใจว่าคำตอบของคุณตอบคำถามนั้นจริงๆ หรือฉันเข้าใจผิดคำตอบของคุณ?
อะมีบาพูดว่า Reinstate Monica

1
ปัญหาหนึ่งที่เหลือที่ดีที่สุดสำหรับกลุ่มย่อยคือว่ามัน constrains พารามิเตอร์บางอย่างจะตรงศูนย์และช่วยให้คนอื่น ๆ ลอยได้อย่างอิสระเพื่อให้มีความต่อเนื่องในการประมาณการซึ่งไม่ได้มีถ้าเราปรับแต่งเชือกเกินจุดที่ ตัวทำนายถูกรวมหรือแยกออก ฉันจะเถียงว่าถ้าเราไม่แน่ใจว่าควรจะรวมหรือไม่เพราะดังนั้นมันสมเหตุสมผลกว่าที่จะ จำกัด การประมาณพารามิเตอร์ผ่าน lasso แทนที่จะปล่อยให้ มันลอยได้อย่างอิสระ λ 0พีพีλ λ 0 βพีλλ0ppλλ0β^p
เตฟาน Kolassa

1
ยอมรับว่าคำตอบนี้ไม่ได้ตอบคำถามจริงๆ - ฉันได้เพิ่มสิ่งที่ฉันทำไว้ด้านล่าง ...
Tom Wenseleers

11

โดยหลักการแล้วหากพบเซตย่อยที่ดีที่สุดมันจะดีกว่า LASSO ในแง่ของ (1) การเลือกตัวแปรที่มีส่วนช่วยให้พอดี (2) ไม่เลือกตัวแปรที่ไม่เหมาะสม (3) ความแม่นยำในการทำนายและ (4) สร้างการประมาณที่ไม่เอนเอียงสำหรับตัวแปรที่เลือก หนึ่งกระดาษล่าสุดที่ถกเถียงกันอยู่สำหรับคุณภาพที่เหนือกว่าของเซตที่ดีที่สุดกว่าเชือกคือโดยBertsimas, et al (2016) "การเลือกชุดย่อยที่ดีที่สุดผ่านเลนส์เพิ่มประสิทธิภาพสมัยใหม่" อีกอันหนึ่งที่มีอายุมากกว่าให้ตัวอย่างที่เป็นรูปธรรม (บน deconvolution รถไฟสไปค์) ที่เซตย่อยที่ดีที่สุดดีกว่า LASSO หรือสันเขาก็คือโดยde Rooi & Eilers (2011)

เหตุผลที่ LASSO ยังคงเป็นที่ต้องการในทางปฏิบัติส่วนใหญ่เป็นเพราะมันง่ายต่อการคำนวณมาก การเลือกเซตย่อยที่ดีที่สุดคือการใช้ pseudonorm โทษเป็นปัญหา combinatorial และเป็น NP ยากในขณะที่วิธีการแก้ปัญหา LASSO ง่ายต่อการคำนวณผ่านเส้นทาง normalization โดยใช้โคตรพิกัดแบบทวนเข็ม นอกจากนี้ LASSO ( norm การลงโทษที่มีการถดถอย) เป็นการผ่อนนูนที่แคบที่สุดของ pseudonorm ที่ลงโทษการถดถอย / การเลือกเซตย่อยที่ดีที่สุด (การถดถอยสะพานนั่นคือ norm การลงโทษที่ถดถอยด้วย q ใกล้เคียงกับ 0 แต่นี่ไม่ใช่ปัญหาการเพิ่มประสิทธิภาพของนูนอีกต่อไปและค่อนข้างยุ่งยากL 1 L 0 L qL0L1L0Lq)

เพื่อลดความเอนเอียงของ LASSO เราสามารถใช้วิธีการหลายขั้นตอนที่ได้มาเช่น LASSO ที่ปรับได้ (ซึ่งค่าสัมประสิทธิ์จะถูกลงโทษแตกต่างกันไปตามการประเมินก่อนหน้านี้จากการประมาณกำลังสองน้อยที่สุดหรือการถดถอยแบบสัน) หรือ LASSO ที่ผ่อนคลาย กำลังสองน้อยที่สุดพอดีของตัวแปรที่เลือกโดย LASSO) เมื่อเปรียบเทียบกับเซตย่อยที่ดีที่สุด LASSO มีแนวโน้มที่จะเลือกตัวแปรมากเกินไปเล็กน้อย การเลือกชุดย่อยที่ดีที่สุดดีกว่า แต่ยากกว่าที่จะเหมาะสม

ที่ถูกกล่าวว่านอกจากนี้ยังมีวิธีการคำนวณที่มีประสิทธิภาพในขณะนี้ที่จะทำเลือกชุดย่อย / ดีที่สุดถดถอยลงโทษเช่นใช้วิธีการปรับตัวสันเขาที่อธิบายไว้ในกระดาษ "เกิดการปรับเปลี่ยนขั้นตอนการริดจ์สำหรับ L0 กู" โดย Frommlet & Nuel (2016) โปรดทราบว่าภายใต้การเลือกชุดย่อยที่ดีที่สุดคุณยังคงต้องใช้การตรวจสอบข้ามหรือเกณฑ์ข้อมูลบางอย่าง (ปรับ R2, AIC, BIC, mBIC ... ) เพื่อกำหนดจำนวนตัวทำนายที่ให้ประสิทธิภาพในการทำนายที่ดีที่สุด / กำลังอธิบายสำหรับ จำนวนตัวแปรในแบบจำลองของคุณซึ่งจำเป็นต่อการหลีกเลี่ยงการตั้งค่ามากเกินไป บทความ"Extended Comparisons of Best Selection Selection, Forward Stepwise Selection และ Lasso" โดย Hastie et al (2017)L0ให้การเปรียบเทียบที่กว้างขวางของเซตย่อยที่ดีที่สุด LASSO และ LASSO บางรุ่นเช่น LASSO ที่ผ่อนคลายและพวกเขาอ้างว่า LASSO ที่ผ่อนคลายเป็นสิ่งที่สร้างความแม่นยำในการทำนายแบบจำลองสูงที่สุดภายใต้สถานการณ์ที่กว้างที่สุดนั่นคือพวกเขาได้ข้อสรุปที่แตกต่างกว่า Bertsimas แต่ข้อสรุปเกี่ยวกับสิ่งที่ดีที่สุดขึ้นอยู่กับสิ่งที่คุณคิดว่าดีที่สุด (เช่นความแม่นยำในการทำนายที่สูงที่สุดหรือดีที่สุดในการเลือกตัวแปรที่เกี่ยวข้องและไม่รวมถึงตัวแปรที่ไม่เกี่ยวข้อง; ridge regression เป็นต้นโดยทั่วไปจะเลือกตัวแปรมากเกินไป ตัวแปร collinear สูง แต่ก็สามารถทำได้ดีจริงๆ)

สำหรับปัญหาเล็ก ๆ ที่มี 3 ตัวแปรเช่นคุณอธิบายว่าการเลือกชุดย่อยที่ชัดเจนที่สุดคือตัวเลือกที่ต้องการ


1
"ดีกว่า" หมายถึงอะไรในวลี "ดีกว่าเชือก"?
Matthew Drury

1
เหตุใดชุดย่อยที่ดีที่สุดจึงเหมือนกับการใช้การลงโทษ L0 ชุดย่อยที่ดีที่สุดเลือกชุดย่อยที่ดีที่สุด (พร้อมข้อผิดพลาดการตรวจสอบต่ำสุด) ในกลุ่มย่อยที่มีขนาดใด ๆ อย่างน้อยนั่นคือสิ่งที่ OP แนะนำในคำถามของพวกเขา การลงโทษ L0 กำหนดให้เซตย่อยมีขนาด (ซึ่งถูกกำหนดโดยพารามิเตอร์การทำให้เป็นมาตรฐาน ); หนึ่งสามารถค้นหาดีที่สุดโดยใช้ชุดการตรวจสอบแล้วมันเป็นเซตย่อยที่ดีที่สุดของขนาดเป็นไปได้ทั้งหมด ... โอเคตอนนี้ฉันเห็นว่ามันเหมือนกัน :-)λ k k kkλkkk
อะมีบาพูดว่า Reinstate Monica

แก้ไขคำตอบของฉันเล็กน้อยเพื่อให้รายละเอียดเพิ่มเติม ...
Tom Wenseleers

ฉันไม่คิดว่าคำตอบใด ๆ กำลังจัดการปัญหาความมั่นคง เช่นเดียวกับการถดถอยแบบขั้นตอนและแบบย่อยที่เป็นไปได้ทั้งหมดlassoไม่แน่นอนอย่างแน่นอน กล่าวอีกนัยหนึ่งถ้าคุณต้อง bootstrap กระบวนการทั้งหมดคุณจะพบว่าการเลือกตัวเลือกมากเกินไปนั้นไม่เหมาะสม
Frank Harrell

ใช่ตัวแปรที่เลือกโดย LASSO อาจไม่เสถียรและนี่ก็ยิ่งทำให้กรณีสำหรับการถดถอยชุดย่อยที่ดีที่สุด - การถดถอยสุทธิยืดหยุ่นดีขึ้นเล็กน้อยในแง่นี้ - ซึ่งมีแนวโน้มที่จะรวมตัวแปรจำนวนมากเกินไป แต่เลือกในอีก วิธีที่มั่นคงและสามารถให้ความแม่นยำในการทำนายที่ดีกว่าภายใต้ collinearity สูง แต่จำนวนมากขึ้นอยู่กับเกณฑ์ที่สำคัญที่สุดสำหรับแอปพลิเคชันของคุณคือ - ความแม่นยำในการทำนายอัตราบวกปลอมรวมถึงตัวแปรที่ไม่เกี่ยวข้องหรืออัตราลบติดลบซึ่งไม่รวมตัวแปรที่เกี่ยวข้องสูง ...
Tom Wenseleers
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.