อะไรคือข้อเสียของการใช้เชือกสำหรับการเลือกตัวแปรสำหรับการถดถอย


60

จากสิ่งที่ฉันรู้การใช้ lasso สำหรับการเลือกตัวแปรช่วยจัดการปัญหาของอินพุตที่สัมพันธ์กัน นอกจากนี้เนื่องจากมันเทียบเท่ากับ Least Angle Regression มันจึงไม่คำนวณช้า อย่างไรก็ตามหลายคน (ตัวอย่างเช่นคนที่ฉันรู้ว่าทำสถิติไบโอ) ยังดูเหมือนว่าจะชอบการเลือกตัวแปรขั้นตอน มีข้อเสียในทางปฏิบัติของการใช้บ่วงบาศที่ทำให้เสียเปรียบหรือไม่?


9
ฉันไม่รู้ว่าคุณได้ยินที่ไหนว่า Lasso จัดการปัญหาเรื่องความไม่ลงรอยกันนั่นไม่จริงเลย
มาโคร

3
รูปเกือกม้าก่อนหน้านั้นดีกว่า LASSO สำหรับการเลือกแบบจำลอง - อย่างน้อยก็ในกรณีแบบกระจัดกระจาย (ซึ่งการเลือกแบบมีประโยชน์มากที่สุด) คุณสามารถค้นหาการสนทนาของจุดเหล่านี้ได้ในลิงค์นี้ ผู้เขียนสองคนของบทความนี้ได้บทความที่คล้ายกันในการประชุมวาเลนเซียสถิติแบบเบย์ 9 "พระราชบัญญัติการหดตัวทั่วโลกภายใน: การทำให้เป็นมาตรฐานและการทำนายแบบเบาบางเบาบาง" บทความวาเลนเซียมีรายละเอียดมากขึ้นเกี่ยวกับกรอบโทษ
ความน่าจะเป็นของระบบ

9
หากคุณสนใจในการคาดการณ์เท่านั้นการเลือกแบบจำลองจะไม่ช่วยและมักจะเจ็บ (ซึ่งต่างจากการลงโทษสมการกำลังสอง = L2 norm = การถดถอยแบบสันโดยไม่มีการเลือกตัวแปร) LASSO จ่ายราคาในการเลือกปฏิบัติที่คาดการณ์ไว้สำหรับการพยายามเลือกตัวแปร
Frank Harrell

3
การโยนเหรียญเพื่อการตัดสินใจโดยพลการมักจะเปิดเผยว่าคุณสนใจจริง ๆ เกี่ยวกับผลลัพธ์ วิธีการใดก็ตามที่เสนอให้คุณตัดสินใจเกี่ยวกับการเลือกตัวทำนายมักจะทำให้คุณมีความคิดว่าตัวทำนายแบบใดเป็นธรรมชาติในแบบจำลองความคิดที่คุณไม่ต้องการเพิกเฉย LASSO สามารถทำงานได้เช่นนั้น
Nick Cox

5
ฉันที่สอง @Nick: "ไม่มีทฤษฎีใดที่พร้อมให้คำแนะนำเกี่ยวกับการเลือกรุ่น" แทบจะไม่เหมือนจริง สามัญสำนึกคือทฤษฎี
Scortchi - Reinstate Monica

คำตอบ:


29

ไม่มีเหตุผลที่จะทำการเลือกแบบขั้นตอน มันผิด

LASSO / LAR เป็นวิธีการอัตโนมัติที่ดีที่สุด แต่เป็นวิธีการอัตโนมัติ พวกเขาปล่อยให้นักวิเคราะห์ไม่คิด

ในการวิเคราะห์หลายครั้งตัวแปรบางตัวควรอยู่ในตัวแบบโดยไม่คำนึงถึงการวัดความสำคัญใด ๆ บางครั้งพวกเขาเป็นตัวแปรควบคุมที่จำเป็น บางครั้งการหาเอฟเฟกต์ขนาดเล็กอาจมีความสำคัญอย่างยิ่ง


43
"ไม่มีเหตุผลที่จะทำการเลือกแบบขั้นตอนมันผิดปกติ" - แทบจะไม่เคยมีงบที่กวาดอย่างเหลือเชื่ออย่างไร้บริบทการฝึกฝนทางสถิติที่ดี หากมีสิ่งใดที่นี่ "ผิดปกติ" นี่เป็นคำสั่งที่เป็นตัวหนาด้านบน หากการวิเคราะห์ของคุณไม่ได้เน้นค่า value หรือการประมาณค่าพารามิเตอร์ (เช่นตัวแบบทำนายผล) การเลือกตัวแปรแบบขั้นตอนอาจเป็นสิ่งที่สมเหตุสมผลที่จะทำและสามารถ :: gasp :: มีประสิทธิภาพเหนือกว่า LASSO ในบางกรณี (ปีเตอร์ฉันรู้ว่าเราเคยมีคอนโดนี้มาก่อน - ความคิดเห็นนี้ตรงไปที่ผู้อ่านในอนาคตที่อาจเจอกับโพสต์นี้เท่านั้น พี
มาโคร

4
-1 เนื่องจากคำวิจารณ์แบบครอบคลุมของ stepwise มันไม่ได้ "ผิดปกติ" แต่มีสถานที่ในการค้นหารูปแบบที่กำหนดขึ้น คุณมีผึ้งอยู่ในหมวกของคุณเกี่ยวกับวิธีการอัตโนมัติ
ความน่าจะเป็นของระบบ

8
@Elvis ฉันไม่มีความเชี่ยวชาญในเรื่องหรือผู้สนับสนุนแบบขั้นตอน; ฉันเพิ่งจะมีปัญหากับลักษณะที่ไม่มีเงื่อนไขของคำสั่ง แต่จากความอยากรู้ฉันทำแบบจำลองง่าย ๆ และพบว่าเมื่อคุณมีการคาดคะเนจำนวนมากที่ทุกคนมีผลเท่ากันพอสมควรการเลือกข้างหลังนั้นทำได้ดีกว่า LASSO ในแง่ของการทำนายนอกตัวอย่าง ผมใช้กับε ~ N ( 0 , 1 ) ตัวพยากรณ์เป็นมาตรฐานปกติที่มีc o r ( X
Yผม=ΣJ=1100XผมJ+εผม
ε~ยังไม่มีข้อความ(0,1)สำหรับทุกคู่(J,K) โอR(XผมJ,Xผมk)=1/2(J,k)
มาโคร

10
คุณควรตรวจสอบความถูกต้องของ Collinearity ก่อนเริ่มดำเนินการถดถอย ฉันว่าถ้าคุณมีตัวแปร collinear จำนวนมากคุณไม่ควรใช้ LASSO หรือ Stepwise คุณควรจะแก้ปัญหา collinearity (ลบตัวแปรรับข้อมูลเพิ่มเติม ฯลฯ ) หรือใช้วิธีที่ออกแบบมาสำหรับปัญหาดังกล่าว (เช่นการถดถอยของสัน)
Peter Flom - Reinstate Monica

5
ตกลงคุณพูดถูก แต่ฉันไม่คิดว่ามันจะเกี่ยวข้องกันจริงๆ ไม่ย้อนกลับ NOR Lasso (หรือวิธีการเลือกตัวแปรใด ๆ ) แก้ปัญหาทั้งหมด มีสิ่งที่คุณต้องทำก่อนเริ่มทำโมเดล - และหนึ่งในนั้นคือการตรวจสอบ collinearity ฉันจะไม่สนใจวิธีการเลือกตัวแปรที่ทำงานกับชุดข้อมูลอื่น ๆ ที่ละเมิดกฎของการถดถอยที่ทั้งสองวิธีใช้เพื่อ
Peter Flom - Reinstate Monica

22

หากคุณสนใจเฉพาะข้อผิดพลาดในการทำนายและไม่สนใจเกี่ยวกับความสามารถในการตีความการอนุมานแบบง่ายการทดสอบสัมประสิทธิ์เป็นต้นทำไมคุณยังต้องการใช้แบบจำลองการถดถอยเชิงเส้น

คุณสามารถใช้บางอย่างเช่นการส่งเสริมต้นไม้การตัดสินใจหรือสนับสนุนการถดถอยแบบเวกเตอร์และรับการทำนายที่ดีขึ้นและยังคงหลีกเลี่ยงการ overfitting ในทั้งสองกรณีที่กล่าวถึง นั่นคือ Lasso อาจไม่ใช่ตัวเลือกที่ดีที่สุดในการทำนายคุณภาพที่ดีที่สุด

หากความเข้าใจของฉันถูกต้อง Lasso นั้นมีไว้สำหรับสถานการณ์เมื่อคุณยังคงสนใจในตัวแบบนั้นไม่ใช่เพียงแค่การทำนาย นั่นคือ - ดูตัวแปรที่เลือกและค่าสัมประสิทธิ์ของพวกเขาตีความในบางวิธี ฯลฯ และสำหรับสิ่งนี้ - Lasso อาจไม่ใช่ตัวเลือกที่ดีที่สุดในบางสถานการณ์ตามที่กล่าวไว้ในคำถามอื่น ๆ ที่นี่


20

LASSO สนับสนุนการลดลงของค่าสัมประสิทธิ์เป็น 0 นั่นคือการลดความแปรปรวนเหล่านั้นจากแบบจำลองของคุณ ในทางตรงกันข้ามเทคนิคการทำให้เป็นมาตรฐานอื่น ๆ เช่นสันเขามักจะทำให้เกิดความแปรปรวนทั้งหมด

ดังนั้นฉันขอแนะนำให้คิดว่าการลดลงนี้เหมาะสมกับข้อมูลของคุณหรือไม่ เช่นพิจารณาการตั้งค่าการทดสอบการวินิจฉัยทางคลินิกทั้งในข้อมูล microarray ของยีนหรือข้อมูลสเปกโทรสโกปีแบบสั่น

  • คุณคาดหวังว่ายีนบางตัวจะให้ข้อมูลที่เกี่ยวข้อง แต่ยีนอื่น ๆ อีกมากมายเป็นเพียงเสียงรบกวน ใบสมัครของคุณ. การวางตัวแปรเหล่านั้นเป็นแนวคิดที่เหมาะสมอย่างสมบูรณ์

  • ในทางตรงกันข้ามชุดข้อมูลสเปกโทรสโกปีแบบสั่นสะเทือน (ในขณะที่มักมีขนาดใกล้เคียงกันเมื่อเปรียบเทียบกับข้อมูล microarray) มีแนวโน้มที่จะมีข้อมูลที่เกี่ยวข้อง "ป้าย" มากกว่าส่วนใหญ่ของสเปกตรัม (สหสัมพันธ์) ในสถานการณ์เช่นนี้การขอให้การทำให้เป็นมาตรฐานของการลดความแปรปรวนไม่ใช่วิธีที่เหมาะสมเป็นพิเศษ ยิ่งเทคนิคการปรับสภาพแบบอื่นเช่น PLS ถูกปรับให้เข้ากับข้อมูลประเภทนี้มากขึ้น

องค์ประกอบของการเรียนรู้ทางสถิติให้การอภิปรายที่ดีเกี่ยวกับ LASSO และเปรียบเทียบกับเทคนิคการทำให้เป็นมาตรฐานอื่น ๆ


14

ถ้าผู้ทำนายสองคนมีความสัมพันธ์กันอย่างสูง LASSO สามารถลงเอยอย่างใดอย่างหนึ่งโดยพลการ นั่นไม่ดีมากเมื่อคุณต้องการทำนายสำหรับประชากรที่ผู้ทำนายสองคนนั้นไม่มีความสัมพันธ์กันอย่างมากและอาจเป็นเหตุผลในการเลือกการถดถอยสันเขาในสถานการณ์เหล่านั้น

คุณอาจคิดว่ามาตรฐานของผู้ทำนาย (จะพูดเมื่อค่าสัมประสิทธิ์เป็น "ใหญ่" หรือ "เล็ก") ค่อนข้างเป็นเรื่องง่ายและสับสน (เช่นฉัน) เกี่ยวกับวิธีการที่สมเหตุสมผลในการสร้างมาตรฐานการพยากรณ์เชิงหมวดหมู่


1
ขอบคุณสำหรับคำตอบนี้ คุณรู้หรือไม่ว่าเอกสารใด ๆ ที่กล่าวถึงปัญหากับผู้ทำนายที่เกี่ยวข้อง / ตัวพยากรณ์หมวดหมู่?
Berk U.

2
มันมีมูลค่าเพิ่มที่มีวิธีการอื่น ๆ ที่ถูกลงโทษลงโทษที่พยายามที่จะบรรเทาปัญหาเหล่านั้น (เช่นยืดหยุ่นสุทธิ)
bdeonovic

สำหรับการทำเลือกตัวแปรกับตัวแปร collinear สูงซ้ำสันปรับตัว (ซึ่งใกล้เคียง L0 ถดถอยลงโทษและ s ดำเนินการในแพคเกจ l0ara) ที่มีแนวโน้มที่จะทำงานได้ดีที่สุดหรือการลงโทษ L0L2 เป็นดำเนินการในแพคเกจ L0Learn ยังทำงานได้ดี ...
ทอม Wenseleers

9

Lasso มีประโยชน์เฉพาะเมื่อคุณ จำกัด ตัวเองให้พิจารณาแบบจำลองที่เป็นเส้นตรงในพารามิเตอร์ที่จะประมาณ ตามที่ระบุไว้อีกวิธีหนึ่ง Lasso จะไม่ประเมินว่าคุณได้เลือกรูปแบบที่ถูกต้องของความสัมพันธ์ระหว่างตัวแปรอิสระและตัวแปรตาม

เป็นไปได้อย่างมากว่าอาจมีผลกระทบแบบไม่เชิงเส้นแบบโต้ตอบหรือพหุนามในชุดข้อมูลโดยพลการ อย่างไรก็ตามข้อมูลจำเพาะโมเดลทางเลือกเหล่านี้จะได้รับการประเมินก็ต่อเมื่อผู้ใช้ทำการวิเคราะห์นั้น เชือกไม่ใช่การทำเช่นนั้น

สำหรับตัวอย่างง่ายๆว่าสิ่งนี้ผิดพลาดได้อย่างไรให้พิจารณาชุดข้อมูลที่ช่วงเวลาที่แยกจากกันของตัวแปรอิสระจะทำนายการสลับค่าสูงและต่ำของตัวแปรตาม สิ่งนี้จะท้าทายการเรียงลำดับโดยใช้แบบจำลองเชิงเส้นทั่วไปเนื่องจากไม่มีผลเชิงเส้นในตัวแปรรายการที่นำเสนอสำหรับการวิเคราะห์ (แต่การเปลี่ยนแปลงบางอย่างของตัวแปรรายการอาจเป็นประโยชน์) ปล่อยให้อยู่ในรูปแบบที่ชัดแจ้งว่าเชือกจะสรุปได้อย่างไม่ถูกต้องว่าคุณลักษณะนี้อยู่ภายนอกและไม่มีสัมประสิทธิ์ของสัมประสิทธิ์เนื่องจากไม่มีความสัมพันธ์เชิงเส้น ในอีกทางหนึ่งเนื่องจากมีการแยกข้อมูลตามแนวแกนในข้อมูลแบบจำลองที่ใช้ต้นไม้เช่นฟอเรสต์แบบสุ่มอาจทำได้ค่อนข้างดี

ป้อนคำอธิบายรูปภาพที่นี่


5

ข้อเสียในทางปฏิบัติอย่างหนึ่งของ Lasso และเทคนิคการทำให้เป็นมาตรฐานอื่น ๆ คือการหาค่าสัมประสิทธิ์การทำให้เป็นมาตรฐานที่เหมาะสมแลมบ์ดา การใช้การตรวจสอบข้ามเพื่อค้นหาค่านี้อาจมีราคาแพงเท่ากับเทคนิคการเลือกแบบขั้นตอน


"แพง" คุณหมายถึงอะไร
mark999

4
การอ้างสิทธิ์นี้ไม่เป็นความจริง หากคุณใช้การค้นหากริด "warm start" เช่นเดียวกับในวิธีการ glmnet คุณสามารถคำนวณกริดทั้งหมดได้อย่างรวดเร็ว
ความน่าจะเป็นของ

1
@probabilityislogic จริงฉันอ่านเกี่ยวกับการเริ่มต้นที่อบอุ่นหลังจากที่ฉันได้แสดงความคิดเห็นข้างต้นแล้ว คุณคิดอย่างไรกับบทความนี้ซึ่งบ่งบอกว่าการเริ่มต้นอย่างอบอุ่นนั้นช้าลงและบางครั้งก็มีประสิทธิภาพน้อยกว่าการตรวจสอบข้ามแบบง่าย users.cis.fiu.edu/~lzhen001/activities/KDD2011Program/docs/…
rm999

5
λ

5

ฉันไม่ใช่ผู้เชี่ยวชาญ LASSO แต่ฉันเป็นผู้เชี่ยวชาญในอนุกรมเวลา หากคุณมีข้อมูลอนุกรมเวลาหรือข้อมูลเชิงพื้นที่จากนั้นฉันจะหลีกเลี่ยงวิธีการแก้ปัญหาที่ระบุไว้ล่วงหน้าในการสังเกตอย่างอิสระ นอกจากนี้หากมีเอฟเฟกต์ไม่ทราบแน่ชัดที่เล่นกับข้อมูลของคุณ (ระดับการเลื่อนระดับ / แนวโน้มเวลาเป็นต้น) LASSO จะเป็นค้อนที่ดีน้อยกว่า ในการปิดเมื่อคุณมีข้อมูลอนุกรมเวลาคุณมักจะต้องแบ่งส่วนข้อมูลเมื่อต้องเผชิญกับพารามิเตอร์หรือความแปรปรวนข้อผิดพลาดที่เปลี่ยนแปลงตลอดเวลา


1
LASSO อาจให้ประสิทธิภาพการพยากรณ์ที่ดีเมื่อนำไปใช้กับโมเดลอนุกรมเวลาที่ใช้ในการถดถอยเช่น ar autoregressions (AR), autoregressions เวกเตอร์ (VAR) และโมเดลการแก้ไขข้อผิดพลาดเวกเตอร์ (VECM) ตัวอย่างเช่นการค้นหาอัตโนมัติสำหรับLasso Vectorและคุณจะพบตัวอย่างมากมายในวรรณคดีเชิงวิชาการ จากประสบการณ์ของฉันเองการใช้ LASSO สำหรับเครื่องเขียน VAR แบบนิ่งให้ประสิทธิภาพการพยากรณ์ที่เหนือกว่าเมื่อเทียบกับการเลือกชุดย่อยทั้งหมดหรือการทำให้เป็นสันริดจ์ในขณะที่การวางแนวสันเป็นจังหวะ LASSO
Richard Hardy

ดังนั้นความล้มเหลวของ LASSO จึงไม่ได้มีอยู่ในชุดข้อมูล
Richard Hardy

2

นี่เป็นคำถามที่ค่อนข้างเก่าอยู่แล้ว แต่ฉันรู้สึกว่าในขณะเดียวกันคำตอบส่วนใหญ่ที่นี่ค่อนข้างล้าสมัย (และคำถามที่ถูกตรวจสอบเพราะคำตอบที่ถูกต้องนั้นเป็นคำที่ผิดธรรมดา)

ประการแรกในแง่ของการทำนายผลงานที่ดีมันไม่เป็นความจริงในระดับสากลว่า LASSO นั้นดีกว่าแบบขั้นตอนเสมอ บทความ"Extended Comparisons of Best Selection Selection, Forward Stepwise Selection และ Lasso"โดย Hastie et al (2017) ให้การเปรียบเทียบอย่างกว้างขวางเกี่ยวกับ stepwise ไปข้างหน้า LASSO และ LASSO บางรุ่นเช่น LASSO ที่ผ่อนคลายและชุดย่อยที่ดีที่สุดและพวกเขา แสดงว่า stepwise ดีกว่า LASSO บางครั้ง ความแตกต่างของ LASSO แม้ว่า - LASSO ที่ผ่อนคลาย - เป็นสิ่งที่สร้างความแม่นยำในการทำนายแบบจำลองสูงสุดภายใต้สถานการณ์ที่กว้างที่สุด ข้อสรุปเกี่ยวกับสิ่งที่ดีที่สุดนั้นขึ้นอยู่กับสิ่งที่คุณพิจารณาว่าดีที่สุดเช่นว่าจะเป็นความแม่นยำในการทำนายสูงสุดหรือเลือกตัวแปรบวกที่ผิดพลาดน้อยที่สุด

มีสวนสัตว์ทั้งหมดของวิธีการเรียนรู้กระจัดกระจาย แต่ส่วนใหญ่ดีกว่า LASSO เช่นมีLASSO ที่ผ่อนคลายของ Meinhausen , LASSO ที่ปรับตัวได้และSCAD และ MCP ได้รับการลงโทษการถดถอยตามที่นำมาใช้ในncvregแพ็คเกจซึ่งทั้งหมดมีอคติน้อยกว่า LASSO มาตรฐานและเป็นที่นิยมมากกว่า นอกจากนี้หากคุณมีความสนใจในวิธีการแก้ปัญหาแบบแยกส่วนด้วยประสิทธิภาพการทำนายที่ดีที่สุด L0 ลงโทษการถดถอย (อาคาเซตย่อยที่ดีที่สุดคือการลงโทษของ nr ของค่าสัมประสิทธิ์ไม่ใช่ศูนย์ตรงข้ามกับผลรวมของค่าสัมประสิทธิ์สัมบูรณ์ใน LASSO) ดีกว่า LASSO ดูตัวอย่างl0araบรรจุภัณฑ์ที่ใกล้เคียงกับ L0 ลงโทษ GLMs โดยใช้ขั้นตอนการปรับเปลี่ยนแบบวนซ้ำซึ่งแตกต่างจาก LASSO ยังทำงานได้ดีกับตัวแปร collinear สูงและL0Learnแพคเกจซึ่งสามารถใส่ L0 แบบจำลองการถดถอยที่ถูกลงโทษได้โดยใช้การประสานงานของโคตรที่อาจรวมกับการปรับ L2 เพื่อปรับ collinearity

ดังนั้นกลับมาที่คำถามเดิมของคุณ: ทำไมไม่ลองใช้ LASSO เพื่อเลือกตัวแปร? :

(1) เนื่องจากค่าสัมประสิทธิ์จะมีอคติสูงซึ่งได้รับการปรับปรุงในการผ่อนคลาย LASSO, MCP และ SCAD และได้รับการแก้ไขอย่างสมบูรณ์ใน L0 ลงโทษที่ถดถอย (ซึ่งมีคุณสมบัติของ oracle เต็มรูปแบบนั่นคือสามารถเลือกได้ทั้งตัวแปรเชิงสาเหตุและ retun ค่าสัมประสิทธิ์ที่เป็นกลางสำหรับกรณี p> n)

(2) เพราะมันมีแนวโน้มที่จะสร้างวิธีการบวกเท็จมากกว่า L0 ลงโทษถดถอย (ในการทดสอบของฉันl0araทำงานได้ดีที่สุดแล้วคือสันปรับซ้ำ iterative ตามด้วยL0Learn)

(3) เพราะมันไม่สามารถจัดการกับตัวแปร collinear ได้ดี (โดยหลักแล้วมันจะสุ่มเลือกหนึ่งในตัวแปร collinear) - ซ้ำl0araการปรับตัวริดจ์/ และการลงโทษ L0L2 L0Learnนั้นดีกว่ามากในการจัดการกับสิ่งนั้น

แน่นอนโดยทั่วไปคุณจะต้องใช้การตรวจสอบความถูกต้องแบบไขว้เพื่อปรับพารามิเตอร์การทำให้เป็นมาตรฐานของคุณเพื่อให้ได้ประสิทธิภาพการทำนายที่ดีที่สุด แต่นั่นไม่ใช่ปัญหา และคุณยังสามารถทำการอนุมานมิติสูงในพารามิเตอร์ของคุณและคำนวณช่วงความเชื่อมั่น 95% สำหรับสัมประสิทธิ์ของคุณหากคุณต้องการผ่านการบูตแบบ nonparametric แม้ว่ามันจะค่อนข้างช้าแล้ว)

คอมพิวเตอร์ Lasso ไม่ช้าเพื่อให้พอดีกว่าวิธีแบบขั้นตอนครับไม่แน่นอนถ้าใครใช้เพิ่มประสิทธิภาพสูงรหัสที่ใช้เริ่มต้นที่อบอุ่นเพื่อเพิ่มประสิทธิภาพการกูเชือกของคุณ (คุณสามารถเปรียบเทียบตัวเองโดยใช้fsคำสั่งสำหรับการขั้นตอนไปข้างหน้าและlassoสำหรับ Lasso ในbestsubsetแพคเกจ) ความจริงที่ว่าวิธีการแบบขั้นตอนยังคงได้รับความนิยมอาจเกี่ยวข้องกับความเชื่อที่ผิด ๆ ที่หลายคนสามารถทำได้เพียงแค่เก็บแบบจำลองสุดท้ายของคุณและรายงานว่ามันเกี่ยวข้องกับค่า p - ซึ่งอันที่จริงแล้วไม่ใช่สิ่งที่ถูกต้อง คำนึงถึงความไม่แน่นอนที่เกิดจากการเลือกแบบจำลองของคุณทำให้ค่า p ในแง่ดีเกินไป

หวังว่าจะช่วยได้ไหม


0

ตัวใหญ่ตัวหนึ่งคือความยากลำบากในการทำการทดสอบสมมติฐาน คุณไม่สามารถเข้าใจได้อย่างง่ายดายว่าตัวแปรใดที่มีความสำคัญทางสถิติกับ Lasso ด้วยการถดถอยแบบขั้นตอนคุณสามารถทำการทดสอบสมมติฐานได้ในระดับหนึ่งหากคุณระมัดระวังเกี่ยวกับการรักษาหลายการทดสอบ


8
ฉันจะบอกว่าเป็นข้อได้เปรียบไม่ใช่ข้อเสีย มันหยุดคุณจากการทำสิ่งที่คุณอาจไม่ควรทำ
Peter Flom - Reinstate Monica

@ Peter: ทำไม ฉันสมมติว่าคุณจะแก้ไขให้ถูกต้องสำหรับการทดสอบหลาย ๆ อย่างเช่นค่า P ที่ได้รับนั้นจะถูกต้อง
dsimcha

10
ไม่มีวิธีแก้ไขอย่างถูกต้องสำหรับการทดสอบหลายรายการในขั้นตอน ดูตัวอย่างกลยุทธ์การสร้างแบบจำลองการถดถอยของ Harrell ไม่มีทางที่จะรู้ว่าการแก้ไขที่ถูกต้องคืออะไร
Peter Flom - Reinstate Monica

4
มันเป็นความจริงที่ความยากลำบากในการทำการทดสอบสมมติฐานเป็นข้อเสียที่เป็นไปได้ของ LASSO ไม่เป็นความจริงเลยว่านี่เป็นข้อเสียเปรียบในการถดถอยแบบขั้นตอน
gung - Reinstate Monica

2
มีกรอบการอนุมานแบบเลือก (นำมาใช้ในแพคเกจ selectiveInference) เพื่อทำการอนุมาน (การเลือกโพสต์) สำหรับ LASSO ... หรือสำหรับวิธีการเลือกตัวแปรใด ๆ เราสามารถใช้การบูตแบบไม่มีพารามิเตอร์เพื่อทำการอนุมานและรับช่วงความมั่นใจในการประเมินพารามิเตอร์ของคุณ ..
Tom Wenseleers
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.