วิธีการหดตัวมีวิธีแก้ปัญหาอย่างไร?


61

เทศกาลวันหยุดที่มีให้ฉันมีโอกาสที่จะขดตัวถัดไปในกองไฟที่มีองค์ประกอบของการเรียนรู้ทางสถิติ มาจากมุมมองเศรษฐมิติ (บ่อยครั้ง) ฉันมีปัญหาในการเข้าใจการใช้งานของวิธีการหดตัวเช่นการถดถอยสันสัน, เชือกและการถดถอยมุมน้อย (LAR) โดยทั่วไปฉันสนใจในการประมาณค่าพารามิเตอร์ของตัวเองและในการบรรลุความเป็นกลางหรืออย่างน้อยที่สุด วิธีการหดตัวไม่ได้ทำอย่างนั้น

สำหรับฉันแล้วดูเหมือนว่าวิธีการเหล่านี้จะใช้เมื่อนักสถิติกังวลว่าฟังก์ชั่นการถดถอยจะตอบสนองต่อตัวทำนายมากเกินไปซึ่งจะถือว่าตัวทำนายนั้นสำคัญกว่า (วัดจากขนาดของสัมประสิทธิ์) มากกว่าที่เป็นจริง กล่าวอีกนัยหนึ่งคือ overfitting

แต่โดยทั่วไปแล้ว OLS จะให้การประมาณที่ไม่เอนเอียงและสอดคล้องกัน (เชิงอรรถ) ฉันมักจะดูปัญหาของการไม่ให้ข้อมูลมากไปกว่าการประเมินที่ใหญ่เกินไป ESL กล่าวถึงจุดหลังนี้)

การประมาณค่าสัมประสิทธิ์ที่ไม่เอนเอียง / สม่ำเสมอนำไปสู่การทำนายผลลัพธ์ที่ไม่เอนเอียง / สม่ำเสมอ วิธีการหดตัวผลักดันการคาดการณ์ให้ใกล้เคียงกับผลลัพธ์เฉลี่ยมากกว่า OLS ซึ่งดูเหมือนว่าจะทิ้งข้อมูลไว้ในตาราง

เพื่อย้ำอีกครั้งฉันไม่เห็นว่าปัญหาวิธีหดตัวกำลังพยายามแก้ไข ฉันพลาดอะไรไปรึเปล่า?

เชิงอรรถ: เราต้องการเงื่อนไขการจัดอันดับคอลัมน์แบบเต็มเพื่อระบุค่าสัมประสิทธิ์ สมมติฐานค่าเฉลี่ยเชิงเงื่อนไข / ศูนย์สำหรับข้อผิดพลาดและข้อคาดหวังตามเงื่อนไขเชิงเส้นกำหนดการตีความที่เราสามารถให้กับค่าสัมประสิทธิ์


1
มีคำถามที่เกี่ยวข้องหลายประการที่นี่ นี่คือหนึ่ง: stats.stackexchange.com/questions/10478/…
cardinal

2
โปรดทราบว่ามีเงื่อนไขที่ง่ายและค่อนข้างอ่อนแอในการเลือกพารามิเตอร์การหดตัวเพื่อให้ได้พารามิเตอร์ที่สอดคล้องกัน นี่คือรายละเอียดในKnight & Fu (2000)กระดาษที่มีชื่อเสียงและกรณีที่ครอบคลุมเกินกว่าการถดถอยสันและเชือก ความสอดคล้องกันในการเลือกแบบจำลองได้กลายเป็นหัวข้อยอดนิยมในช่วงไม่กี่ปีที่ผ่านมา
พระคาร์ดินัล

@cardinal ขอบคุณสำหรับพอยน์เตอร์ที่บอกถึงรูปแบบผลลัพธ์ที่สอดคล้องกันสำหรับ Lasso; ฉันจะดู แน่นอนผลลัพธ์เหล่านี้สามารถพบได้สำหรับ OLS ผลลัพธ์บ่งบอกว่ากระบวนการทั้งสองไปถึงที่เดียวกัน ดังนั้นฉันจึงยังไม่เข้าใจว่าทำไมเราจึงใช้บ่วงบาศมากกว่า OLS
Charlie

1
ความสอดคล้องของแบบจำลองเป็นแนวคิดที่แตกต่างจากความสอดคล้องเชิงเส้นกำกับของการประมาณพารามิเตอร์ คุณทราบถึงความแตกต่าง (คุ้นเคยกับ) นี้หรือไม่
พระคาร์ดินัล

@ cardinal โดยความสอดคล้องของแบบจำลองฉันคิดว่าคุณหมายความว่ามีการรวมตัวทำนายที่ถูกต้องไว้ด้วย เราสามารถรับสิ่งนี้ได้โดยใช้เกณฑ์ AIC ในกระบวนการคัดเลือกโดยใช้ OLS ฉันเดาว่าคุณกำลังบอกเป็นนัยว่าในช่วงเวลาที่ จำกัด บ่วงบาศจะเลือกโมเดลที่ถูกต้องด้วยสัมประสิทธิ์ "ผิด" หรือไม่?
Charlie

คำตอบ:


47

ฉันสงสัยว่าคุณต้องการคำตอบที่ลึกซึ้งยิ่งขึ้นและฉันจะต้องให้คนอื่นมอบสิ่งนั้น แต่ฉันสามารถให้ความคิดกับคุณเกี่ยวกับการถดถอยของสันเขาได้จากมุมมองเชิงแนวคิดที่หลวม

การประมาณค่าพารามิเตอร์การถดถอยของ OLS นั้นไม่เอนเอียง (เช่นหากมีการรวบรวมตัวอย่างและพารามิเตอร์ถูกประมาณไปเรื่อย ๆ การกระจายการสุ่มตัวอย่างของการประมาณพารามิเตอร์จะอยู่กึ่งกลางของมูลค่าที่แท้จริง) ยิ่งกว่านั้นการกระจายตัวตัวอย่างจะมีความแปรปรวนต่ำสุดของการประมาณแบบไม่เอนเอียงที่เป็นไปได้ทั้งหมด (ซึ่งหมายความว่าโดยเฉลี่ยแล้วการประมาณค่าพารามิเตอร์ OLS จะใกล้เคียงกับมูลค่าที่แท้จริงมากกว่าการประมาณการจากขั้นตอนการประมาณค่าแบบไม่เป็นกลางอื่น ๆ ) นี่เป็นข่าวเก่า (และฉันขอโทษฉันรู้ว่าคุณรู้เรื่องนี้ดี) แต่ความจริงที่ว่าความแปรปรวนต่ำกว่าไม่ได้หมายความว่ามันต่ำมาก. ภายใต้สถานการณ์บางอย่างความแปรปรวนของการแจกแจงการสุ่มตัวอย่างอาจมีขนาดใหญ่มากจนทำให้ตัวประมาณค่า OLS ไร้ค่าเป็นหลัก (สถานการณ์หนึ่งที่สิ่งนี้อาจเกิดขึ้นได้คือเมื่อมีความหลากหลายของระดับความสัมพันธ์ระหว่างกันสูง)

จะต้องทำอะไรในสถานการณ์เช่นนี้? ตัวประมาณที่แตกต่างกันสามารถพบได้ว่ามีความแปรปรวนต่ำกว่า (แม้ว่าจะต้องมีความลำเอียงตามที่ระบุไว้ข้างต้น) นั่นคือเรากำลังทำการค้าโดยไม่ลำเอียงสำหรับความแปรปรวนที่ต่ำกว่า ตัวอย่างเช่นเราได้รับการประมาณพารามิเตอร์ที่น่าจะใกล้เคียงกับมูลค่าที่แท้จริงอย่างมากแม้ว่าอาจจะต่ำกว่ามูลค่าที่แท้จริงเล็กน้อย การแลกเปลี่ยนนี้มีความคุ้มค่าหรือไม่เป็นการตัดสินใจที่นักวิเคราะห์ต้องทำเมื่อเผชิญหน้ากับสถานการณ์นี้ ไม่ว่าในกรณีใดก็ตามการถดถอยของสันเขาเป็นเพียงเทคนิคดังกล่าว รูป (ประดิษฐ์อย่างสมบูรณ์) ต่อไปนี้มีวัตถุประสงค์เพื่อแสดงความคิดเห็นเหล่านี้

ป้อนคำอธิบายรูปภาพที่นี่

สิ่งนี้จะให้คำแนะนำสั้น ๆ ง่าย ๆ เกี่ยวกับแนวคิดในการถดถอยสันเขา ฉันรู้น้อยเกี่ยวกับบ่วงบาศและ LAR แต่ฉันเชื่อว่าสามารถใช้แนวคิดเดียวกันได้ ข้อมูลเพิ่มเติมเกี่ยวกับบ่วงและการถดถอยมุมน้อยสามารถดูได้ที่นี่ลิงค์ "คำอธิบายง่ายๆ ... " มีประโยชน์อย่างยิ่ง นี้ให้ข้อมูลมากขึ้นเกี่ยวกับวิธีการหดตัว

ฉันหวังว่านี่จะมีค่า


12
สิ่งนี้ให้คำแนะนำเชิงแนวคิดที่ดี ในย่อหน้าที่สองมีความสนใจอย่างมากต่อความเป็นกลาง แต่ข้อแม้ที่สำคัญหายไป ยกเว้น (a) ตัวแบบเชิงเส้นคือ "ถูกต้อง" (และเมื่อไร?) และ (b) ตัวทำนายที่เกี่ยวข้องทั้งหมดรวมอยู่ในแบบจำลองการประมาณค่าสัมประสิทธิ์จะยังคงลำเอียงโดยทั่วไป
พระคาร์ดินัล

5
ความเข้าใจที่ จำกัด ของฉันเกี่ยวกับอคติ / ความแปรปรวนการแลกเปลี่ยนคือคนที่กำลังมองหาคำอธิบาย (เช่นโปสเตอร์ดั้งเดิม) อาจชอบความเป็นกลางแม้ว่าความแปรปรวนจะใหญ่กว่า แต่คนที่คาดการณ์อาจชอบบางสิ่งที่มีความแปรปรวนเล็กน้อย เป็นที่รู้จัก
Wayne

2
@ เวย์น: อันที่จริงนี่คือ (หนึ่งใน) ปม (es) ของเรื่อง มุมมองส่วนใหญ่ใน ESL นั้นมาจากมุมมองการคาดการณ์ดังนั้นสีนี้จึงเป็นส่วนสำคัญในการวิเคราะห์ การอนุมานค่าสัมประสิทธิ์เดียวโดยเฉพาะอย่างยิ่งในการตั้งค่าการสังเกตเป็นเรื่องลื่นมาก มันจะต้องใช้ความเชื่อมั่นอย่างจริงจังที่จะอ้างว่าการประมาณค่าสัมประสิทธิ์เป็น "ความเป็นกลาง" อย่างแท้จริง
พระคาร์ดินัล

1
ให้เวลาฉันอาจพยายามขยายความคิดเห็นมากมายของฉันมากเกินไปแล้วในภายหลัง
พระคาร์ดินัล

@gung, นี่คือหัวข้อที่เกี่ยวข้อง Meta ที่คุณอาจจะสนใจใน.
ริชาร์ดฮาร์ดี

16

ข้อผิดพลาดของการประมาณการคือการรวมกันของ (ยกกำลังสอง) อคติและความแปรปรวนส่วนประกอบ อย่างไรก็ตามในทางปฏิบัติเราต้องการให้พอดีกับแบบจำลองกับตัวอย่างที่ จำกัด ของข้อมูลและเราต้องการลดข้อผิดพลาดทั้งหมดของตัวประมาณที่ประเมินบนตัวอย่างเฉพาะของข้อมูลที่เรามีจริงแทนที่จะเป็นศูนย์ผิดพลาดโดยเฉลี่ยมากกว่าประชากรบางกลุ่ม (ที่เราไม่มี) ดังนั้นเราจึงต้องการลดทั้งอคติและความแปรปรวนเพื่อลดข้อผิดพลาดซึ่งมักหมายถึงการเสียสละความเป็นกลางเพื่อลดองค์ประกอบความแปรปรวนให้มากขึ้น โดยเฉพาะอย่างยิ่งเมื่อต้องรับมือกับชุดข้อมูลขนาดเล็กซึ่งความแปรปรวนมีแนวโน้มที่จะสูง

ฉันคิดว่าความแตกต่างในการมุ่งเน้นขึ้นอยู่กับว่าใครสนใจคุณสมบัติของกระบวนการหรือได้ผลลัพธ์ที่ดีที่สุดสำหรับตัวอย่างเฉพาะ ผู้ที่พบบ่อยมักพบว่าอดีตง่ายต่อการจัดการภายในกรอบดังกล่าว Bayesians มักจะเพ่งความสนใจไปที่หลัง


9

ฉันเดาว่ามีคำตอบบางอย่างที่อาจเกี่ยวข้อง:

  • การถดถอยของสันสามารถระบุตัวตนเมื่อเมทริกซ์ของตัวทำนายไม่ได้อยู่ในอันดับเต็มของคอลัมน์
  • Lasso และ LAR สามารถใช้งานได้เมื่อจำนวนผู้ทำนายมากกว่าจำนวนการสังเกตการณ์ (ตัวแปรอื่นที่ไม่ใช่เอกพจน์)
  • Lasso และ LAR เป็นอัลกอริธึมการเลือกตัวแปรอัตโนมัติ

ฉันไม่แน่ใจว่าจุดแรกที่เกี่ยวกับการถดถอยของสันเขาเป็นคุณลักษณะจริงๆ ฉันคิดว่าฉันควรเปลี่ยนแบบจำลองของฉันเพื่อจัดการกับการไม่ระบุตัวตน แม้จะไม่มีการเปลี่ยนแปลงแบบจำลอง OLS ยังให้การคาดการณ์ผลลัพธ์ที่ไม่ซ้ำกัน

ฉันเห็นว่าจุดที่สองมีประโยชน์อย่างไร แต่การเลือกไปข้างหน้าสามารถทำงานได้ในกรณีของจำนวนพารามิเตอร์ที่เกินจำนวนการสังเกตในขณะที่ให้การประมาณที่เป็นกลางและไม่เปลี่ยนแปลง

ในจุดสุดท้ายการเลือกไปข้างหน้า / ถอยหลังเป็นตัวอย่างเป็นเรื่องง่ายโดยอัตโนมัติ

ดังนั้นฉันยังไม่เห็นข้อดีที่แท้จริง


6
ข้อสังเกตบางประการ: ( 1 ) ค่าประมาณของ OLS นั้นไม่ซ้ำกันเมื่อเมทริกซ์ของตัวทำนายนั้นไม่เต็มอันดับ ( 2 ) ความสอดคล้องเป็นแนวคิดเชิงเส้นกำกับและต้องมีลำดับของตัวประมาณ ซึ่งหมายความว่าคุณจะต้องกำหนดประเภทของลำดับที่คุณกำลังพิจารณาและชนิดของการเจริญเติบโตที่คุณมีความสนใจในการทำเรื่อง ( 3 ) มีความสอดคล้องกันหลายประเภทและเข้าใจความแตกต่างระหว่างพวกเขาสามารถอธิบายได้ Zhao Yu & (2006)กระดาษมีการสนทนาที่ดี ( 4 ) ความเอนเอียงถูก overrated
พระคาร์ดินัล

1
( 5 ) แรงจูงใจดั้งเดิมของการถดถอยสันในHoerl & Kennard (1970)คือการจัดการเมทริกซ์การออกแบบที่ไม่ดีซึ่งเป็นรูปแบบ "อ่อน" ของการขาดอันดับ
พระคาร์ดินัล

1
@ cardinal อีกครั้ง (1): ขออภัยฉันหมายถึงการคาดการณ์ผลลัพธ์มากกว่าการประมาณค่าสัมประสิทธิ์
Charlie

1
อาโอเค. สี่เหลี่ยมนั้นดีกว่าด้วยเชิงอรรถของคุณในคำถาม
พระคาร์ดินัล

นี่คือลิงก์ไปยัง Zhao & Yu (2006) รุ่นที่เปิดเผยต่อสาธารณะตามที่แสดงความคิดเห็นข้างต้น
Richard Hardy

4

นี่คือตัวอย่างพื้นฐานที่นำมาใช้จากชีวสถิติ

สมมติว่าฉันกำลังศึกษาความสัมพันธ์ระหว่างมะเร็งรังไข่กับยีนหนึ่งชุด

ตัวแปรตามของฉันคือไบนารี (เขียนเป็นศูนย์หรือ 1) ตัวแปรอิสระของฉันรหัสข้อมูลจากฐานข้อมูล proteomic

ตามปกติในการศึกษาพันธุศาสตร์จำนวนมากข้อมูลของฉันกว้างกว่าที่เป็นสูงมาก ฉันมีข้อสังเกตที่แตกต่างกัน 216 ข้อ แต่มีผู้ทำนายถึง 4,000 คน

การถดถอยเชิงเส้นเป็นสิ่งที่ถูกต้อง (ระบบน่ากลัวเกินกว่าที่กำหนดไว้)

เทคนิคการเลือกคุณสมบัติไม่เป็นไปได้ ด้วยตัวแปรอิสระที่แตกต่างกัน 4,000+ เทคนิคทั้งหมดชุดย่อยที่เป็นไปได้นั้นหมดไปจากคำถาม

ตัวเลือกที่ดีที่สุดอาจจะใช้การถดถอยโลจิสติกกับสุทธิที่ยืดหยุ่น

ฉันต้องการทำการเลือกคุณสมบัติ (ระบุตัวแปรอิสระที่มีความสำคัญ) ดังนั้นการถดถอยของสันเขาจึงไม่เหมาะสม

เป็นไปได้โดยสิ้นเชิงว่ามีตัวแปรอิสระมากกว่า 216 ตัวแปรที่มีอิทธิพลอย่างมีนัยสำคัญดังนั้นฉันอาจไม่ควรใช้ Lasso (Lasso ไม่สามารถระบุตัวทำนายได้มากกว่าที่คุณสังเกต) ...

ใส่ตาข่ายยืดหยุ่น ...


1
คุณสามารถจัดหาตำราเรียนที่เกี่ยวข้องกับสถานการณ์เช่นนี้ตามที่คุณพูดถึงได้หรือไม่?
Qbik

0

ปัญหาอีกประการหนึ่งที่วิธีการหดตัวแบบถดถอยเชิงเส้นสามารถแก้ไขได้คือการประมาณค่าความแปรปรวนต่ำ (อาจไม่เอนเอียง) ของผลการรักษาโดยเฉลี่ย (ATE) ในการศึกษากรณีศึกษาการควบคุมแบบมิติบนข้อมูลเชิงสังเกตการณ์

โดยเฉพาะอย่างยิ่งในกรณีที่ 1) มีตัวแปรจำนวนมาก (ทำให้ยากต่อการเลือกตัวแปรสำหรับการจับคู่ที่แน่นอน) 2) การจับคู่คะแนนความชอบไม่สามารถกำจัดความไม่สมดุลในตัวอย่างการรักษาและการควบคุมและ 3) มีความสัมพันธ์แบบหลายค่า มีเทคนิคหลายอย่างเช่น Lasso แบบปรับตัว (Zou, 2006) ที่ได้รับการประมาณการแบบไม่เอนเอียง มีเอกสารหลายฉบับที่พูดคุยเกี่ยวกับการใช้ lasso regression สำหรับการอนุมานเชิงสาเหตุและสร้างช่วงความมั่นใจในการประมาณค่าสัมประสิทธิ์ (ดูบทความต่อไปนี้: Inference หลังจากใช้ Lasso สำหรับการเลือกตัวแปร )

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.