การวิเคราะห์ความยืดหยุ่น / ริดจ์ / เชือก


19

ฉันได้รับความสนใจในขั้นตอนสุทธิที่ยืดหยุ่นสำหรับการคาดการณ์การหดตัว / การเลือก ดูเหมือนว่าทรงพลังมาก

แต่จากมุมมองทางวิทยาศาสตร์ฉันไม่รู้ดีว่าต้องทำอะไรเมื่อได้สัมประสิทธิ์ ฉันจะตอบคำถามอะไร นี่คือตัวแปรที่มีอิทธิพลต่อผลลัพธ์มากที่สุดและมีสัมประสิทธิ์ซึ่งให้อัตราส่วนความแปรปรวน / ความเอนเอียงที่ดีที่สุดระหว่างการตรวจสอบความถูกต้อง?

แน่นอนว่านี่เป็นวิธีการบรรยาย / การคาดการณ์ที่ดีมากเมื่อเปรียบเทียบกับวิธีการประเมินค่าความเชื่อมั่นแบบดั้งเดิม ขณะนี้ Tibshirani & Co. ได้ทำการศึกษาการประมาณค่าอนุมาน แต่ยังอยู่ระหว่างการทดลอง

บางคนกำลังใช้ตัวแปรที่ถูกเลือกโดยเครือข่ายอีลาสติกเพื่อทำการวิเคราะห์เชิงอนุมานแบบคลาสสิก แต่นั่นจะขจัดข้อ จำกัด ในความแปรปรวนที่เกิดจากเทคนิค

ปัญหาอีกประการหนึ่งคือเนื่องจากพารามิเตอร์แลมบ์ดาและอัลฟาสำหรับตาข่ายยืดหยุ่นถูกเลือกโดยการตรวจสอบความถูกต้องของข้อมูลพวกเขาจึงมีความแปรปรวนแบบสุ่ม ดังนั้นทุกครั้งที่คุณเรียกใช้ (เช่น.) cv.glmnet () คุณจะเลือกเซตย่อยที่แตกต่างกันเล็กน้อยของตัวทำนายที่มีค่าสัมประสิทธิ์ต่างกันอยู่เสมอ

ฉันว่าเกี่ยวกับการแก้ปัญหานี้โดยพิจารณาแลมบ์ดาและอัลฟาที่ถูกต้องเป็นตัวแปรสุ่มและดำเนินการขั้นตอนการตรวจสอบความถูกต้องอีกครั้ง n เพื่อรับการแจกแจงของพารามิเตอร์เหล่านี้ วิธีนี้สำหรับผู้ทำนายทุกคนฉันจะมีจำนวนครั้งและทุกค่าสัมประสิทธิ์ฉันจะมีการแจกแจงผล สิ่งนี้จะให้ผลลัพธ์ generalizable เพิ่มเติมกับฉันช่วงสถิติ (เช่น sd ของสัมประสิทธิ์) มันน่าสนใจที่จะเห็นว่าแลมบ์ดาและอัลฟ่าเลือกวิธีนี้ใกล้เคียงกับการแจกแจงแบบไม่แสดงอาการหรือไม่เพราะมันจะเปิดทางสำหรับการทดสอบการอนุมาน (แต่ฉันไม่ใช่นักสถิติดังนั้นฉันไม่ควรพูดเกี่ยวกับสิ่งที่ฉันทำ ไม่เข้าใจ)

ดังนั้นในที่สุดคำถามของฉันคือ: เมื่อคุณได้รับการทำนายและค่าสัมประสิทธิ์จากตาข่ายยืดหยุ่นด้วยการตรวจสอบข้ามตามอัลฟาและแลมบ์ดาซึ่งคุณควรนำเสนอผลลัพธ์เหล่านี้และวิธีการ? คุณควรพูดคุยกับพวกเขาอย่างไร? เราเรียนรู้อะไร เรากำลังตั้งสมมุติฐาน / การวางนัยทั่วไปอะไร


ฉันคิดว่ามันกว้างเกินไป / ไม่ชัดเจนที่จะตอบอย่างเหมาะสม ในบางกรณีฉันพบว่าข้อความของคุณไม่ชัดเจน (เช่นคุณหมายถึงอะไร " แต่นั่นจะช่วยกำจัดข้อ จำกัด ในความแปรปรวนที่เกิดจากเทคนิค ") และในบางกรณีอาจทำให้เข้าใจผิด (เช่น " ทุกครั้งที่คุณทำงาน (เช่น) cv.glmnet () คุณจะเลือกชุดย่อยแตกต่างกันเล็กน้อยของการพยากรณ์ที่มีสัมประสิทธิ์แตกต่างกันเสมอ . "- กรณีที่ไม่ทุกครั้งและแม้กระทั่งเมื่อมันเกิดขึ้นมักจะไม่ได้รับภัยพิบัติ CV กระทำอย่างถูกต้อง)
usεr11852กล่าวว่าคืนสถานะ Monic

แรงบันดาลใจที่ฉันเคยเห็นจากเครือข่ายอีลาสติกเกี่ยวข้องกับการจัดกลุ่มตัวแปร (ผ่านส่วนที่ 2.3 ของ zou, hastie elastic net paper) ซึ่งมีการขยายรายละเอียดเพิ่มเติม (ผ่านวิธีที่แตกต่างกันเล็กน้อย) ที่นี่: ncbi.nlm.nih .gov / pmc / บทความ / PMC4011669
user795305

คำตอบ:


8

วิธีการเหล่านี้ - เครือข่ายเชือกและยางยืด - เกิดจากปัญหาของการเลือกคุณสมบัติและการทำนาย มันผ่านเลนส์ทั้งสองนี้ที่ฉันคิดว่าสามารถหาคำอธิบายได้

Matthew Gunn อธิบายอย่างชัดเจนในคำตอบของเขาว่าเป้าหมายทั้งสองนี้นั้นแตกต่างกันและมักถูกยึดครองโดยคนอื่น อย่างไรก็ตามโชคดีสำหรับเราวิธีการที่เราสนใจสามารถทำได้ดีในทั้งสองด้าน

การเลือกคุณสมบัติ

ก่อนอื่นเรามาพูดถึงการเลือกคุณสมบัติ ก่อนอื่นเราควรกระตุ้นให้เกิดความยืดหยุ่นของตาข่ายจากมุมมองของเชือก นั่นคือการอ้างถึงHastie และ Zou "ถ้ามีกลุ่มของตัวแปรที่มีความสัมพันธ์แบบคู่เป็นจำนวนสูงมากจากนั้น lasso จะเลือกตัวแปรเพียงตัวเดียวจากกลุ่มและไม่สนใจว่าจะเลือกตัวใด" ยกตัวอย่างเช่นนี่เป็นปัญหาเพราะมันหมายความว่าเราไม่น่าจะพบองค์ประกอบของการสนับสนุนที่แท้จริงโดยใช้เชือก - เพียงหนึ่งที่มีความสัมพันธ์อย่างมากกับมัน (กระดาษกล่าวว่าเรื่องนี้ได้รับการพิสูจน์ในกระดาษ LARS ซึ่งผมยังไม่ได้อ่านเลย.) ความยากลำบากของการกู้คืนการสนับสนุนในการปรากฏตัวของความสัมพันธ์ยังเป็นแหลมออกโดยเวนไรท์ ,0.5เมื่อมีความสัมพันธ์สูงระหว่างการสนับสนุนที่แท้จริงและความสมบูรณ์

ตอนนี้การลงโทษ l2 ในเครือข่ายยืดหยุ่นสนับสนุนคุณสมบัติที่มีค่าสัมประสิทธิ์ที่ถือว่าแยกไม่ออกโดยการสูญเสียและการลงโทษ l1 ที่จะมีค่าสัมประสิทธิ์โดยประมาณเท่ากัน เราสามารถเห็นสิ่งนี้อย่างอิสระโดยสังเกตว่าตาม. ด้วยเหตุนี้ตาข่ายยางยืดจึงทำให้เรามีโอกาสน้อยที่จะ 'บังเอิญ' ทำให้ค่าประมาณสัมประสิทธิ์หายไปซึ่งเป็นการสนับสนุนที่แท้จริง นั่นคือการสนับสนุนที่แท้จริงมีแนวโน้มที่จะอยู่ภายในการสนับสนุนที่คาดการณ์ไว้ ดีแล้ว! หมายความว่ามีการค้นพบที่ผิดพลาดมากขึ้น แต่นั่นเป็นราคาที่คนส่วนใหญ่ยินดีจ่าย(a,)=หาเรื่องนาทีa',':=|a'|+|'|(a')2+(')2|a|=||

นอกจากนี้มันก็คุ้มค่าที่ชี้ให้เห็นว่าความจริงที่ว่าคุณสมบัติที่มีความสัมพันธ์สูงมักจะมีค่าสัมประสิทธิ์ที่คล้ายกันมากทำให้เราสามารถตรวจจับการจัดกลุ่มของคุณสมบัติภายในการสนับสนุนที่คาดการณ์ซึ่งมีอิทธิพลต่อการตอบสนองในทำนองเดียวกัน

คาดการณ์

ตอนนี้เราไปยังการทำนาย ขณะที่ Matthew Gunn ชี้ให้เห็นการเลือกพารามิเตอร์การปรับแต่งผ่านการตรวจสอบความถูกต้องของข้อมูลจะสร้างจุดมุ่งหมายในการเลือกแบบจำลองที่มีข้อผิดพลาดในการทำนายน้อยที่สุด เนื่องจากแบบจำลองใด ๆ ที่เลือกโดย lasso สามารถเลือกได้โดย elastic net (โดยการ ), จึงมีความรู้สึกว่า net elastic นั้นสามารถหาแบบจำลองที่ทำนายได้ดีกว่า lassoα=1

Lederer, Yu และ Gaynanovaแสดงภายใต้ข้อสันนิษฐานใด ๆ เกี่ยวกับคุณสมบัติที่เชือกและตาข่ายยืดหยุ่นสามารถมีข้อผิดพลาดการทำนาย l2 ของพวกเขาล้อมรอบด้วยปริมาณเดียวกัน มันไม่ได้เป็นความจริงที่ว่าขอบเขตของพวกมันจะแน่น แต่นี่อาจเป็นเรื่องที่น่าสนใจที่จะต้องทราบเนื่องจากความไม่เท่าเทียมกันของ oracleดูเหมือนจะเป็นวิธีมาตรฐานในวรรณคดีเชิงสถิติเพื่อวัดประสิทธิภาพการทำนายของตัวประมาณ - บางทีอาจเป็นการกระจาย นอกจากนี้ยังเป็นที่น่าสังเกตว่า Lederer (1) (2)มีเอกสารบางส่วนเกี่ยวกับการคาดการณ์ของบ่วงบาศในลักษณะที่สัมพันธ์กัน

สรุป

โดยสรุปแล้วปัญหาที่น่าสนใจคือการสนับสนุนที่แท้จริงซึ่งอยู่ภายในการสนับสนุนและการคาดการณ์ที่คาดการณ์ไว้ สำหรับการกู้คืนการสนับสนุนมีการรับประกันที่พิสูจน์แล้วอย่างเข้มงวด (ผ่าน Wainwright) ที่ Lasso เลือกคุณลักษณะที่ถูกต้องที่จะอยู่ในรูปแบบภายใต้สมมติฐานของความสัมพันธ์ต่ำระหว่างการสนับสนุนที่แท้จริงและส่วนประกอบที่สมบูรณ์ อย่างไรก็ตามในการปรากฏตัวของความสัมพันธ์เราสามารถถอยกลับไปที่ตาข่ายยืดหยุ่นเพื่อมีแนวโน้มที่จะเลือกคุณสมบัติในการสนับสนุนที่แท้จริงให้เป็นหนึ่งในทั้งหมดที่มันเลือก (โปรดทราบว่าเราต้องเลือกพารามิเตอร์การปรับอย่างระมัดระวังที่นี่) และสำหรับการคาดการณ์เมื่อเราเลือกพารามิเตอร์การปรับแต่งผ่านการตรวจสอบความถูกต้องของ Cross มันทำให้รู้สึกว่าสัญชาตญาณยืดหยุ่นสุทธิควรทำงานได้ดีกว่าเชือก - โดยเฉพาะอย่างยิ่งเมื่อมีความสัมพันธ์ .

วางการคาดการณ์และแบบแผนบางอย่างไว้เราเรียนรู้อะไร เราเรียนรู้เกี่ยวกับการสนับสนุนที่แท้จริง

ช่วงความเชื่อมั่น

เป็นมูลค่าที่ชี้ให้เห็นว่ามีการเปลี่ยนแปลงมากมายใน 2 ปีที่ผ่านมาเกี่ยวกับการอนุมานที่ถูกต้องสำหรับเชือก โดยเฉพาะอย่างยิ่งงานของLee, Sun, Sun และ Taylorให้การอนุมานที่แน่นอนสำหรับค่าสัมประสิทธิ์ของ lasso ตามเงื่อนไขในแบบจำลองที่ได้รับการคัดเลือก (ผลลัพธ์จากการอนุมานใน Lasso สำหรับค่าสัมประสิทธิ์ที่แท้จริงอยู่ที่ช่วงเวลาที่ทำการไปรษณีย์ของ OP และสรุปได้ดีในเอกสารที่เชื่อมโยง)


มันจะถูกต้องหรือไม่ที่จะสันนิษฐานว่าการประมาณค่าโควาเรียต์แบบปกติอาจคล้ายกับที่เราสามารถหาการศึกษาซ้ำได้หรือไม่? นั่นคือเนื่องจากการทำให้เป็นมาตรฐานช่วยลดข้อผิดพลาดในการทำนายตัวอย่างออกให้น้อยที่สุดจึงสามารถช่วยลดความแตกต่างจากการประมาณตัวอย่างและการประมาณตัวอย่างได้หรือไม่
Bakaburg

1
@Bababurg ใช่ที่เหมาะสมที่จะพูด การทำให้เป็นปกติจะสร้างตัวประมาณที่มีความแปรปรวนต่ำกว่า
user795305

9

สิ่งที่คุณกำลังทำกับ elastic, ridge หรือ lasso โดยใช้ cross-validation เพื่อเลือกพารามิเตอร์การทำให้เป็นกฎเป็นแบบฟอร์มเชิงเส้นที่เหมาะสมในการทำนายผล ทำไมพารามิเตอร์การทำให้เป็นมาตรฐานเฉพาะเหล่านี้? เพราะมันทำงานได้ดีที่สุดสำหรับการทำนายข้อมูลใหม่ การประมาณค่าสัมประสิทธิ์การหดตัวลงไปที่ศูนย์แนะนำการตั้งค่า (ตามที่ทำใน Ridge หรือ Lasso) สามารถลดความแปรปรวนที่มากเกินไปและการหดตัว แนวคิดนี้มีไว้สำหรับพารามิเตอร์การลงโทษของคุณเพื่อให้เกิดความสมดุลที่เหมาะสมเพื่อเพิ่มประสิทธิภาพการทำนายข้อมูลใหม่

ลองนึกภาพกระบวนการสร้างข้อมูลคือ:

Yผม=(xผม,β)+εผม

β^βY^JJ

คุณควรแสดงผลลัพธ์อย่างไร มันขึ้นอยู่กับคำถามการวิจัยพื้นฐานของคุณ! คุณอาจต้องการที่จะย้อนกลับไปและคิดลึกเกี่ยวกับสิ่งที่คำถามที่คุณกำลังพยายามที่จะตอบ ผู้ชมของคุณสนใจอะไร คุณพยายามจะทำอะไร?

  • คาดการณ์?
  • ประเมินค่าสัมประสิทธิ์?
  • การเลือกตัวแปร?

สิ่งสำคัญคือต้องแยกความแตกต่างระหว่างคำถามการวิจัยสองประเภท:

  1. Y^J
  2. β^

Yปัญหาการทำนาย ตามที่คุณทราบว่าเทคนิคการเรียนรู้ของเครื่องวางชั้นวางแบบมาตรฐานอาจเป็นปัญหาอย่างยิ่งสำหรับปัญหาการประมาณค่าพารามิเตอร์:Y^β^

  • ในการตั้งค่ามิติสูงหลาย parameterization ที่แตกต่างกันจะให้การคาดการณ์เดียวกัน{y} หากจำนวนพารามิเตอร์สูงเมื่อเทียบกับจำนวนการสังเกตY^knคุณอาจไม่สามารถประมาณพารามิเตอร์แต่ละตัวได้ดี
  • อัลกอริทึมที่ได้รับการฝึกฝนในการพับที่ต่างกันอาจมีการประมาณค่าพารามิเตอร์ที่แตกต่างกันอย่างมีนัยสำคัญ
  • ความสำคัญในการเรียนรู้ของเครื่องอยู่ที่การทำนายไม่ได้ประเมินผลกระทบเชิงสาเหตุอย่างสม่ำเสมอ (สิ่งนี้ตรงกันข้ามกับเศรษฐมิติซึ่งโดยทั่วไปแล้วปัญหาหลักคือการประมาณผลกระทบเชิงสาเหตุ) การทำนายการประมาณรูปแบบการทำงานบางอย่างนั้นแตกต่างจากการประมาณค่าสาเหตุ ระดับตำรวจอาจเป็นตัวพยากรณ์ที่ดีสำหรับระดับอาชญากรรมและนี่ไม่ได้หมายความว่าตำรวจเป็นสาเหตุของอาชญากรรม

และในขณะที่คุณรับรู้อาจมีปัญหาในการตีความว่าเหตุใดการกำหนดพารามิเตอร์การเรียนรู้ของเครื่องจึงทำงานได้ ผู้ชมของคุณรู้สึกสบายใจกับกล่องดำทำนายผลหรือไม่? หรือการทำนายนั้นสำคัญกับคำถามของคุณอย่างไร

Lasso and Ridge: เหตุผลคลาสสิกที่จะใช้พวกเขา

  • Y^

  • คุณสามารถใช้การทำให้เป็นปกติเพื่อป้องกันการ overfitting เช่น. การถดถอยสันในบริบทของการปรับเส้นโค้งพหุนามสามารถทำงานได้ค่อนข้างดี

  • @Benjamin ชี้ให้เห็นในคำตอบของเขา Lasso ยังสามารถใช้สำหรับการเลือกตัวแปร ภายใต้เงื่อนไขปกติบางอย่าง Lasso จะเลือกรุ่นที่เหมาะสมอย่างต่อเนื่อง: ค่าสัมประสิทธิ์ที่ไม่เกี่ยวข้องจะถูกตั้งค่าเป็นศูนย์

L1L2

สิ่งที่ฉันกลับมาที่นี่ก็คือมันค่อนข้างยากที่จะตีความผลลัพธ์ของการถดถอยสันเขาเชือกหรือตาข่ายยืดหยุ่นโดยไม่ต้องบริบทเพิ่มเติมของสิ่งที่คุณพยายามที่จะคิดออก!


ศ. Sendhil Mullainathan ได้พูดคุยเกี่ยวกับการเรียนรู้ของเครื่องจักรในการประชุม AFA เดือนมกราคม 2017 ซึ่งเป็นแรงบันดาลใจบางส่วนของโพสต์นี้


3
ความคิดแบบนี้มีข้อบกพร่องในความคิดของฉัน มันตั้งอยู่บนสมมติฐานที่ว่าปรากฏการณ์พื้นฐานนั้นง่ายพอที่จะเข้าใจโดยมนุษย์ แบบจำลองมิติสูงส่วนใหญ่ซับซ้อนเกินกว่าที่มนุษย์จะเข้าใจได้ แต่มันเหมาะสำหรับปัญญาประดิษฐ์ขนาดใหญ่ ในความเป็นจริงแล้วตัวทำนายที่ดีที่สุดคือการตีความปรากฏการณ์ที่ดีที่สุดไม่ว่าคุณจะเข้าใจหรือไม่ก็ตาม
Cagdas Ozgenc

2
@CagdasOzgenc ฉันคิดว่ามันเป็นจุดที่ถูกต้องที่ฟังก์ชั่นบางอย่างซับซ้อนอย่างน่าสังเวชยากที่จะอธิบายมนุษย์ แต่สามารถเข้าใจได้และเรียนรู้ได้จากเครื่อง (เช่นการประเมินกระดานหมากรุก) ในสถานการณ์เหล่านี้อาจเป็นการดีกว่าที่จะยกมือของคุณขึ้นมาและอย่าพยายามตีความสิ่งที่เครื่องเรียนรู้ ในทางตรงกันข้ามมีสถานการณ์เช่นการทดลองยาเสพติดที่มีผลเชิงสาเหตุประสิทธิภาพโดยเฉลี่ยบางอย่างที่คุณพยายามประเมินเมื่อมีผู้สับสนจำนวนมากเลือกเอฟเฟกต์ ฯลฯ ... สิ่งเหล่านี้เป็นปัญหาที่แตกต่างกันและต้องการ เทคนิคต่าง ๆ
Matthew Gunn

1
Y^
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.