ขัดขวางแบบเบย์และแผ่นเปรียบเทียบกับวิธีการลงโทษ


11

ฉันกำลังอ่านสไลด์ของ Steven Scott เกี่ยวกับแพ็คเกจ BSTS R (คุณสามารถค้นหาได้ที่นี่: สไลด์ )

เมื่อถึงจุดหนึ่งเมื่อพูดถึงการรวมถึง regressors จำนวนมากในโมเดลอนุกรมเวลาเชิงโครงสร้างเขาได้แนะนำค่าสัมประสิทธิ์การถดถอยและสแลบพื้นและบอกว่าพวกเขาดีกว่าเมื่อเทียบกับวิธีการลงโทษ

Scott กล่าวซึ่งอ้างถึงตัวอย่างของชุดข้อมูลที่มีตัวทำนาย 100 ตัว:

  • วิธีการลงโทษจะทำการตัดสินใจเพียงครั้งเดียวว่าตัวแปรใดที่จะถูกรวม / แยกออกซึ่งหมายความว่าพวกเขาจะเลือกเซตย่อยของตัวทำนายหนึ่งตัวอย่างเช่นแบบจำลองหนึ่งในเป็นไปได้2 1002100
  • "นักบวช Lasso (และที่เกี่ยวข้อง) ไม่กระจัดกระจายพวกเขาชักนำ sparsity ที่โหมด แต่ไม่ได้อยู่ในการกระจายหลัง"

เมื่อมาถึงจุดนี้เขาแนะนำ Spike และ Slab Priors

ฉันคิดว่าฉันได้รับปรีชาญาณ แต่ฉันต้องการให้แน่ใจว่า:

  • พวกเขาดีขึ้นหรือไม่ในแง่ที่ว่าพวกเขาใช้วิธีการทดสอบแบบบังคับกำลังอันโหดร้ายในการทดสอบแต่ละชุดย่อยของ regressors
  • ข้อเสียเปรียบคือเวลาในการคำนวณใช่หรือไม่?
  • คุณคิดว่าเขาหมายถึงอะไรเมื่อพูดว่า "Lasso (และที่เกี่ยวข้อง) ... แต่ไม่ได้อยู่ในการกระจายหลัง"

คำตอบ:


10

ฉันจะตอบคำถามที่สามของคุณก่อนและพูดถึงอีกสองคำถามของคุณในภายหลัง

  1. คุณคิดว่าเขาหมายถึงอะไรเมื่อพูดว่า "Lasso (และที่เกี่ยวข้อง) ... แต่ไม่ได้อยู่ในการกระจายหลัง"

รูปนี้จากสไลด์ของเขาแสดงให้เห็นถึงความหมาย แสดงความ regularizer เชือกเป็นกระจายก่อนที่หมายถึงการกระจายก่อนที่คุณจะใช้รูปแบบของการกระจาย Laplacian หรือดับเบิลชี้แจง การกระจายนี้มีจุดสูงสุดที่ไม่ราบรื่นที่ค่าเฉลี่ยซึ่งตั้งค่าเป็น 0 เพื่อให้ได้เอฟเฟ็กต์การทำให้เป็นปกติ หากต้องการรับผลลัพธ์จากการทำเชือกโดยตรงคุณควรเข้าสู่โหมดการกระจายหลัง

ทดสอบ

ในรูปเส้นประสีน้ำเงินแสดงถึงการกระจายก่อน Laplacian การกระจายหลังเป็นสีดำทึบมีโหมดอยู่ที่ 0 ทางซ้ายโดยมีความเป็นไปได้ที่อ่อนแอในขณะที่โหมดนั้นไม่ใช่ศูนย์ทางด้านขวาโดยมีโอกาสสูง

อย่างไรก็ตามการกระจายหลังเต็มรูปแบบไม่กระจัดกระจายเพราะถ้าคุณสุ่มตัวอย่างจากนั้นคุณจะได้ค่าใกล้เคียง 0 เท่านั้นและอันที่จริงเนื่องจากเป็นการกระจายอย่างต่อเนื่องคุณจะไม่ได้รับ 0 อย่างแม่นยำ

เพื่อให้บรรลุผล sparsity ด้วยวิธี lasso คุณจะต้องตั้งค่า cutoff threshold ในโหมด posterior กรณีที่เหมาะคือถ้าโหมดหลังของคุณเท่ากับ 0 แต่คุณสามารถผ่อนคลายและกำจัดตัวแปรของคุณได้หากโหมดหลังน้อยกว่า 0.2 หลังจากรับค่าสัมบูรณ์

การแยกส่วนนี้ด้วย lasso จะทำให้ชุด regressors ที่ถูกกำจัดและเก็บไว้ซึ่งเป็น "การตัดสินใจครั้งเดียว" ซึ่งรวมอยู่หรือแยกออกจาก regressors

วิธีการแบบเบย์แบบเต็มรูปแบบในการเลือกตัวแปรแบบขัดขวางและแบบพื้นก่อนหน้ายังคงมีความไม่แน่นอนเกี่ยวกับตัวแปรที่ควรรวมหรือแยกออกไปตลอดทางผ่านตัวแบบ

ดังนั้นเพื่อตอบคำถามแรกของคุณ:

  1. พวกเขาดีขึ้นหรือไม่ในแง่ที่ว่าพวกเขาใช้วิธีการทดสอบแบบบังคับกำลังอันโหดร้ายในการทดสอบแต่ละชุดย่อยของ regressors

นี่เป็นความเข้าใจผิดเนื่องจากไม่มีวิธีการทดสอบย่อยทั้งหมดของ regressors ที่จะรวม

  1. ข้อเสียเปรียบคือเวลาในการคำนวณใช่หรือไม่?

นี่เป็นความเข้าใจที่ผิดเนื่องจากเวลาในการคำนวณไม่ได้ถูกครอบงำโดยการทดสอบกำลังของเดรัจฉาน

เพื่อชี้แจงประเด็นของ Scott เมื่อได้รับข้อมูลบางอย่างหากคุณใช้วิธีการกระจายโอกาสที่ถูกลงโทษคุณจะได้รับชุดของการรวมและการแยกที่แยกออกจากกันอย่างแน่นอนหนึ่งชุด แต่ถ้าคุณใช้วิธีการแยกข้อมูลแบบสไปค์และสแลปคุณจะมีการแจกแจงแบบหลังเต็มรูปแบบสำหรับ regressor แต่ละแบบแต่ละแบบมีโอกาสที่จะถูกรวมหรือแยกออก ผู้ลงทะเบียนบางคนอาจมีโอกาส 70% ที่จะถูกรวมไว้และคนอื่น ๆ มีโอกาส 25% สิ่งนี้สามารถเป็นที่นิยมในหลาย ๆ แอปพลิเคชั่นเนื่องจากชุดข้อมูลชุดเดียวเราควรมีความไม่แน่นอนว่าชุดข้อมูลใดมีความสำคัญหรือไม่

โดยสังหรณ์ใจ, เข็มและแผ่นดีกว่าก่อนแสดงพื้นที่ที่เป็นไปได้ของ regressors รวม / ยกเว้นเมื่อเทียบกับวิธีการที่น่าจะเป็นโทษเช่นบ่วงบาศ


2
ขอบคุณมาก! ความเข้าใจของฉันเกี่ยวกับสไลด์ของสก็อตต์นั้นค่อนข้างตื้นและบางครั้งก็ปิดเครื่องหมายคุณทำให้ชัดเจน!
Tommaso Guerrini
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.