ฉันจะตอบคำถามที่สามของคุณก่อนและพูดถึงอีกสองคำถามของคุณในภายหลัง
- คุณคิดว่าเขาหมายถึงอะไรเมื่อพูดว่า "Lasso (และที่เกี่ยวข้อง) ... แต่ไม่ได้อยู่ในการกระจายหลัง"
รูปนี้จากสไลด์ของเขาแสดงให้เห็นถึงความหมาย แสดงความ regularizer เชือกเป็นกระจายก่อนที่หมายถึงการกระจายก่อนที่คุณจะใช้รูปแบบของการกระจาย Laplacian หรือดับเบิลชี้แจง การกระจายนี้มีจุดสูงสุดที่ไม่ราบรื่นที่ค่าเฉลี่ยซึ่งตั้งค่าเป็น 0 เพื่อให้ได้เอฟเฟ็กต์การทำให้เป็นปกติ หากต้องการรับผลลัพธ์จากการทำเชือกโดยตรงคุณควรเข้าสู่โหมดการกระจายหลัง
ในรูปเส้นประสีน้ำเงินแสดงถึงการกระจายก่อน Laplacian การกระจายหลังเป็นสีดำทึบมีโหมดอยู่ที่ 0 ทางซ้ายโดยมีความเป็นไปได้ที่อ่อนแอในขณะที่โหมดนั้นไม่ใช่ศูนย์ทางด้านขวาโดยมีโอกาสสูง
อย่างไรก็ตามการกระจายหลังเต็มรูปแบบไม่กระจัดกระจายเพราะถ้าคุณสุ่มตัวอย่างจากนั้นคุณจะได้ค่าใกล้เคียง 0 เท่านั้นและอันที่จริงเนื่องจากเป็นการกระจายอย่างต่อเนื่องคุณจะไม่ได้รับ 0 อย่างแม่นยำ
เพื่อให้บรรลุผล sparsity ด้วยวิธี lasso คุณจะต้องตั้งค่า cutoff threshold ในโหมด posterior กรณีที่เหมาะคือถ้าโหมดหลังของคุณเท่ากับ 0 แต่คุณสามารถผ่อนคลายและกำจัดตัวแปรของคุณได้หากโหมดหลังน้อยกว่า 0.2 หลังจากรับค่าสัมบูรณ์
การแยกส่วนนี้ด้วย lasso จะทำให้ชุด regressors ที่ถูกกำจัดและเก็บไว้ซึ่งเป็น "การตัดสินใจครั้งเดียว" ซึ่งรวมอยู่หรือแยกออกจาก regressors
วิธีการแบบเบย์แบบเต็มรูปแบบในการเลือกตัวแปรแบบขัดขวางและแบบพื้นก่อนหน้ายังคงมีความไม่แน่นอนเกี่ยวกับตัวแปรที่ควรรวมหรือแยกออกไปตลอดทางผ่านตัวแบบ
ดังนั้นเพื่อตอบคำถามแรกของคุณ:
- พวกเขาดีขึ้นหรือไม่ในแง่ที่ว่าพวกเขาใช้วิธีการทดสอบแบบบังคับกำลังอันโหดร้ายในการทดสอบแต่ละชุดย่อยของ regressors
นี่เป็นความเข้าใจผิดเนื่องจากไม่มีวิธีการทดสอบย่อยทั้งหมดของ regressors ที่จะรวม
- ข้อเสียเปรียบคือเวลาในการคำนวณใช่หรือไม่?
นี่เป็นความเข้าใจที่ผิดเนื่องจากเวลาในการคำนวณไม่ได้ถูกครอบงำโดยการทดสอบกำลังของเดรัจฉาน
เพื่อชี้แจงประเด็นของ Scott เมื่อได้รับข้อมูลบางอย่างหากคุณใช้วิธีการกระจายโอกาสที่ถูกลงโทษคุณจะได้รับชุดของการรวมและการแยกที่แยกออกจากกันอย่างแน่นอนหนึ่งชุด แต่ถ้าคุณใช้วิธีการแยกข้อมูลแบบสไปค์และสแลปคุณจะมีการแจกแจงแบบหลังเต็มรูปแบบสำหรับ regressor แต่ละแบบแต่ละแบบมีโอกาสที่จะถูกรวมหรือแยกออก ผู้ลงทะเบียนบางคนอาจมีโอกาส 70% ที่จะถูกรวมไว้และคนอื่น ๆ มีโอกาส 25% สิ่งนี้สามารถเป็นที่นิยมในหลาย ๆ แอปพลิเคชั่นเนื่องจากชุดข้อมูลชุดเดียวเราควรมีความไม่แน่นอนว่าชุดข้อมูลใดมีความสำคัญหรือไม่
โดยสังหรณ์ใจ, เข็มและแผ่นดีกว่าก่อนแสดงพื้นที่ที่เป็นไปได้ของ regressors รวม / ยกเว้นเมื่อเทียบกับวิธีการที่น่าจะเป็นโทษเช่นบ่วงบาศ