ใช้การทำให้เป็นมาตรฐานเมื่อทำการอนุมานเชิงสถิติ


18

ฉันรู้เกี่ยวกับประโยชน์ของการทำให้เป็นปกติเมื่อสร้างแบบจำลองการทำนาย (อคติกับความแปรปรวนป้องกันการโอเวอร์) แต่ฉันสงสัยว่ามันเป็นความคิดที่ดีหรือไม่ที่จะทำการทำให้เป็นมาตรฐาน (lasso, ridge, elastic net) เมื่อจุดประสงค์หลักของแบบจำลองการถดถอยนั้นอนุมานถึงสัมประสิทธิ์ ฉันชอบที่จะได้ยินความคิดของผู้คนรวมถึงลิงก์ไปยังวารสารทางวิชาการหรือบทความที่ไม่ใช่ด้านวิชาการที่กล่าวถึงเรื่องนี้


4
การทำให้เป็นมาตรฐานนั้นสามารถเห็นได้ด้วยตาของเบย์เซียน, บ่วงบาศเช่นตรงกับเลขชี้กำลังสองเท่าก่อนหน้านี้ (ด้วยสเกลที่เลือกโดยการตรวจสอบข้าม) ดังนั้นสิ่งหนึ่งที่เป็นไปได้คือไปเต็มอ่าว
kjetil b halvorsen

1
การกำหนดตัวทำนายที่ไม่ใช่ศูนย์คืออะไรเกี่ยวกับบ่วงบาศ! หากคุณต้องการตรวจสอบว่ามีความแตกต่างอย่างมีนัยสำคัญทางสถิติจากศูนย์มันคุ้มค่าอย่างยิ่งที่จะต้องพิจารณาวิธีการเช่น lasso
user795305

คำตอบ:


8

คำว่า "การทำให้เป็นมาตรฐาน" ครอบคลุมวิธีการที่หลากหลายมาก สำหรับวัตถุประสงค์ของคำตอบนี้ฉันจะ จำกัด ให้แคบลงเพื่อหมายถึง "การเพิ่มประสิทธิภาพที่มีการลงโทษ" นั่นคือการเพิ่มการลงโทษหรือL 2ให้กับปัญหาการเพิ่มประสิทธิภาพของคุณL1L2

หากเป็นเช่นนั้นคำตอบก็คือ "ใช่!

เหตุผลของเรื่องนี้ก็คือการเพิ่มหรือL 2โทษที่จะนำไปสู่ฟังก์ชั่นความน่าจะเป็นที่จะตรงL1L2ฟังก์ชั่นทางคณิตศาสตร์เช่นเดียวกับการเพิ่มทั้ง Laplace หรือเกาส์ก่อนที่จะมีโอกาสที่จะได้รับการกระจายหลัง (สนามลิฟท์: การกระจายก่อนที่จะอธิบายถึงความไม่แน่นอน ของพารามิเตอร์ก่อนที่จะเห็นข้อมูลการกระจายหลังอธิบายความไม่แน่นอนของพารามิเตอร์หลังจากที่เห็นข้อมูล) ซึ่งนำไปสู่สถิติแบบเบย์ 101 สถิติแบบเบย์เป็นที่นิยมมากและดำเนินการตลอดเวลาโดยมีเป้าหมายของการอนุมานของผลกระทบโดยประมาณ

นั่นคือ "ใช่!" ส่วนหนึ่ง "ดีนะ" คือการเพิ่มประสิทธิภาพการกระจายหลังของคุณเสร็จแล้วและเรียกว่า "การประมาณค่าสูงสุดหลัง" (MAP) แต่ Bayesian ส่วนใหญ่ไม่ใช้การประมาณค่า MAP พวกเขาสุ่มตัวอย่างจากการกระจายหลังโดยใช้อัลกอริทึม MCMC! เรื่องนี้มีข้อดีหลายประการหนึ่งซึ่งมันมีแนวโน้มที่จะมีอคติน้อยลงในองค์ประกอบความแปรปรวน

เพื่อความกระชับฉันได้พยายามที่จะไม่ลงรายละเอียดเกี่ยวกับสถิติของ Bayesian แต่ถ้าสิ่งนี้คุณสนใจนั่นคือสถานที่ที่จะเริ่มมองหา


2
(+1) แต่ถ้าฉันใช้นักบวชเหล่านั้นเพียงเพราะพวกเขาให้การคาดการณ์ที่ดี - แน่นอนฉันอาจปรับพวกเขาเพื่อจุดประสงค์นั้น - แล้วฉันจะต้องทำอะไรจากการประมาณค่า MAP หรือการแจกแจงหลัง? (แน่นอนถ้าฉันขอร้องให้นักบวชเป็นตัวแทนของความรู้เกี่ยวกับพารามิเตอร์ก่อนที่จะเห็นข้อมูลที่ฉันรู้ว่าสิ่งที่พวกเขาทำ)
Scortchi - Reinstate Monica

1
@Scortchi: นั่นเป็นจุดที่ดีมาก: การใช้การตรวจสอบความถูกต้องเพื่อเลือกบทลงโทษทำให้คุณหลุดพ้นจากกรอบ Bayesian แบบคลาสสิก (เท่าที่ฉันรู้) การสร้างแบบจำลองด้วย CV เพื่อเลือกพารามิเตอร์การทำให้เป็นมาตรฐานจะไม่ตกไปตรงกับคำตอบนี้ แต่การใช้การทำให้เป็นมาตรฐานที่มีบทลงโทษคงที่จะเลือกจากข้อมูลผู้เชี่ยวชาญ
หน้าผา AB

2
คำเตือน: วิธีการ + MCMC ก่อนหน้านี้จะให้ผลลัพธ์ที่ถูกต้องเฉพาะเมื่อผู้โพสต์สำหรับค่าสัมประสิทธิ์ที่อาจเกิดขึ้นทั้งหมดจะถูกตรวจสอบและรายงาน มิฉะนั้นเราอยู่ในการตั้งค่าการอนุมานแบบเลือกและวิธีการอนุมานที่ไร้เดียงสาส่วนใหญ่จะไม่ถูกต้อง
user3903581

1
(+1) คำตอบที่ดี! อย่างไรก็ตามฉันคิดว่ามันอาจจะคุ้มค่าที่จะอธิบายประโยค "แต่ Bayesian ส่วนใหญ่ไม่ใช้การประมาณค่า MAP พวกเขาสุ่มตัวอย่างจากการกระจายหลังโดยใช้อัลกอริทึม MCMC!" ดูเหมือนว่าคุณกำลังพยายามที่จะบอกว่า Bayesians ส่วนใหญ่ใช้หลังเต็มรูปแบบในการเลือกตัวประมาณของพวกเขา เมื่อต้องการดูปัญหาโปรดทราบว่าสามารถทำการประมาณค่า MAP จากตัวอย่างสำหรับการแจกแจงหลัง
user795305

8

มีความแตกต่างที่สำคัญระหว่างการประเมินโดยใช้บทลงโทษประเภทสันเขาและบทลงโทษประเภทเชือก ตัวประมาณชนิดสันมีแนวโน้มที่จะลดค่าสัมประสิทธิ์การถดถอยทั้งหมดให้เป็นศูนย์และมีความลำเอียง แต่มีการแจกแจงแบบอะซิมโทติกได้ง่ายเพราะพวกมันไม่หดตัวตัวแปรใด ๆ ให้เป็นศูนย์ ความเอนเอียงในการประมาณสันอาจเป็นปัญหาในการทดสอบสมมติฐานต่อไป แต่ฉันไม่ใช่ผู้เชี่ยวชาญในเรื่องนั้น ในทางกลับกันการลงโทษประเภท Lasso / elastic-net ลดค่าสัมประสิทธิ์การถดถอยจำนวนมากเป็นศูนย์และดังนั้นจึงสามารถดูได้ว่าเป็นเทคนิคการเลือกรูปแบบ ปัญหาของการทำการอนุมานบนแบบจำลองที่เลือกขึ้นอยู่กับข้อมูลมักเรียกว่าปัญหาการอนุมานแบบเลือกหรือการอนุมานภายหลังการเลือก สาขานี้ได้เห็นการพัฒนาจำนวนมากในปีที่ผ่านมา

ปัญหาหลักของการอนุมานหลังจากการเลือกรุ่นคือการเลือกตัดทอนพื้นที่ตัวอย่าง ตัวอย่างง่ายๆสมมติว่าเราสังเกตY~ยังไม่มีข้อความ(μ,1) และต้องการประมาณเท่านั้น μถ้าเรามีหลักฐานว่ามันใหญ่กว่าศูนย์ จากนั้นเราประมาณμ ถ้า |Y|>>0 สำหรับบางเกณฑ์ที่กำหนดไว้ล่วงหน้า . ในกรณีเช่นนี้เราจะสังเกตเท่านั้นY ถ้ามันมีขนาดใหญ่กว่า ในค่าสัมบูรณ์และดังนั้น Y ไม่ปกติอีกต่อไป แต่ถูกตัดทอนตามปกติ

ในทำนองเดียวกัน Lasso (หรือ elastic net) จำกัด พื้นที่ตัวอย่างด้วยวิธีการเพื่อให้แน่ใจว่ามีการเลือกรุ่นที่เลือก การตัดปลายนี้มีความซับซ้อนมากขึ้น แต่สามารถอธิบายได้เชิงวิเคราะห์

จากข้อมูลเชิงลึกนี้เราสามารถทำการอนุมานโดยพิจารณาจากการกระจายข้อมูลที่ถูกตัดทอนเพื่อรับสถิติการทดสอบที่ถูกต้อง สำหรับช่วงความมั่นใจและสถิติการทดสอบดูงานของ Lee et al .: http://projecteuclid.org/euclid.aos/1460381681

วิธีการของพวกเขาจะดำเนินการในแพคเกจการ R selectiveInference

การประมาณค่าที่เหมาะสมที่สุด (และการทดสอบ) หลังจากการเลือกแบบจำลองถูกกล่าวถึงใน (สำหรับ lasso): https://arxiv.org/abs/1705.09417

และแพ็คเกจซอฟต์แวร์ (ครอบคลุมน้อยกว่า) มีให้ใน: https://github.com/ammeir2/selectiveMLE


4

ฉันจะแนะนำ LASSO เป็นพิเศษหากคุณพยายามใช้การถดถอยสำหรับการอนุมานโดยอ้างอิงจาก "ตัวทำนายที่มีความสำคัญทางสถิติ" - แต่ไม่ใช่สำหรับเหตุผลที่คุณคาดหวัง

ในทางปฏิบัติผู้ทำนายในรูปแบบมักจะมีความสัมพันธ์ แม้ว่าจะไม่มีความหลากหลายทางชีวภาพมากมาย แต่การเลือกตัวพยากรณ์ "สำคัญ" ของการถดถอยในกลุ่มของตัวทำนายที่สัมพันธ์กันนั้นอาจแตกต่างกันอย่างมากจากตัวอย่างไปยังตัวอย่าง

ดังนั้นใช่ไปข้างหน้าและทำ LASSO สำหรับการถดถอยของคุณ จากนั้นทำซ้ำกระบวนการสร้างแบบจำลองที่สมบูรณ์ (รวมถึงการตรวจสอบความถูกต้องแบบข้ามเพื่อเลือกบทลงโทษ LASSO) ในตัวอย่างบูตสแตรปหลายตัวอย่าง (สองสามร้อยหรือมากกว่านั้น) จากข้อมูลดั้งเดิม มาดูกันว่าตัวแปรชุดของตัวทำนาย "สำคัญ" ที่เลือกด้วยวิธีนี้สามารถเป็นอย่างไร

กระบวนการนี้ควรทำให้คุณคิดสองครั้งเกี่ยวกับการตีความค่า p ในการถดถอยในแง่ที่ตัวทำนายแต่ละตัวมีความสำคัญ


1
+1 ฉันเห็นด้วยกับทุกสิ่งที่เขียนคำตอบอย่างจริงจัง แต่ทำไมไม่ใช้ตาข่ายยืดหยุ่นแทน LASSO? (เนื่องจาก OP ยังระบุด้วย) การกำหนดแนวสันเขาจะควบคุมความสัมพันธ์ระหว่างตัวทำนายอย่างเด่นชัดขึ้นอีกเล็กน้อย
usεr11852พูดว่า Reinstate Monic

ในความเป็นจริงเป็นไปได้ที่จะคำนวณค่า p ที่ถูกต้องการประเมินและช่วงความมั่นใจในโมเดลที่เลือกผ่าน lasso หรือ elastic-net เพียงแค่ต้องทำถูกต้อง
user3903581

@user3903581 I don't dispute that one can get valid frequentist LASSO p-values, in the sense that a true null hypothesis would result in so large a coefficient less than in, say, 5% of replicate samples. The problem is in the all-too-frequent attempts to attribute causal inferences only to the predictors thus deemed "significant" without considering the issues raised by correlated predictors.
EdM
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.