GLM หลังจากการเลือกรุ่นหรือการทำให้เป็นมาตรฐาน


12

ฉันอยากจะถามคำถามนี้ในสองส่วน ทั้งสองจัดการกับโมเดลเชิงเส้นทั่วไป แต่ข้อตกลงแรกกับการเลือกรูปแบบและข้อตกลงอื่น ๆ ที่มีการทำให้เป็นมาตรฐาน

ความเป็นมา:ฉันใช้โมเดล GLMs (แบบเชิงเส้นโลจิสติกส์การถดถอยแบบแกมม่า) สำหรับการทำนายและคำอธิบาย เมื่อฉันอ้างถึง " สิ่งปกติที่เกิดขึ้นกับการถดถอย " ฉันหมายถึงคำอธิบายด้วย (i) ช่วงความมั่นใจรอบค่าสัมประสิทธิ์ (ii) ช่วงความเชื่อมั่นรอบการทำนายและ (iii) การทดสอบสมมติฐานเกี่ยวกับการรวมกันเชิงเส้นของสัมประสิทธิ์เช่น " มีความแตกต่างระหว่างการรักษา A และการรักษา B หรือไม่ "

คุณสูญเสียความสามารถในการทำสิ่งเหล่านี้อย่างถูกกฎหมายโดยใช้ทฤษฎีปกติภายใต้ข้อใดข้อหนึ่งต่อไปนี้หรือไม่? และถ้าเป็นเช่นนั้นสิ่งเหล่านี้จะดีสำหรับแบบจำลองที่ใช้สำหรับการทำนายที่บริสุทธิ์หรือไม่?

I.เมื่อ GLM มีความเหมาะสมผ่านกระบวนการคัดเลือกแบบบางรุ่น (สำหรับรูปสมส่วนบอกขั้นตอนแบบขั้นตอนตาม AIC)

ครั้งที่สอง เมื่อ GLM เหมาะสมผ่านวิธีการทำให้เป็นมาตรฐาน (พูดโดยใช้ glmnet ใน R)

ความรู้สึกของฉันคือสำหรับฉันคำตอบคือในทางเทคนิคที่คุณควรใช้ bootstrap สำหรับ " สิ่งปกติที่ทำกับการถดถอย " แต่ไม่มีใครปฏิบัติตามนั้น

เพิ่ม:
หลังจากได้รับการตอบสนองและการอ่านที่อื่น ๆ นี่คือสิ่งที่ฉันใช้เวลานี้ (เพื่อประโยชน์ของผู้อื่นเช่นเดียวกับการได้รับการแก้ไข)

I.
A) RE: ข้อผิดพลาดทั่วไป เพื่อสรุปอัตราความผิดพลาดของข้อมูลใหม่เมื่อไม่มีการตั้งค่าไว้การตรวจสอบข้ามสามารถทำงานได้ แต่คุณต้องทำซ้ำขั้นตอนทั้งหมดสำหรับแต่ละครั้ง - โดยใช้ลูปซ้อนกัน - ดังนั้นการเลือกคุณสมบัติใด ๆ การปรับพารามิเตอร์ ฯลฯ ต้องเป็น ทำอย่างอิสระในแต่ละครั้ง แนวคิดนี้ควรมีไว้สำหรับความพยายามในการสร้างแบบจำลอง (รวมถึงวิธีการลงโทษ)

B) RE: การทดสอบสมมติฐานและช่วงความมั่นใจของ GLMเมื่อใช้การเลือกแบบจำลอง (การเลือกคุณสมบัติ, การปรับพารามิเตอร์, การเลือกตัวแปร) สำหรับโมเดลเชิงเส้นแบบทั่วไปและชุดการพักค้างอยู่จะอนุญาตให้ฝึกโมเดลบนพาร์ติชันแล้วพอดีกับข้อมูลที่เหลือหรือชุดข้อมูลแบบเต็ม และใช้โมเดล / ข้อมูลนั้นเพื่อทำการทดสอบสมมุติฐานเป็นต้นหากไม่มีชุดโฮลด์เอ้าท์อยู่สามารถใช้ bootstrap ได้ตราบใดที่กระบวนการเต็มรูปแบบทำซ้ำสำหรับตัวอย่าง bootstrap แต่ละตัวอย่าง สิ่งนี้ จำกัด การทดสอบสมมติฐานที่สามารถทำได้แม้ว่าอาจจะไม่สามารถเลือกตัวแปรได้เช่นกัน

C) RE: ไม่ถือการคาดการณ์เกี่ยวกับชุดข้อมูลในอนาคตจากนั้นใส่แบบจำลองที่มีจุดมุ่งหมายตามทฤษฎีและแบบทดสอบสมมติฐานสองสามข้อและพิจารณาถึงการปล่อยตัวแปรทั้งหมดในแบบจำลอง (สำคัญหรือไม่) (ตามแนวของ Hosmer และ Lemeshow) นี่เป็นชุดตัวแปรขนาดเล็กแบบคลาสสิกของแบบจำลองการถดถอยแล้วอนุญาตให้ใช้การทดสอบของ CI และสมมติฐาน

D) RE: การถดถอยแบบลงโทษ ไม่มีคำแนะนำบางทีคิดว่าสิ่งนี้เหมาะสำหรับการคาดการณ์เท่านั้น (หรือเป็นประเภทของการเลือกคุณสมบัติเพื่อนำไปใช้กับชุดข้อมูลอื่นใน B ด้านบน) เนื่องจากอคติที่แนะนำทำให้ CI และการทดสอบสมมติฐานไม่ฉลาด - แม้กับ bootstrap


1
บางครั้งผู้คนทำสิ่งนี้โดยไม่รู้ตัว (เช่นใช้สถิติในทางที่ผิดเพราะพวกเขาได้ผลลัพธ์ที่ต้องการ) และอย่างรู้เท่าทัน (พวกเขาทำบูทสแตรป ประเด็นของคุณถูกต้องและศาสตราจารย์ฮาร์เรลล์ชี้เรื่องนี้ไว้ในคำนำของหนังสือของเขาว่าบูทสแตรปมีประโยชน์
suncoolsu

1
นี่คือบางสิ่งเช่น "ใช่" สำหรับประเด็นของคุณ (II): arxiv.org/abs/1001.0188
Alex

คำตอบ:


5

คุณอาจตรวจสอบกระดาษของ David Freedman " A Note on Screening Reg สมการถดถอย " (ไม่ได้บันทึก)

การใช้ข้อมูลที่ไม่เกี่ยวข้องอย่างสมบูรณ์ในการจำลองเขาแสดงให้เห็นว่าหากมีผู้ทำนายจำนวนมากที่สัมพันธ์กับจำนวนการสังเกตกระบวนการตรวจคัดกรองมาตรฐานจะสร้างการถดถอยขั้นสุดท้ายที่ประกอบด้วยตัวทำนายที่สำคัญ (มากกว่าโดยบังเอิญ) และ F สำคัญ สถิติ. แบบจำลองขั้นสุดท้ายแสดงให้เห็นว่ามันมีประสิทธิภาพในการทำนายผลลัพธ์ แต่ความสำเร็จนี้เป็นจริง เขายังแสดงให้เห็นถึงผลลัพธ์เหล่านี้โดยใช้การคำนวณเชิงเส้นกำกับ คำแนะนำในการแก้ปัญหารวมถึงการคัดกรองตัวอย่างและประเมินแบบจำลองในชุดข้อมูลแบบเต็มและใช้อย่างน้อยลำดับความสำคัญมากกว่าการสังเกตการณ์


หมายเหตุ: เพื่อให้ bootstrap เป็นโซลูชันที่มีประสิทธิภาพคุณจะต้อง bootstrap ขั้นตอนทั้งหมดเริ่มต้นก่อนการคัดกรองใด ๆ ที่เกิดขึ้นหน้าจอตัวอย่าง bootstrapped แล้วคำนวณค่าสัมประสิทธิ์ แต่ตอนนี้คุณมีตัวทำนายที่แตกต่างกันในแต่ละการถดถอยและมันไม่ชัดเจนว่าจะคำนวณการกระจายตัวสำหรับชุดใดชุดหนึ่งได้ อย่างไรก็ตามการทำการบูตความเชื่อมั่นสำหรับค่าคาดการณ์ของผลลัพธ์อาจมีประสิทธิภาพอย่างไรก็ตาม
Charlie

@ charlie: [ฉันอ่านให้ถูกต้องหรือไม่ว่าคุณพูดกับฉันเพียงคนเดียว (ถูกลงโทษ)] คุณกำลังบอกว่าสำหรับช่วงเวลาการทำนายมันถูกต้องที่จะใช้การเลือกแบบจำลองและจากนั้นบูตการคาดคะเนจากแบบจำลองนั้น แต่สำหรับสิ่งอื่นใดที่คุณต้องการในการบูตกระบวนการทั้งหมด?
B_Miner

@ Charlie เกี่ยวกับวิธีการแก้ปัญหาที่แนะนำของการคัดกรองตัวอย่าง จะเป็นไปตามเส้นแบ่งพาร์ติชันของข้อมูล (ab) โดยใช้หนึ่งชุด (การเลือกแบบจำลอง ฯลฯ ) จากนั้นนำโมเดลนั้นไปใช้กับข้อมูลที่เหลือ - และข้อมูลนั้นกับแบบจำลองที่สอดคล้องกับทฤษฎีดั้งเดิมสำหรับการทดสอบสมมติฐาน CIs etc?
B_Miner

ฉันคิดถึงการเลือกรุ่นเท่านั้น แต่ส่วนใหญ่เป็นเพราะฉันไม่รู้ทั้งหมดเกี่ยวกับการถดถอยที่ถูกลงโทษ ฉันจะบอกว่าคุณต้อง bootstrap กระบวนการทั้งหมดเพื่อให้ได้ข้อสรุปในการทำนายจากตัวแบบ ปัญหาทั้งหมดคือในตัวอย่างใดก็ตามคุณมีแนวโน้มที่จะพบความสัมพันธ์ปลอมที่ได้รับการขยายเมื่อคุณรวมตัวแปรบางอย่างและปล่อยให้ผู้อื่นออกไป วิธีเดียวที่จะหลีกเลี่ยงปัญหานี้คือดูตัวอย่างหลายตัวอย่างเช่น bootstrap แน่นอนว่าไม่มีใครทำสิ่งนี้จริง
Charlie

ขวาคุณใช้หนึ่งพาร์ติชันของตัวอย่างเพื่อสร้างแบบจำลองของคุณโดยใช้ขั้นตอนการเลือกแบบจำลองจากนั้นทำการอนุมานบนพาร์ติชันอื่นหรือตัวอย่างเต็ม
Charlie

2

เกี่ยวกับ 1) ใช่คุณสูญเสียสิ่งนี้ ดูกลยุทธ์การสร้างแบบจำลองการถดถอยของ Harrell เช่นหนังสือที่จัดพิมพ์โดย Wiley หรือกระดาษที่ฉันนำเสนอกับ David Cassell ที่เรียกว่า "Stopping Stepwise" ซึ่งมีให้เช่น www.nesug.org/proceedings/nesug07/sa/sa07.pdf


ฉันเคยเห็นบทความนี้ - น่าสนใจมาก คำถามสองข้อ 1) ให้ใช้การถดถอยโลจิสติก ดูเหมือนว่าวิธีเดียวที่จะดำเนินการทดสอบ CI หรือการตั้งสมมติฐานคือการสร้างแบบจำลองในรูปแบบของ hosmer และ lemeshow (ไม่รวมชุดข้อมูลใด ๆ ที่มีขนาดใหญ่) ดังนั้นคุณจะเหลือ "ใช้" โมเดลสำหรับการประมาณจุดเท่านั้น? 2) บทความของคุณกล่าวถึงบ่วงบาศในทางเลือกอื่น ๆ คุณทราบหรือไม่ว่าสิ่งนี้ทำให้การทดสอบสมมติฐานในภายหลังหรือได้รับ "เพียง" เป็นตัวเลือกที่ดีกว่าในการเลือกแบบจำลองหรือไม่?
B_Miner
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.