เมื่อใดที่คุณสามารถใช้เกณฑ์ตามข้อมูลเพื่อระบุรูปแบบการถดถอย


20

ฉันได้ยินมาว่าเมื่อข้อกำหนดตัวแบบการถดถอยจำนวนมาก (พูดใน OLS) ได้รับการพิจารณาว่าเป็นไปได้สำหรับชุดข้อมูลสิ่งนี้ทำให้เกิดปัญหาการเปรียบเทียบหลายอย่างและค่า p และค่าช่วงความเชื่อมั่นไม่น่าเชื่อถืออีกต่อไป ตัวอย่างที่สำคัญอย่างหนึ่งคือการถดถอยแบบขั้นตอน

ฉันจะใช้ข้อมูลตัวเองเพื่อช่วยระบุรูปแบบได้เมื่อใดและนี่เป็นวิธีการที่ไม่ถูกต้องหรือไม่ คุณจำเป็นต้องมีทฤษฎีตามหัวข้อเพื่อสร้างแบบจำลองหรือไม่?

คำตอบ:


9

เทคนิคการเลือกตัวแปรโดยทั่วไป (ไม่ว่าจะเป็นแบบขั้นตอนย้อนหลังไปข้างหน้าส่วนย่อยทั้งหมด AIC ฯลฯ ) ใช้ประโยชน์จากโอกาสหรือรูปแบบสุ่มในข้อมูลตัวอย่างที่ไม่มีอยู่ในประชากร ศัพท์เทคนิคสำหรับเรื่องนี้เกินความเหมาะสมและเป็นปัญหาโดยเฉพาะอย่างยิ่งกับชุดข้อมูลขนาดเล็กถึงแม้ว่ามันจะไม่ได้เป็นเอกสิทธิ์ของพวกเขา ด้วยการใช้โพรซีเดอร์ที่เลือกตัวแปรตามความเหมาะสมที่สุดรูปแบบสุ่มทั้งหมดที่ดูเหมือนเหมาะสมในตัวอย่างนี้ช่วยให้เกิดการประมาณการและข้อผิดพลาดมาตรฐาน นี่เป็นปัญหาสำหรับทั้งการทำนายและการตีความของตัวแบบ

โดยเฉพาะ r-squared สูงเกินไปและการประมาณพารามิเตอร์นั้นมีลำเอียง (ห่างจาก 0 มากเกินไป) ข้อผิดพลาดมาตรฐานสำหรับพารามิเตอร์นั้นเล็กเกินไป (และค่า p และช่วงเวลารอบ ๆ พารามิเตอร์นั้นเล็กเกินไป / แคบ)

แนวป้องกันที่ดีที่สุดสำหรับปัญหาเหล่านี้คือการสร้างแบบจำลองอย่างรอบคอบและรวมถึงตัวทำนายที่เหมาะสมตามทฤษฎีตรรกะและความรู้ก่อนหน้า หากจำเป็นต้องมีขั้นตอนการเลือกตัวแปรคุณควรเลือกวิธีที่ลงโทษการประมาณค่าพารามิเตอร์ (วิธีการหดตัว) โดยการปรับพารามิเตอร์และข้อผิดพลาดมาตรฐานเพื่อพิจารณาว่าเหมาะสมมากเกินไป วิธีการหดตัวทั่วไปบางอย่างคือการถดถอยแบบริดเดอร์, การถดถอยแบบมุมต่ำสุดหรือบ่วงบาศ นอกจากนี้การตรวจสอบความถูกต้องโดยใช้ชุดข้อมูลการฝึกอบรมและชุดข้อมูลการทดสอบหรือการหาค่าเฉลี่ยของแบบจำลองจะมีประโยชน์ในการทดสอบหรือลดผลกระทบของการปรับตัวที่มากเกินไป

Harrell เป็นแหล่งข้อมูลที่ดีสำหรับการอภิปรายโดยละเอียดเกี่ยวกับปัญหาเหล่านี้ Harrell (2001) "กลยุทธ์การสร้างแบบจำลองการถดถอย"


ยอมรับเป็นเวลานานในภายหลัง! ขอบคุณสำหรับภาพรวมรายละเอียดของปัญหาทางเทคนิคและฉันจะดูที่หนังสือของ Harrell
Statisfactions

7

ในบริบททางสังคมศาสตร์ที่ฉันมาจากปัญหาคือว่าคุณสนใจ (a) การทำนายหรือ (b) การทดสอบคำถามการวิจัยที่มุ่งเน้น หากวัตถุประสงค์คือการคาดการณ์แนวทางการขับเคลื่อนข้อมูลจะเหมาะสม หากจุดประสงค์คือการตรวจสอบคำถามการวิจัยที่มุ่งเน้นสิ่งสำคัญคือการพิจารณาว่าแบบจำลองการถดถอยแบบใดที่ทดสอบคำถามของคุณ

ตัวอย่างเช่นหากงานของคุณคือการเลือกชุดการทดสอบการเลือกเพื่อทำนายประสิทธิภาพของงานเป้าหมายในแง่หนึ่งอาจถูกมองว่าเป็นหนึ่งในการทำนายการเพิ่มประสิทธิภาพการทำงานให้สูงสุด ดังนั้นวิธีการขับเคลื่อนข้อมูลจะเป็นประโยชน์

ในทางตรงกันข้ามหากคุณต้องการเข้าใจบทบาทสัมพัทธ์ของตัวแปรบุคลิกภาพและตัวแปรความสามารถในการมีอิทธิพลต่อประสิทธิภาพดังนั้นวิธีการเปรียบเทียบแบบจำลองที่เฉพาะเจาะจงอาจเหมาะสมกว่า

โดยทั่วไปเมื่อสำรวจคำถามการวิจัยที่เน้นเพ่งความสนใจไปที่เป้าหมายคือการอธิบายบางสิ่งบางอย่างเกี่ยวกับกระบวนการเชิงสาเหตุที่ดำเนินการซึ่งตรงข้ามกับการพัฒนาแบบจำลองด้วยการทำนายที่เหมาะสมที่สุด

เมื่อฉันอยู่ในกระบวนการของการพัฒนาแบบจำลองเกี่ยวกับกระบวนการโดยใช้ข้อมูลแบบตัดขวางฉันต้องระวังเกี่ยวกับ: (a) รวมถึงตัวทำนายที่ในทางทฤษฎีอาจจะคิดว่าเป็นผลที่ตามมาของตัวแปรผลลัพธ์ ยกตัวอย่างเช่นความเชื่อของบุคคลที่ว่าพวกเขาเป็นนักแสดงที่ดีเป็นตัวทำนายผลงานที่ดี แต่มีแนวโน้มว่าอย่างน้อยก็ส่วนหนึ่งเกิดจากข้อเท็จจริงที่ว่าพวกเขาสังเกตเห็นการทำงานของตัวเอง (b) รวมถึงตัวทำนายจำนวนมากที่สะท้อนทั้งหมดของปรากฏการณ์พื้นฐานเดียวกัน เช่นการรวม 20 รายการทั้งหมดวัดความพึงพอใจกับชีวิตในรูปแบบที่แตกต่างกัน

ดังนั้นคำถามการวิจัยที่มุ่งเน้นจะต้องอาศัยความรู้เฉพาะของโดเมนเป็นอย่างมาก นี่อาจเป็นวิธีที่จะอธิบายว่าทำไมวิธีการขับเคลื่อนข้อมูลมักใช้ในสังคมศาสตร์น้อยลง


4

ฉันไม่คิดว่าเป็นไปได้ที่จะทำ Bonferoni หรือการแก้ไขที่คล้ายกันเพื่อปรับการเลือกตัวแปรในการถดถอยเนื่องจากการทดสอบและขั้นตอนทั้งหมดที่เกี่ยวข้องกับการเลือกแบบจำลองนั้นไม่ขึ้นกับใคร

วิธีหนึ่งคือการสร้างแบบจำลองโดยใช้ชุดข้อมูลหนึ่งชุดและทำการอนุมานบนชุดข้อมูลอื่น สิ่งนี้ทำในการพยากรณ์ตลอดเวลาที่เรามีชุดฝึกอบรมและชุดทดสอบ มันไม่ธรรมดามากในด้านอื่น ๆ อาจเป็นเพราะข้อมูลมีค่ามากจนเราต้องการใช้การสังเกตทุกครั้งสำหรับการเลือกแบบจำลองและการอนุมาน อย่างไรก็ตามตามที่คุณทราบในคำถามข้อเสียคือการอนุมานนั้นทำให้เข้าใจผิด

มีหลายสถานการณ์ที่วิธีการตามทฤษฎีเป็นไปไม่ได้เนื่องจากไม่มีทฤษฎีที่ได้รับการพัฒนามาอย่างดี ในความเป็นจริงฉันคิดว่านี่เป็นเรื่องธรรมดามากกว่ากรณีที่ทฤษฎีแนะนำแบบจำลอง


4

Richard Berk มีบทความล่าสุดที่เขาสาธิตผ่านการจำลองปัญหาของการสอดแนมข้อมูลและการอนุมานเชิงสถิติ ในขณะที่ร็อบแนะนำว่ามันเป็นปัญหามากกว่าแค่การแก้ไขการทดสอบสมมติฐานหลายครั้ง

การอนุมานทางสถิติหลังจากการเลือกแบบจำลอง โดย: Richard Berk, Lawrence Brown, Linda Zhao วารสารอาชญาวิทยาเชิงปริมาณ, Vol 26, ลำดับที่ 2 (1 มิถุนายน 2010), หน้า 217-236

รุ่น PDF ที่นี่


(+1) ขอบคุณสำหรับลิงค์! คุณอาจจะสนใจในเรื่องนี้คำถามที่เกี่ยวข้อง, stats.stackexchange.com/questions/3200/... รู้สึกอิสระที่จะมีส่วนร่วม
chl

@chl ฉันไม่คิดว่าฉันสามารถเพิ่มอะไรให้กับคำตอบที่ยอดเยี่ยมสำหรับคำถามนั้นได้ ฉันคิดว่าคำตอบของเบรนแดนนั้นรุนแรงมากเพราะฉันสงสัยว่าโปสเตอร์ดั้งเดิมสนใจในการอนุมานเชิงสาเหตุไม่ใช่เพียงการทำนายตามบริบทของคำถามเท่านั้น
Andy W

ใช่ฉันกำลังคิดถึงคำตอบของเขา ฉันได้เริ่มต้นการสะท้อนกลับในปัญหาการขุดลอกข้อมูล (ไม่เกี่ยวกับปัญหาการเลือกรูปแบบ / ตัวแปรหรือการอนุมานเชิงสาเหตุ) แต่จนถึงขณะนี้ได้รับการตอบสนองน้อย หากคุณต้องการที่จะเพิ่มความคิดของคุณเองมันจะน่าสนใจ: stats.stackexchange.com/questions/3252/…
chl

2

ถ้าฉันเข้าใจคำถามของคุณถูกกว่าคำตอบสำหรับปัญหาของคุณคือการแก้ไขค่า p ให้สอดคล้องกับจำนวนของสมมติฐาน

ตัวอย่างเช่นการแก้ไข Holm-Bonferoni ที่คุณเรียงลำดับสมมติฐาน (= โมเดลที่แตกต่างของคุณ) ตามค่า p และปฏิเสธพวกเขาด้วย ap samller กว่า (ต้องการ p-value / index)

ข้อมูลเพิ่มเติมเกี่ยวกับหัวข้อสามารถพบได้ในWikipedia


1
คุณอาจต้องการอ่านคำตอบนี้สำหรับคำถามที่แยกออกมาและดูว่าทำไมการปรับค่า p ในลักษณะเช่นนี้อาจไม่ใช่วิธีที่ดีที่สุด, stats.stackexchange.com/questions/3200/…
Andy W
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.