จำนวนจุดน้อยที่สุดสำหรับการถดถอยเชิงเส้น


16

จำนวนการสังเกตการณ์ขั้นต่ำที่ "สมเหตุสมผล" จะมองหาแนวโน้มเมื่อเวลาผ่านไปด้วยการถดถอยเชิงเส้นคืออะไร แล้วแบบจำลองกำลังสองเหมาะสมกับอะไร?

ฉันทำงานกับดัชนีรวมของความไม่เท่าเทียมกันในสุขภาพ (SII, RII) และมีเพียง 4 คลื่นของการสำรวจดังนั้น 4 คะแนน (1997,2001,2004,2008)

ฉันไม่ใช่นักสถิติ แต่ฉันมีความประทับใจที่น่าประทับใจ 4 คะแนนไม่เพียงพอ คุณมีคำตอบและ / หรือการอ้างอิง?

ขอบคุณมาก,

Françoise


4
กฎของหัวแม่มือปกติคือ 10 คะแนนสำหรับตัวแปรอิสระแต่ละตัว
Peter Flom - Reinstate Monica

1
ดัชนีของคุณวัดอย่างไร หากพวกเขารวมถึงประมาณการความแปรปรวนแล้วทั้งสองอาจจะเพียงพอ (โดยใช้การทดสอบ t- หรืออนาล็อก) หลักการทางสถิติพื้นฐานที่ใช้ที่นี่คือเมื่อการเปลี่ยนแปลงแบบสุ่มเป็นคำอธิบายที่ไม่น่าเป็นไปได้ของสิ่งที่คุณกำลังสังเกตเห็นแล้วคุณมีสิทธิ์ที่จะระบุถึงแนวโน้มที่ชัดเจนสำหรับสาเหตุที่ไม่สุ่ม เมื่อแนวโน้มมีความแข็งแกร่งอาจจำเป็นต้องใช้ค่าข้อมูลน้อยมากเพื่อให้ได้ข้อสรุป "กฎง่ายๆ" ทั่วไปทั้งหมดแม้จะมี
whuber

คำตอบ:


12

กฎของปีเตอร์สหัวแม่มือจาก 10 ต่อ covariate เป็นกฎที่สมเหตุสมผล เส้นตรงสามารถลงตัวได้อย่างสมบูรณ์แบบกับสองจุดโดยไม่คำนึงถึงปริมาณของเสียงรบกวนในค่าการตอบสนองและกำลังสองสามารถลงตัวได้อย่างสมบูรณ์แบบด้วยเพียง 3 จุด ชัดเจนว่าในทุกสถานการณ์มันจะเหมาะสมที่จะบอกว่า 4 คะแนนไม่เพียงพอ อย่างไรก็ตามเช่นเดียวกับกฎส่วนใหญ่ของหัวแม่มือมันไม่ได้ครอบคลุมทุกสถานการณ์ กรณีที่ระยะเสียงในรูปแบบมีความแปรปรวนขนาดใหญ่จะต้องมีตัวอย่างมากกว่ากรณีที่คล้ายกันซึ่งความแปรปรวนข้อผิดพลาดมีขนาดเล็ก

จำนวนจุดตัวอย่างที่ต้องการนั้นขึ้นอยู่กับวัตถุ หากคุณทำการวิเคราะห์เชิงสำรวจเพียงเพื่อดูว่าแบบจำลองหนึ่ง (พูดเป็นเส้นตรงใน covariate) ดูดีกว่าแบบอื่น (พูดว่าฟังก์ชันกำลังสองของ covariate) น้อยกว่า 10 คะแนนอาจเพียงพอ แต่ถ้าคุณต้องการประมาณการที่แม่นยำมากของสัมประสิทธิ์สหสัมพันธ์และการถดถอยสำหรับ covariates คุณอาจต้องการมากกว่า 10 ต่อ covariate ความถูกต้องของเกณฑ์การทำนายอาจต้องการตัวอย่างมากกว่าค่าประมาณพารามิเตอร์ที่แม่นยำ โปรดทราบว่าความแปรปรวนของการประมาณการและการคาดการณ์ทั้งหมดเกี่ยวข้องกับความแปรปรวนของคำผิดพลาดของตัวแบบ


จุดดีไมเคิล; ฉันพยายามทำให้มันง่าย :-) จากหัวข้อเดิมของคำถามฉันจะแปลกใจมากถ้าน้อยกว่า 10 คะแนนนั้นเพียงพอ มาตรการความไม่เท่าเทียมกันในสุขภาพดูเหมือนจะมีข้อผิดพลาดมากมายและความสัมพันธ์กับเวลานั้นไม่น่าจะเป็นเส้นตรงสูง คุณรู้บทความเกี่ยวกับเรื่องนี้หรือไม่? มันเป็นหัวข้อที่น่าสนใจที่เกิดขึ้นมากมาย
Peter Flom - Reinstate Monica

@ PeterFlom ฉันไม่ ฉันจะดูหนังสือ van Belle'a เกี่ยวกับกฎทางสถิติของหัวแม่มือเพื่อดูว่าเขาใช้กฎแบบเดียวกับที่คุณพูดถึงหรือไม่ สิ่งที่ดีเกี่ยวกับหนังสือของเขาคือเขาอธิบายเหตุผลเบื้องหลังทุกกฎ ฉันเห็นด้วยกับคุณว่ากฎที่บอกว่าใช้เวลาอย่างน้อย 10 ต่อ covariate ค่อนข้างดีและการใช้น้อยจะไม่ค่อยปลอดภัยยกเว้นในบางกรณีนักสำรวจ ในวิทยาศาสตร์สุขภาพที่ฉันทำงานระยะเสียงดูเหมือนจะมีขนาดใหญ่เสมอ แต่บางทีการทดลองทางฟิสิกส์หรือวิศวกรรมที่ควบคุมอย่างแน่นหนาอาจมีการวัดที่แม่นยำมาก
Michael R. Chernick

ฉันแค่พยายามชี้ให้เห็นถึงความเป็นไปได้ของเสียงรบกวนขนาดเล็กที่นำไปสู่การต้องการน้อยกว่า 10 คะแนนแม้ว่าความเป็นไปได้นั้นอาจอยู่ห่างไกล
Michael R. Chernick

R2

+1, ข้อมูลที่ดี แต่ก็มีค่าที่ควรกล่าวถึงว่าหากตัวประมาณของคุณไม่เอนเอียงคุณสามารถมีแบบจำลองที่อิ่มตัวและยังมีค่าประมาณของพารามิเตอร์หากนั่นคือทั้งหมดที่คุณต้องการ คุณจะไม่มีค่าประมาณความแปรปรวนหรือสามารถอนุมานได้ อย่างไรก็ตามในบางกรณีที่มีเอฟเฟกต์มากมายในการประมาณค่าและข้อมูลยากพอที่จะรับ ตัวอย่างเช่นในกรณีนี้คุณสามารถประเมินฟังก์ชัน w / จุดกำลังสอง w / 3 ได้ ฉันไม่ได้หมายความว่ามันเป็นสิ่งที่ดี แต่นั่นก็เป็นขอบเขตล่างที่แท้จริงและสาเหตุที่ทำให้
gung - Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.