กฎของหัวแม่มือสำหรับขนาดตัวอย่างขั้นต่ำสำหรับการถดถอยหลายครั้ง


72

ภายในบริบทของข้อเสนอการวิจัยในสังคมศาสตร์ฉันถูกถามคำถามต่อไปนี้:

ฉันได้ไปตลอด 100 + m (โดย m คือจำนวนผู้ทำนาย) เมื่อพิจารณาขนาดตัวอย่างขั้นต่ำสำหรับการถดถอยหลายครั้ง สิ่งนี้เหมาะสมหรือไม่

ฉันได้รับคำถามที่คล้ายกันบ่อยครั้งด้วยกฎง่ายๆ ฉันยังอ่านกฎของหัวแม่มืออย่างมากในตำราต่าง ๆ บางครั้งฉันสงสัยว่าความนิยมของกฎในแง่ของการอ้างอิงนั้นขึ้นอยู่กับมาตรฐานที่ตั้งไว้ต่ำเพียงใด อย่างไรก็ตามฉันยังตระหนักถึงคุณค่าของฮิวริสติกที่ดีในการทำให้การตัดสินใจง่ายขึ้น

คำถาม:

  • อะไรคือประโยชน์ของกฎง่ายๆสำหรับขนาดตัวอย่างที่เล็กที่สุดในบริบทของนักวิจัยประยุกต์ที่ออกแบบการศึกษาวิจัย?
  • คุณจะแนะนำกฎทางเลือกแบบง่ายๆสำหรับขนาดตัวอย่างขั้นต่ำสำหรับการถดถอยหลายครั้งหรือไม่
  • อีกทางหนึ่งกลยุทธ์ทางเลือกใดที่คุณจะแนะนำสำหรับการกำหนดขนาดตัวอย่างขั้นต่ำสำหรับการถดถอยหลายครั้ง โดยเฉพาะอย่างยิ่งมันจะดีถ้ามีการกำหนดมูลค่าให้กับระดับที่กลยุทธ์ใด ๆ สามารถนำไปใช้ได้โดยผู้ที่ไม่ใช่นักสถิติ

คำตอบ:


36

ฉันไม่ใช่แฟนของสูตรง่าย ๆ สำหรับการสร้างขนาดตัวอย่างขั้นต่ำ อย่างน้อยที่สุดสูตรใด ๆ ควรพิจารณาขนาดของผลกระทบและคำถามที่น่าสนใจ และความแตกต่างระหว่างทั้งสองด้านของการตัดออกน้อยที่สุด

ขนาดตัวอย่างเป็นปัญหาการเพิ่มประสิทธิภาพ

  • ตัวอย่างที่ใหญ่กว่าดีกว่า
  • ขนาดตัวอย่างมักถูกกำหนดโดยการพิจารณาอย่างจริงจัง
  • ขนาดตัวอย่างควรถูกมองว่าเป็นหนึ่งในการพิจารณาถึงปัญหาการปรับให้เหมาะสมซึ่งต้นทุนในเวลาเงินความพยายามและอื่น ๆ ในการได้รับผู้เข้าร่วมเพิ่มเติมจะถูกชั่งน้ำหนักเทียบกับประโยชน์ของการมีผู้เข้าร่วมเพิ่มเติม

กฎข้อที่หยาบของนิ้วหัวแม่มือ

ในแง่ของกฎง่ายๆในบริบททั่วไปของการศึกษาทางจิตวิทยาเชิงสังเกตการณ์ที่เกี่ยวข้องกับสิ่งต่าง ๆ เช่นการทดสอบความสามารถมาตราส่วนทัศนคติมาตรการบุคลิกภาพและอื่น ๆ บางครั้งฉันคิดว่า:

  • n = 100 เพียงพอ
  • n = 200 ดี
  • n = 400 + ยอดเยี่ยม

กฎง่ายๆเหล่านี้มีพื้นฐานในช่วงความเชื่อมั่น 95% ที่เกี่ยวข้องกับความสัมพันธ์ในแต่ละระดับและระดับของความแม่นยำที่ฉันต้องการเข้าใจความสัมพันธ์ของผลประโยชน์ทางทฤษฎี อย่างไรก็ตามมันเป็นเพียงการเรียนรู้แบบฮิวริสติก

จีเพาเวอร์ 3

การทดสอบการถดถอยพหุคูณ

  • คำถามการวิเคราะห์พลังงานใด ๆ จำเป็นต้องคำนึงถึงขนาดผลกระทบ
  • การวิเคราะห์กำลังไฟฟ้าสำหรับการถดถอยหลายครั้งทำให้เกิดความซับซ้อนมากขึ้นเนื่องจากความจริงที่ว่ามีผลกระทบหลายอย่างรวมถึง r-squared โดยรวมและอีกหนึ่งค่าสำหรับสัมประสิทธิ์ของแต่ละบุคคล นอกจากนี้การศึกษาส่วนใหญ่ยังมีการถดถอยพหุคูณมากกว่าหนึ่งครั้ง สำหรับฉันนี่เป็นเหตุผลเพิ่มเติมที่ต้องพึ่งพาการวิเคราะห์พฤติกรรมทั่วไปและคิดถึงขนาดเอฟเฟกต์ขนาดเล็กที่สุดที่คุณต้องการตรวจจับ

  • ในความสัมพันธ์กับการถดถอยหลายครั้งฉันมักจะคิดในแง่ของระดับความแม่นยำในการประมาณเมทริกซ์สหสัมพันธ์

ความแม่นยำในการประมาณค่าพารามิเตอร์

ฉันยังชอบ Ken Kelley และการอภิปรายของเพื่อนร่วมงานเรื่องความแม่นยำในการประมาณค่าพารามิเตอร์

  • ดูเว็บไซต์ของ Ken Kelleyสำหรับสื่อสิ่งพิมพ์
  • ดังที่ @Dmitrij, Kelley และ Maxwell (2003) PDF ฟรีมีบทความที่มีประโยชน์
  • Ken Kelley พัฒนาMBESSแพ็คเกจใน R เพื่อทำการวิเคราะห์ขนาดตัวอย่างเพื่อความแม่นยำในการประมาณค่าพารามิเตอร์

17

nR2R2Radj2R21(1R2)n1np1R2

pn1Radj2kR2k

require(Hmisc)
dop <- function(k, type) {
  z <- list()
  R2 <- seq(.01, .99, by=.01)
  for(a in k) z[[as.character(a)]] <-
    list(R2=R2, pfact=if(type=='relative') ((1/R2) - a) / (1 - a) else
         (1 - R2 + a) /  a)
  labcurve(z, pl=TRUE, ylim=c(0,100), adj=0, offset=3,
           xlab=expression(R^2), ylab=expression(paste('Multiple of ',p)))
}
par(mfrow=c(1,2))
dop(c(.9, .95, .975), 'relative')
dop(c(.075, .05, .04, .025, .02, .01), 'absolute')

ป้อนคำอธิบายรูปภาพที่นี่R2R2Radj2

หากใครเห็นสิ่งนี้พิมพ์แล้วโปรดแจ้งให้เราทราบ


1
R^2R2Radj2NNR^2R2

@ FrankHarrell: ดูที่นี่ผู้เขียนดูเหมือนจะใช้พล็อต 260-263 ในแบบเดียวกับที่โพสต์ของคุณด้านบน
user603

5
Radj2R2

12

(+1) สำหรับคำถามที่สำคัญในความคิดของฉัน

4m4

ขนาดตัวอย่างส่วนใหญ่เชื่อมโยงกับพลังของการทดสอบสำหรับสมมติฐานที่คุณจะทดสอบหลังจากที่คุณพอดีกับแบบจำลองการถดถอยหลายแบบ

มีเครื่องคิดเลขที่ดีที่อาจเป็นประโยชน์สำหรับหลาย ๆ โมเดลการถดถอยและสูตรบางอย่างที่อยู่เบื้องหลัง ฉันคิดว่าเครื่องคิดเลขแบบไพรเออรี่นั้นสามารถใช้งานได้ง่ายโดยผู้ที่ไม่ใช่นักสถิติ

อาจเป็นบทความ K.Kelley และ SEMaxwell อาจเป็นประโยชน์ในการตอบคำถามอื่น ๆ แต่ฉันต้องการเวลามากขึ้นก่อนที่จะศึกษาปัญหา


11

mm=500500600

mm+1nm1m+1nO(m+1n)n=k(m+1)kO(1k)kk1020301,2,,26,27,28,29,


คุณบอกว่า 10 ถึง 20 เป็นสิ่งที่ดี แต่สิ่งนี้จะขึ้นอยู่กับขนาดของความแปรปรวนของข้อผิดพลาดด้วย (อาจสัมพันธ์กับสิ่งอื่น) ตัวอย่างเช่นสมมติว่ามีตัวแปรตัวทำนายเพียงตัวเดียว หากทราบว่าความแปรปรวนของข้อผิดพลาดนั้นเล็กมากจริง ๆ แล้วดูเหมือนว่าจุดข้อมูล 3 หรือ 4 อาจเพียงพอที่จะประเมินความชันและจุดตัดได้อย่างน่าเชื่อถือ ในทางกลับกันหากเป็นที่ทราบกันดีว่าความแปรปรวนของข้อผิดพลาดนั้นมีขนาดใหญ่แล้วจุดข้อมูลแม้แต่ 50 จุดก็อาจไม่เพียงพอ ฉันเข้าใจอะไรผิดไปหรือเปล่า?
mark999

คุณกรุณาให้ข้อมูลอ้างอิงสำหรับสมการที่คุณแนะนำได้n=k(m+1)ไหม
Sosi

6

ในด้านจิตวิทยา:

N>50+8mN>104+m

กฎอื่น ๆ ที่สามารถใช้ได้คือ ...

50

1030


1
'กฎ' ข้อแรกของคุณไม่มีในนั้น
Dason

กฎข้อแรกของเขาเขียนเมื่อN = 50 + 8 mถึงแม้ว่ามันจะถูกถามว่าจำเป็นต้องใช้คำว่า 50 หรือไม่
Sosi

ฉันได้เพิ่มกฎง่ายๆที่ใหม่และซับซ้อนกว่าซึ่งคำนึงถึงขนาดเอฟเฟกต์ของตัวอย่าง เรื่องนี้นำเสนอโดยกรีน (1991)
Sosi

2
การอ้างอิงแบบเต็มสำหรับการอ้างอิง Green (1991) และ Harris (1985) คืออะไร
Hatshepsut

2

ฉันยอมรับว่าเครื่องคิดเลขพลังงานมีประโยชน์โดยเฉพาะอย่างยิ่งเพื่อดูผลกระทบของปัจจัยต่าง ๆ ที่มีต่อพลังงาน ในแง่นั้นเครื่องคิดเลขที่รวมข้อมูลที่ป้อนเข้ามากขึ้นจะดีกว่ามาก สำหรับการถดถอยเชิงเส้นฉันชอบเครื่องคำนวณการถดถอยที่นี่ซึ่งรวมถึงปัจจัยต่าง ๆ เช่นข้อผิดพลาดใน Xs ความสัมพันธ์ระหว่าง Xs และอื่น ๆ


0

R2

( pdf )

แน่นอนตามที่ได้รับการยอมรับจากกระดาษความไม่เสมอภาค (ญาติ) ไม่ได้แปลว่ามีพลังทางสถิติเพียงพอ อย่างไรก็ตามการคำนวณพลังงานและขนาดตัวอย่างมักจะทำโดยการระบุผลที่คาดหวัง; ในกรณีของการถดถอยหลายครั้งนี่หมายถึงสมมติฐานเกี่ยวกับคุณค่าของสัมประสิทธิ์การถดถอยหรือเมทริกซ์สหสัมพันธ์ระหว่างผู้ถดถอยและผลลัพธ์จะต้องทำ ในทางปฏิบัติมันขึ้นอยู่กับความแข็งแกร่งของสหสัมพันธ์ของ regressors กับผลลัพธ์และระหว่างตัวเอง (ชัดเจนยิ่งแข็งแกร่งยิ่งดีสำหรับความสัมพันธ์กับผลลัพธ์ในขณะที่สิ่งต่าง ๆ แย่ลงด้วย multicollinearity) ตัวอย่างเช่นในกรณีสุดขีดของตัวแปร collinear สองตัวที่สมบูรณ์แบบคุณไม่สามารถทำการถดถอยได้ไม่ว่าจะมีการสังเกตกี่ครั้งก็ตามและถึงแม้จะมี covariates เพียง 2 ตัวเท่านั้น

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.