เกิดอะไรขึ้นกับนัยสำคัญทางสถิติในการถดถอยเมื่อขนาดข้อมูลใหญ่โต


13

ฉันกำลังอ่านคำถามนี้เกี่ยวกับการถดถอยขนาดใหญ่ ( ลิงค์ ) ที่whuberชี้ให้เห็นจุดที่น่าสนใจดังนี้

"เกือบทุกการทดสอบทางสถิติที่คุณรันจะมีประสิทธิภาพมากจนมั่นใจว่าจะระบุถึงผลกระทบ" ที่สำคัญ "คุณต้องให้ความสำคัญกับความสำคัญทางสถิติเช่นขนาดของเอฟเฟกต์แทนที่จะเป็นนัยสำคัญ"

--- เสียงหวือ

ฉันสงสัยว่านี่เป็นสิ่งที่สามารถพิสูจน์ได้หรือเพียงแค่ปรากฏการณ์ทั่วไปในทางปฏิบัติ

ตัวชี้ใด ๆ เพื่อพิสูจน์ / สนทนา / จำลองจะเป็นประโยชน์จริงๆ


1
เรื่องขนาดผลกระทบ (+1 ถึงคำตอบของ Glen_b) เพื่อให้เป็นตัวอย่างอย่างรวดเร็ว: ถ้าเราเป็นโรคอ้วนเราจะไม่เปลี่ยนอาหารที่มีอยู่ของเราที่จะเป็นอาหารที่มีราคาแพงกว่าใหม่ถ้ามันมีผลในการลดน้ำหนัก 0.05 กก. หลังจากเดือนแม้ว่าจะมี -value 0.0000000001 เราจะยังคงเป็นโรคอ้วนคนจน สำหรับทุกคนที่เรารู้ว่าการลดน้ำหนักเพียงเล็กน้อยอาจเป็นเพราะคลินิกสุขภาพที่บันทึกที่ย้ายจากพื้นของอาคารที่ไม่มีลิฟต์ไปยังชั้นสี่ของอาคารเดียวกัน (เป็นคำถามที่ดี + 1)p0.0000000001
usεr11852

คำตอบ:


10

มันค่อนข้างทั่วไป

ลองนึกภาพว่ามันมีเอฟเฟกต์เล็ก ๆ แต่ไม่เป็นศูนย์ (นั่นคือการเบี่ยงเบนจากโมฆะที่การทดสอบสามารถหยิบขึ้นมาได้)

ที่ขนาดตัวอย่างขนาดเล็กโอกาสในการปฏิเสธจะใกล้เคียงกับอัตราความผิดพลาดประเภทที่ 1 มาก

เมื่อขนาดของตัวอย่างเพิ่มขึ้นผลที่คาดการณ์ควรรวมเข้ากับผลกระทบของประชากรนั้นในขณะเดียวกันความไม่แน่นอนของผลกระทบโดยประมาณจะลดลง (ตามปกติ ) จนกว่าโอกาสที่สถานการณ์โมฆะจะใกล้เคียงเพียงพอกับผลกระทบโดยประมาณที่ยังคงมีความเป็นไปได้ในกลุ่มตัวอย่างที่เลือกแบบสุ่มจากประชากรจะลดลงเป็นศูนย์ได้อย่างมีประสิทธิภาพn

ซึ่งก็คือการพูดกับ nulls จุดในที่สุดก็จะกลายเป็นบางปฏิเสธเพราะในเกือบทุกสถานการณ์จริงมีหลักเสมอไปเป็นบางส่วนจำนวนเงินของการเบี่ยงเบนจากโมฆะ


"... เพราะในเกือบทุกสถานการณ์จริงมักจะมีค่าเบี่ยงเบนจากโมฆะ" ดังนั้นจึงมีและหนึ่งสามารถเห็นได้ นั่นจะเป็นคุณสมบัติที่ดีหรือไม่?
Trilarion

"Null" ที่นี่หมายถึงสมมติฐานว่างว่าสัมประสิทธิ์เท่ากับศูนย์หรือไม่
Arash Howaida

ฉันคิดว่าคำตอบของ Glen_b นั้นเป็นเรื่องทั่วไปและสามารถนำไปใช้กับการทดสอบสมมติฐานใด ๆ ที่มีจุดว่าง ในบริบทของการถดถอยใช่ค่าศูนย์คือสัมประสิทธิ์เท่ากับศูนย์ ความเข้าใจของฉันเอง ...
Bayesric

4

นี่ไม่ใช่ข้อพิสูจน์ แต่ไม่ยากที่จะแสดงอิทธิพลของขนาดตัวอย่างในทางปฏิบัติ ฉันต้องการใช้ตัวอย่างง่ายๆจาก Wilcox (2009) ที่มีการเปลี่ยนแปลงเล็กน้อย:

H0:μ50α=.05

เราสามารถใช้ t-test สำหรับการวิเคราะห์นี้:

T=X¯μos/n

X¯s

T=455011/10=1.44.

tνP(T-1.83)=.05T=-1.44v=101P(T1.83)=.05T=1.44

T=455011/100=4.55

สำหรับ ,เราสามารถปฏิเสธสมมติฐานว่างได้ การรักษาทุกอย่างให้คงที่การเพิ่มขนาดตัวอย่างจะลดตัวส่วนและคุณมีแนวโน้มที่จะมีค่าในภูมิภาคที่สำคัญ (ปฏิเสธ) ของการกระจายตัวตัวอย่าง โปรดทราบว่าเป็นค่าประมาณข้อผิดพลาดมาตรฐานของค่าเฉลี่ย ดังนั้นคุณสามารถดูว่าการตีความที่คล้ายกันนำไปใช้กับตัวอย่างเช่นการทดสอบสมมติฐานเกี่ยวกับสัมประสิทธิ์การถดถอยที่ได้รับในการถดถอยเชิงเส้นที่beta_j)}P ( T - 1.66 ) = .05 s / v=1001P(T1.66)=.05 T= βเจ - β ( 0 ) Js/nT=β^jβj(0)se(β^j)


วิลคอกซ์ RR 2009 สถิติพื้นฐาน: การทำความเข้าใจวิธีการเดิมและโมเดิร์นข้อมูลเชิงลึก สำนักพิมพ์มหาวิทยาลัยออกซ์ฟอร์ด


1
ขอบคุณสำหรับคำตอบ. คำตอบของคุณให้ตัวอย่างที่เป็นรูปธรรมของคำตอบของ Glen_b: เมื่อขนาดตัวอย่างใหญ่มากส่วนเบี่ยงเบนเล็ก ๆ น้อย ๆ จากค่าว่าง
Bayesric

2

ในการถดถอยสำหรับโมเดลโดยรวมการทดสอบจะอยู่ที่ F ที่นี่

RSS1RSS2

F=RSS1RSS2p2p1RSS2np2
โดยที่ RSS เป็นผลรวมที่เหลือของสแควร์สและ p คือจำนวนพารามิเตอร์ แต่สำหรับคำถามนี้ที่สำคัญคือ N ในตัวส่วนล่าง ไม่ว่าจะใกล้เคียงกับเพียงใดเมื่อ N ยิ่งใหญ่ขึ้น F ก็ยิ่งใหญ่ขึ้น ดังนั้นเพียงแค่เพิ่ม N จนกระทั่ง F สำคัญRSS1RSS2

1
ขอบคุณสำหรับคำตอบ. อย่างไรก็ตามฉันสงสัยเกี่ยวกับ "เมื่อ N เพิ่มขึ้น, F ใหญ่ขึ้น"; เมื่อ N เพิ่มขึ้น RSS2 ก็เพิ่มขึ้นเช่นกันมันไม่ชัดเจนสำหรับฉันว่าทำไม F ถึงใหญ่ขึ้น
Bayesric

@Peter Flom สิ่งนี้ยังไม่เกิดขึ้นจริง แต่คุณสามารถดูได้ที่นี่stats.stackexchange.com/questions/343518//
3022875
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.