จะเลือกระดับนัยสำคัญสำหรับชุดข้อมูลขนาดใหญ่ได้อย่างไร


15

ฉันทำงานกับชุดข้อมูลโดยมี N ประมาณ 200,000 ในการถดถอยฉันเห็นค่านัยสำคัญน้อยมาก << 0.001 ที่เกี่ยวข้องกับขนาดเอฟเฟกต์ที่เล็กมากเช่น r = 0.028 สิ่งที่ฉันอยากรู้คือมีวิธีหลักการในการตัดสินใจเลือกขีด จำกัด นัยสำคัญที่เหมาะสมเมื่อเทียบกับขนาดตัวอย่างหรือไม่ มีข้อควรพิจารณาอื่น ๆ ที่สำคัญเกี่ยวกับการตีความขนาดของเอฟเฟกต์กับตัวอย่างขนาดใหญ่เช่นนี้หรือไม่?


10
นี่เป็นปัญหาของการปฏิบัติกับนัยสำคัญทางสถิติ หากความชันแตกต่างจาก 0 อย่างแท้จริงแม้เป็นจำนวน miniscule เช่น .00000000000001) ตัวอย่างที่มีขนาดใหญ่พอจะให้ค่าน้อยมากpแม้ว่าผลลัพธ์จะไม่มีนัยสำคัญในทางปฏิบัติ คุณควรตีความการประมาณค่าจุดแทนที่จะดีกว่าค่าpเมื่อคุณมีกลุ่มตัวอย่างขนาดใหญ่
มาโคร

@Macro ขออภัยคุณสามารถอธิบายสิ่งที่คุณหมายถึงโดยประมาณการจุดที่นี่
ted.strauss

3
การเพิ่มความคิดเห็นของมาโครด้านบนในสถานการณ์นี้ฉันมองหานัยสำคัญ "ภาคปฏิบัติ" หรือ "คลินิก" ในการค้นพบ สำหรับสิ่งที่คุณทำมีผลมากพอสำหรับคุณหรือไม่
มิเชลล์

1
การประมาณจุดคือการประมาณความชันของการถดถอยที่สังเกตได้
มาโคร

2
สิ่งที่ @ มาโครและฉันกำลังพูดคือคุณจำเป็นต้องตัดสินใจว่าผลทางคลินิก (การประเมินแบบจุด, ความลาดชัน) มีความสำคัญหรือไม่ เกณฑ์ของคุณอยู่บนพื้นฐานของการตัดสินใจว่า "ใช่นี่เป็นผลทางคลินิกที่สำคัญ" มากกว่า "ค่า p ที่สำคัญ" เพราะส่วนใหญ่ (ทั้งหมด?) ของค่า p ของคุณมีความสำคัญ
มิเชลล์

คำตอบ:


20

ในความสำคัญของการทดสอบอย่างมีนัยสำคัญจอห์นสัน (1999) ตั้งข้อสังเกตว่าค่า p มีค่าโดยพลการซึ่งคุณสามารถทำให้พวกเขามีขนาดเล็กเท่าที่คุณต้องการโดยการรวบรวมข้อมูลเพียงพอโดยสมมติว่าสมมติฐานว่างเป็นเท็จซึ่งเกือบทุกครั้ง ในโลกแห่งความเป็นจริงไม่น่าจะมีความสัมพันธ์กึ่ง - กึ่งบางส่วนที่เป็นศูนย์ซึ่งเป็นสมมติฐานว่างในการทดสอบความสำคัญของสัมประสิทธิ์การถดถอย การตัดทอนนัยสำคัญ P-value ยิ่งมีความเจาะจงมากขึ้น ค่าของ. 05 เป็นทางลัดระหว่างความสำคัญและความไร้สาระถูกใช้โดยการประชุมไม่ใช่หลักการ ดังนั้นคำตอบสำหรับคำถามแรกของคุณคือไม่มีจึงไม่มีวิธีที่จะตัดสินใจเกณฑ์ที่มีนัยสำคัญที่เหมาะสม

แล้วคุณจะทำอย่างไรให้ชุดข้อมูลขนาดใหญ่ ขึ้นอยู่กับเหตุผลของคุณสำหรับการสำรวจนัยสำคัญทางสถิติของสัมประสิทธิ์การถดถอยของคุณ คุณกำลังพยายามที่จะสร้างแบบจำลองระบบหลายปัจจัยที่ซับซ้อนและพัฒนาทฤษฎีที่มีประโยชน์ที่เหมาะสมหรือคาดการณ์ความเป็นจริง? แล้วบางทีคุณอาจจะคิดเกี่ยวกับการพัฒนารูปแบบซับซ้อนมากขึ้นและการใช้มุมมองการสร้างแบบจำลองในนั้นที่อธิบายไว้ในร็อดเจอร์ส (2010), The ญาณวิทยาของคณิตศาสตร์และสถิติการสร้างแบบจำลอง ข้อดีอย่างหนึ่งของการมีข้อมูลจำนวนมากคือการสำรวจแบบจำลองที่มีความสมบูรณ์สูงซึ่งมีหลายระดับและการโต้ตอบที่น่าสนใจ (สมมติว่าคุณมีตัวแปรที่จะทำเช่นนั้น)

หากคุณต้องการตัดสินว่าจะปฏิบัติกับสัมประสิทธิ์ที่มีนัยสำคัญทางสถิติหรือไม่คุณอาจต้องการใช้คำแนะนำของ Good (1982) ดังสรุปในWoolley (2003) : คำนวณค่าqเป็นซึ่งกำหนดค่า p-standard ให้เป็นขนาดตัวอย่างที่ 100 ค่า p-.001 ที่แน่นอนจะแปลงเป็นค่า p -045 - มีนัยสำคัญทางสถิติp(n/100)

ดังนั้นถ้ามันมีความสำคัญในการใช้ขีด จำกัด ตามอำเภอใจหรืออย่างอื่นมันคืออะไร? หากนี่เป็นการศึกษาเชิงสังเกตการณ์คุณมีงานอีกมากที่จะพิสูจน์ว่าจริง ๆ แล้วมันมีความหมายในแบบที่คุณคิดและไม่ใช่แค่ความสัมพันธ์ที่น่าเกรงขามที่ปรากฏขึ้นเพราะคุณพลาดโมเดลของคุณ โปรดทราบว่าเอฟเฟกต์เล็ก ๆ น้อย ๆ นั้นไม่น่าสนใจทางคลินิกถ้ามันแสดงถึงความแตกต่างที่มีอยู่ก่อนในคนที่เลือกการรักษาในระดับที่แตกต่างกันมากกว่าผลการรักษา

คุณต้องพิจารณาว่าความสัมพันธ์ที่คุณเห็นนั้นมีความสำคัญจริง ๆ หรือไม่ การแปลงตัวเลขที่คุณอ้างอิงจากถึงr 2เพื่ออธิบายความแปรปรวน ( rคือสหสัมพันธ์, สแควร์เพื่อรับความแปรปรวนอธิบาย) ให้ความแปรปรวนเพียง 3 และ 6% ตามลำดับซึ่งดูเหมือนจะไม่มากนักrr2r


@ rolando2 ขอบคุณสำหรับการแก้ไขสับสนอยู่เสมอระหว่างค่า p ใหญ่ / เล็ก! ฉันคิดว่าถ้ามันกระจายไปทางขวามันใหญ่ แต่ p-value นั้นเล็ก
Anne Z.

2
(+1) นี่คือความจริงที่สำคัญที่ผู้ปฏิบัติงานหลายคนไม่ได้คิดอย่างรอบคอบเกี่ยวกับ: "ค่า p มีค่าโดยพลการซึ่งคุณสามารถทำให้มันเล็กตามที่คุณต้องการโดยรวบรวมข้อมูลให้มากพอโดยสมมติว่าสมมติฐานว่างเป็นเท็จซึ่งมัน เกือบตลอดเวลา "
มาโคร

ขอขอบคุณ! คะแนนในย่อหน้าถัดไปของคุณนั้นถ่ายได้ดี ฉันกำลังอ่านบทความ Woolley และสังเกตว่าสูตรค่าคิวของคุณปิดอยู่ ควรเป็น p * ไม่ใช่ p / - ฉันพยายามเปลี่ยนที่นี่ แต่การแก้ไขจะต้องมี> 6 ตัวอักษร
ted.strauss

@ ted.strauss ฉันดีใจที่มีประโยชน์ บางครั้งฉันรู้สึกท้อแท้จากข้อ จำกัด ของเครื่องมือเช่นค่า p ที่เราต้องทำงานด้วย ขอบคุณที่สังเกตความผิดพลาดในสูตรฉันได้แก้ไขแล้ว
Anne Z.

ขอบคุณสำหรับคำตอบที่ยอดเยี่ยม แต่ฉันไม่สามารถเข้าถึงกระดาษ Woolley 2003 โดยใช้ลิงก์ที่ให้ไว้ข้างต้น
KarthikS

-3

ฉันเดาว่าวิธีง่าย ๆ ในการตรวจสอบคือสุ่มตัวอย่างจำนวนมากที่คล้ายกันจากสิ่งที่คุณรู้คือการแจกแจงครั้งเดียวสองครั้งและเปรียบเทียบผลลัพธ์ทั้งสอง หากคุณทำอย่างนั้นหลายครั้งและสังเกตค่า p ที่คล้ายกันก็จะแนะนำว่าไม่มีผลกระทบจริง หากคุณไม่ทำเช่นนั้นก็คงเป็นเช่นนั้น


7
ฉันคิดว่าคุณกำลังแนะนำให้ทำแบบจำลองภายใต้สมมติฐานว่างเปล่าซึ่งไม่มีความแตกต่างที่แท้จริงกับขนาดตัวอย่างขนาดใหญ่และดูค่าฉันสามารถบอกคุณได้โดยไม่ต้องจำลองสถานการณ์ว่า< .001สัดส่วนของค่าp ที่ได้จะมีขนาดเล็กเท่ากับโปสเตอร์ต้นฉบับที่สังเกต สิ่งนี้เป็นจริงสำหรับทุกขนาดตัวอย่าง นี่คือความหมายของการเป็นพี -value p<.001pp
มาโคร

1
ในความเป็นจริง -values ที่จะออกมาจากกระบวนการที่คุณอธิบายจะมีU n ฉันo R เมตร ( 0 , 1 )การกระจาย pUniform(0,1)
มาโคร

1
ในความสัมพันธ์กับความคิดเห็นล่าสุดโดย @Macro นี่คือภาพร่างของการพิสูจน์ว่าภายใต้สมมติฐานว่าง , p-valueมีการกระจายU [ 0 , 1 ] ได้รับการทดสอบทางสถิติT = T ( X )ถ้าเราสังเกตT = T ( x )ที่พี -value ถูกกำหนดให้เป็นP ( T ) = P ( T เสื้อ| H 0 ) สมมติว่าภายใต้H 0H0pU[0,1]T=T(X)t=t(x)pp(t)=P(TtH0)H0ฟังก์ชั่นการกระจายของคือG 0กับG 0อย่างต่อเนื่องและ nondecreasing เพื่อที่จะมีความผกผันG - 1 0 จากนั้นเรามีp ( t ) = 1 - G 0 ( t )และสำหรับคุณ[ 0 , 1 ]TG0G0G01p(t)=1G0(t)u[0,1]
Zen

1
(ความคิดเห็นที่ต่อเนื่องของ Zen): ดังนั้นเราจึงสรุปได้ว่า P ( T ) | H 0 ~ U [ 0 , 1 ]
P(p(T)u)=P(1G0(T)u)=P(G0(T)1u)=P(TG01(1u))=1G0(G01(1u))=u.
p(T)H0U[0,1]
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.