Goodness-of-fit สำหรับกลุ่มตัวอย่างที่มีขนาดใหญ่มาก


12

ฉันรวบรวมตัวอย่างที่มีขนาดใหญ่มาก (> 1,000,000) ของข้อมูลที่จัดหมวดหมู่ในแต่ละวันและต้องการดูข้อมูลที่ดูแตกต่างกันอย่างมากระหว่างวันเพื่อตรวจหาข้อผิดพลาดในการรวบรวมข้อมูล

ฉันคิดว่าการใช้การทดสอบแบบพอดี (โดยเฉพาะการทดสอบแบบ G) จะเป็นแบบทดสอบที่ดี การกระจายที่คาดหวังจะได้รับจากการกระจายของวันก่อนหน้า

แต่เนื่องจากขนาดตัวอย่างของฉันมีขนาดใหญ่มากการทดสอบจึงมีพลังสูงมากและให้ผลบวกผิด ๆ มากมาย กล่าวคือแม้แต่ความผันผวนรายวันที่น้อยมากก็จะให้ค่า p ใกล้ศูนย์

ฉันสิ้นสุดการคูณสถิติการทดสอบของฉันด้วยค่าคงที่ (0.001) ซึ่งมีการตีความที่ดีของการสุ่มตัวอย่างข้อมูลในอัตรานั้น บทความนี้ดูเหมือนจะเห็นด้วยกับวิธีนี้ พวกเขาพูดว่า:

จัตุรัสจิ่วเป็นที่น่าเชื่อถือที่สุดโดยมีกลุ่มตัวอย่างประมาณ 100 ถึง 2,500 คน

ฉันกำลังมองหาความคิดเห็นที่เชื่อถือได้เพิ่มเติมเกี่ยวกับเรื่องนี้ หรืออาจเป็นทางเลือกในการแก้ปัญหาผลบวกปลอมเมื่อรันการทดสอบทางสถิติกับชุดข้อมูลขนาดใหญ่


3
มันเป็นคำถามที่ดี อย่างไรก็ตามไม่มีพื้นฐานที่สนับสนุนอย่างเป็นกลางสำหรับแนวทางเฉพาะกิจของคุณ ไม่ได้หมายความว่ามันจะทำงานได้ไม่ดี - แต่มันแสดงให้เห็นอย่างชัดเจนว่ามีขั้นตอนที่ดีกว่า ในการค้นหาพวกเขาจะช่วยได้ถ้าคุณสามารถแก้ไขคำถามนี้เพื่ออธิบายว่าข้อผิดพลาดชนิดใดที่คุณพยายามระบุรวมถึงจำนวนของข้อผิดพลาดที่อาจเกิดขึ้นจำนวนของข้อผิดพลาดที่เกิดขึ้นและสิ่งที่เป็นผลของ (a) ระบุข้อผิดพลาดบางอย่างและ (b) ตั้งค่าสถานะข้อมูลที่ถูกต้องว่าเป็นข้อผิดพลาด
whuber

2
จากมุมมองทางคณิตศาสตร์การทดสอบความดีพอดีที่มีขนาดใหญ่มากนั้นดีมาก - เพียงแค่ว่าสมมติฐานว่างที่สอดคล้องกันนั้นไม่น่าสนใจมาก: ทำไมคุณต้องการถามคำถาม "ใช่ / ไม่ใช่" เมื่อคุณสามารถ ได้รับคำตอบ "เท่าไหร่" ในกรณีของคุณในแต่ละวันคุณสามารถประเมินการเปลี่ยนแปลงสัดส่วนสำหรับทุกหมวดหมู่เพิ่มช่วงความมั่นใจแต่ละครั้งและดูว่าพวกเขาไม่ได้เข้าสู่ขอบเขตความอดทนที่กำหนดไว้ล่วงหน้าประมาณ 0n
Michael M

การใช้คำเช่น 'สำคัญ' และ 'บวกเชิงบวก' ดูเหมือนจะขัดแย้งกับความหมายทางสถิติของคำเหล่านั้นโดยเฉพาะอย่างยิ่งหากคุณทำการทดสอบที่ถูกต้อง * ฉันขอแนะนำให้คุณหลีกเลี่ยงข้อกำหนดเหล่านั้นเว้นแต่คุณจะใช้อย่างเคร่งครัดในแง่เทคนิค ปัญหาพื้นฐานของคุณคือการใช้การทดสอบสมมติฐานในสถานการณ์ที่เหมาะสม คำถามทั่วไปที่คุณสนใจจริง ๆ ไม่ใช่เทคนิคไม่ใช่ภาษาอังกฤษ * (โดยเฉพาะการใช้วันก่อนหน้าเนื่องจาก 'ประชากร' ไม่ถูกต้องหากคุณไม่อนุญาตให้มีความแปรปรวน - โดยทั่วไปจะเป็นเพียงตัวแปรเท่าวันนี้)
Glen_b

คำตอบ:


4

การทดสอบกำลังส่งคืนผลลัพธ์ที่ถูกต้อง การแจกแจงไม่เหมือนกันทุกวัน แน่นอนว่าไม่มีประโยชน์กับคุณ ปัญหาที่คุณเผชิญกำลังเป็นที่ทราบกันมานาน ดู: Karl Pearson และ RA Fisher ในการทดสอบสถิติ: การแลกเปลี่ยนในปี 1935 จากธรรมชาติ

แต่คุณสามารถย้อนกลับไปดูข้อมูลก่อนหน้า (ไม่ว่าจะเป็นของคุณหรือจากที่อื่น) และรับการเปลี่ยนแปลงแบบวันต่อวันสำหรับแต่ละหมวดหมู่ จากนั้นคุณตรวจสอบว่าการเปลี่ยนแปลงปัจจุบันมีแนวโน้มที่จะเกิดขึ้นจากการกระจายนั้นหรือไม่ เป็นการยากที่จะตอบเฉพาะเจาะจงมากขึ้นโดยไม่ทราบเกี่ยวกับข้อมูลและประเภทของข้อผิดพลาด แต่วิธีนี้ดูเหมือนจะเหมาะสมกับปัญหาของคุณมากขึ้น


4

ไปข้างหน้าแล้วฆ่าวัวศักดิ์สิทธิ์ 5%

คุณมี (อย่างถูกต้อง) ชี้ให้เห็นว่าปัญหาคือพลังการทดสอบที่มากเกินไป คุณอาจต้องการปรับเทียบใหม่เพื่อให้ได้พลังงานที่มีความเกี่ยวข้องมากกว่าเช่นพูดถึงค่าดั้งเดิมที่ 80%:

  1. เลือกขนาดของเอฟเฟกต์ที่คุณต้องการตรวจจับ (เช่นการเปลี่ยนแปลง 0.2%)
  2. ตัดสินใจเกี่ยวกับพลังที่ดีพอสำหรับคุณเพื่อที่จะไม่เอาชนะ (เช่น1β=80%)
  3. กลับมาทำงานจากทฤษฎีการทดสอบของเพียร์สันเพื่อกำหนดระดับซึ่งจะทำให้การทดสอบของคุณเป็นจริง

สมมติว่าคุณมี 5 ประเภทที่มีความน่าจะเป็นเท่ากันและทางเลือกของคุณ(0.198,0.202,0.2,0.2,0.2) ดังนั้นสำหรับ ,+) การกระจายเชิงเส้นกำกับไม่ใช่ไคสแควร์ที่ไม่ใช่ศูนย์กลางโดยมี (# categories-1) = 4 df และพารามิเตอร์ที่ไม่ใช่ศูนย์กลาง ด้วยสิ่งนี้ คุ้มค่ามากนี้เป็นพอใกล้กับ168) 80% -tile คือp1=p2=p3=p4=p5=0.2p+δ/n=(0.198,0.202,0.2,0.2,0.2)n=106δ=(2,+2,0,0,0)k=

λ=jδj2/pj=4/0.2+4/0.2=40
λ44 + 13 ไว- 1 ( 0.8 ) = 44 + 13 0.84 = 54.91 χ 2 4N(μ=λ+k=44,σ2=2(k+2λ)=168)44+13Φ1(0.8)=44+130.84=54.91χ42
Prob[χ42>54.91]=3.31011

χ2

โปรดทราบว่าการประมาณทั้งค่าว่างและทางเลือกอาจทำงานได้ไม่ดีในก้อยดูการสนทนานี้


2

ในกรณีเหล่านี้อาจารย์ของฉันแนะนำให้คำนวณCramér's V ซึ่งเป็นตัวชี้วัดของการเชื่อมโยงตามสถิติไคสแควร์ สิ่งนี้จะช่วยให้คุณมีความแข็งแกร่งและช่วยคุณตัดสินใจว่าการทดสอบนั้นแพ้ง่ายหรือไม่ แต่ฉันไม่แน่ใจว่าคุณสามารถใช้ V กับสถิติที่การทดสอบ G2 กลับมาได้หรือไม่

นี่ควรเป็นสูตรสำหรับ V:

ϕc=χ2n(k1)

nkk


0

วิธีการหนึ่งที่จะทำให้การทดสอบแบบพอดีมีความหมายมีความหมายมากขึ้นโดยการใช้วิธีการเหล่านั้นกับบล็อกข้อมูลขนาดเล็ก

α=0.05α

α


คุณช่วยอธิบายรายละเอียดเกี่ยวกับวิธีการที่จะ "มีความหมายมากกว่านี้ได้ไหม"
whuber

มันมีนัยสำคัญทางสถิติเทียบกับนัยสำคัญในโลกแห่งความจริง ด้วยการใช้ 10 ^ 3 แทนที่จะเป็น 10 ^ 6 ตัวอย่างพลังของการทดสอบเดี่ยวจะลดลงอย่างจงใจดังนั้นการปฏิเสธสมมติฐานว่างจะมีแนวโน้มที่จะสอดคล้องกับการขาดขนาดใหญ่ สิ่งนี้ทำให้ผลลัพธ์ของการทดสอบเดี่ยวมีความหมายมากขึ้นเนื่องจาก OP ไม่สนใจเกี่ยวกับ "ความผันผวนรายวันเล็กน้อย" สำหรับตัวอย่าง 10 ^ 6 การทดสอบอาจปฏิเสธ H0 เสมอเนื่องจากความแตกต่างเล็กน้อยดังนั้นจึงไม่ชัดเจนว่าผลการทดสอบแสดงข้อมูลที่มีความหมายหรือไม่
CJ Stoneking

1
ขอบคุณ: ความคิดเห็นของคุณก่อให้เกิดปัญหาที่น่าสนใจและสำคัญซึ่งเริ่มที่จะเข้าใจในสิ่งที่ฉันคิดว่าเป็นคำถามพื้นฐานที่แท้จริง กล่าวคือควรวัดความแตกต่างระหว่างข้อมูลเพื่อตรวจสอบข้อผิดพลาดและความแตกต่างที่น่าเป็นห่วงได้อย่างไร แม้ว่าคำตอบของคุณอาจเหมาะสมในบางสถานการณ์ แต่ดูเหมือนว่าไม่น่าเป็นไปได้ที่จะตรวจสอบข้อผิดพลาดหลายประเภทที่อาจเกิดขึ้นกับข้อมูลได้อย่างมีประสิทธิภาพและยังเปิดคำถามแบบธรรมดา
whuber

@whuber ปัญหาสามารถนิยามใหม่ได้ในลักษณะที่เป็นโมฆะและส่วนเบี่ยงเบนของมันคือขนาดของข้อมูลคงที่ แต่หาตัวแทนเชิงคุณภาพบางส่วน?
Vass
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.