การทดสอบไคสแควร์เพื่อความเท่าเทียมกันของการแจกแจง: มีศูนย์กี่ตัวที่ทนได้?


10

ฉันกำลังเปรียบเทียบการกลายพันธุ์สองกลุ่มแต่ละกลุ่มสามารถมีฟีโนไทป์ที่แตกต่างกันเพียงหนึ่งใน 21 ชนิด ฉันต้องการดูว่าการกระจายตัวของผลลัพธ์เหล่านี้คล้ายกันระหว่างสองกลุ่มหรือไม่ ฉันพบการทดสอบออนไลน์ ที่คำนวณ "การทดสอบไคสแควร์เพื่อความเท่าเทียมของการแจกแจง" และให้ผลลัพธ์ที่น่าเชื่อถือแก่ฉัน อย่างไรก็ตามฉันมีเลขศูนย์สองสามตัวในตารางนี้ฉันสามารถใช้ไคสแควร์ในกรณีนี้ได้หรือไม่?

นี่คือตารางที่มีสองกลุ่มและจำนวนฟีโนไทป์โดยเฉพาะ:

2 1
2 3
1 6
1 4
13 77
7 27
0 1
0 4
0 2
2 7
2 3
1 5
1 9
2 6
0 3
3 0
1 3
0 3
1 0
1 2
0 1

ตารางไม่ออกมาถูกต้อง ทุกเลขคี่จะนับจากกลุ่ม 1 และทุกเลขคู่จะนับตามลำดับจากกลุ่ม 2
Membran

ฉันจัดรูปแบบคำถามของคุณใหม่แล้ว ตอนนี้ตารางถูกต้องหรือไม่
csgillespie

คำตอบ:


8

เป็นไปได้อย่างสมบูรณ์แบบในวันนี้เพื่อทำการทดสอบ 'แน่นอน' ของชาวประมงบนโต๊ะดังกล่าว ฉันเพิ่งได้ p = 0.087 โดยใช้ Stata (การtabi 2 1 \ 2 3 \ .... , exactประมวลผลใช้เวลา 0.19 วินาที)

แก้ไขหลังจากความคิดเห็นของ chl ด้านล่าง (ลองเพิ่มเป็นความคิดเห็น แต่ไม่สามารถจัดรูปแบบ):

มันใช้งานได้ใน R 2.12.0 สำหรับฉันแม้ว่าฉันจะต้องเพิ่มตัวเลือก 'พื้นที่ทำงาน' มากกว่าค่าเริ่มต้น 200000:

> fisher.test(x)
Error in fisher.test(x) : FEXACT error 7.
LDSTP is too small for this problem.
Try increasing the size of the workspace.
> system.time(result<-fisher.test(x, workspace = 400000))
   user  system elapsed 
   0.11    0.00    0.11 
> result$p.value
[1] 0.0866764

(เวลาดำเนินการนั้นเร็วกว่าใน Stata เล็กน้อย แต่นั่นก็เป็นเรื่องที่เกี่ยวข้องอย่างน่าสงสัยเนื่องจากเวลาที่ใช้ในการทำงานกับความหมายของข้อความแสดงข้อผิดพลาดซึ่งใช้ 'พื้นที่ทำงาน' เพื่อหมายถึงบางสิ่งที่แตกต่างจากความหมายปกติของ R เป็นส่วนหนึ่งของแพ็คเกจ 'สถิติ' หลักของ R)


1
ที่น่าสนใจการทดสอบของชาวประมงล้มเหลวในวันที่ R.
chl

ไม่สามารถลงคะแนนมากขึ้นขออภัย ดูเหมือนว่าผมไม่ได้เพิ่ม wksp พอ :)
CHL

ไม่ใช่การทดสอบ "แน่นอน" ของฟิชเชอร์จริง ๆ แล้วตอบคำถามที่แตกต่างกันเล็กน้อย: "... มันถูกใช้เพื่อตรวจสอบความสำคัญของการเชื่อมโยง (ความบังเอิญ) ระหว่างการจำแนกสองประเภท" (หน้า wiki) ในกรณีของฉันฉันพยายามที่จะยืนยัน (หรือลบล้าง) สมมติฐานที่ว่าการกระจายตัวของฟีโนไทป์ระหว่าง 2 กลุ่มนั้นคล้ายกัน (เท่ากับ) เมื่อฉันพบว่าการทดสอบออนไลน์ (ดูโพสต์แรก) ชื่อ "การทดสอบ Chi-Square เพื่อความเท่าเทียมกันของการกระจาย" ฉันคิดว่ามันเป็นปัญหาที่แม่นยำสำหรับฉัน ...
Membran

นอกจากนี้หากคุณคิดว่าการทดสอบของฟิชเชอร์รุ่นที่กล่าวถึงนั้นดีสำหรับการเปรียบเทียบการแจกแจงสองแบบสามารถใช้ในการตรวจสอบความสม่ำเสมอของการแจกแจง (เช่นการบอกว่าฟีโนไทป์ภายในกลุ่มหนึ่งมีการกระจายแบบไม่สม่ำเสมอ ? สามารถทำได้แม้ใน Excel โดยใช้ฟังก์ชัน CHITEST แต่ถ้าฉันมีการแจกแจงแบบเดียวกับข้างบนโดยมีฟีโนไทป์มากมายที่สังเกตได้น้อยกว่า 5 เท่า
Membran

@Membran # 1: เป็นคำถามที่แตกต่างกันเล็กน้อยเนื่องจากเงื่อนไขการทดสอบที่แน่นอนของ Fisher ในทั้งชุดของผลรวมเล็กน้อย นี่ดูเหมือนว่าจะเป็นสถิติเชิงวิชาการสำหรับฉันและฉันก็เป็นนักสถิติในเชิงวิชาการ (BTW คุณสามารถอธิบายถึงวิกิใดที่คุณอ้างถึง) @Membran # 2: ฉันจะไม่เรียกการทดสอบที่แน่นอนแบบมีเงื่อนไข "การทดสอบที่แน่นอนของชาวประมง" ในกรณีของตารางทางเดียว แต่การทดสอบดังกล่าวควรเป็นไปได้และฉัน จะคิดอย่างตรงไปตรงมามากขึ้นสำหรับตารางทางเดียว แต่ปัจจุบันฉันไม่สามารถหาซอฟต์แวร์ที่จะช่วยเหลือได้และฉันไม่มีเวลาในการคำนวณหากไม่มี
onestop

5

แนวทางปกติคือจำนวนที่คาดหวังควรมากกว่า 5 แต่มันค่อนข้างผ่อนคลายตามที่กล่าวไว้ในบทความต่อไปนี้:

ทดสอบ Campbell, I, Chi-squared และ Fisher – Irwin ของตารางสองต่อสองพร้อมคำแนะนำตัวอย่างขนาดเล็กสถิติการแพทย์ (2007) 26 (19): 3661–3675

ดูเพิ่มเติมเอียนแคมป์เบลหน้าแรก

โปรดทราบว่าใน R มีความเป็นไปได้ที่จะคำนวณค่าโดยวิธีมอนติคาร์โล ( ) แทนการพึ่งพาการแจกแจงแบบซีมโทติคพีchisq.test(..., sim=TRUE)

ในกรณีที่คุณปรากฏว่าประมาณ 80% ของจำนวนที่คาดหวังต่ำกว่า 5 และ 40% ต่ำกว่า 1 มันจะทำให้รู้สึกรวมฟีโนไทป์ที่สังเกตได้บ้างไหม


ขอบคุณสำหรับคำแนะนำ เหตุผลมันเป็นไปไม่ได้เลยที่จะรวมฟีโนไทป์เนื่องจากแต่ละอันนั้นเป็นการรวมกันที่เป็นเอกลักษณ์ของพารามิเตอร์ที่บันทึกไว้สามตัว เนื่องจากพารามิเตอร์เหล่านี้แต่ละตัวสามารถ "ขึ้น", "ลง" หรืออยู่ที่ "ไม่เปลี่ยนแปลง" อันเป็นผลมาจากการกลายพันธุ์ดังนั้นจึงสามารถมีฟีโนไทป์ที่แตกต่างกัน 3 ^ 3 = 27 ในตัวอย่างด้านบนฉันลบฟีโนไทป์เหล่านั้นซึ่งทั้งสองกลุ่มได้คะแนน "0" ดังนั้นมีเพียง 21 คนเท่านั้น ฉันเห็นความชุกของฟีโนไทป์บางอย่าง แต่ฉันต้องการที่จะมีหลักฐานทางสถิติว่าการกระจายฟีโนไทป์ดังกล่าวในกลุ่มต่าง ๆ ของการกลายพันธุ์มีความคล้ายคลึงกัน (หรือไม่) ขอบคุณ!
Membran

1
@Membran Aggregation ไม่จำเป็นต้องมีความหมาย: คุณมีอิสระที่จะรวมถังขยะในแบบที่คุณต้องการ อย่างไรก็ตามปัญหาที่ลึกซึ้งคือการรวมโพสต์พฤตินัยปลดเปลื้องค่า p- สงสัย; การรวมตัวควรเป็นอิสระจากข้อมูล
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.