วิธีการทดสอบไคสแควร์หลังการทดสอบหลายตารางในตาราง 2 X 3


9

ชุดข้อมูลของฉันประกอบด้วยการเสียชีวิตโดยรวมหรือการอยู่รอดของสิ่งมีชีวิตที่ไซต์สามประเภททั้งฝั่งกลางและกลาง ตัวเลขในตารางด้านล่างแสดงถึงจำนวนเว็บไซต์

              100% Mortality            100% Survival
Inshore             30                       31 
Midchannel          10                       20 
Offshore             1                       10

ฉันต้องการทราบว่า # ของเว็บไซต์ที่มีอัตราการตาย 100% มีความสำคัญตามประเภทของไซต์หรือไม่ ถ้าฉันใช้ไคสแควร์ 2 x 3 ฉันจะได้ผลลัพธ์ที่สำคัญ มีการเปรียบเทียบแบบคู่หลังที่ฉันสามารถเรียกใช้หรือฉันควรใช้ ANOVA จิสติกส์หรือการถดถอยด้วยการแจกแจงแบบทวินามหรือไม่ ขอบคุณ!

คำตอบ:


7

ตารางฉุกเฉินควรมีหมวดหมู่ที่ไม่เกิดร่วมกันทั้งหมดบนแกนทั้งสอง Inshore / Midchannel / Offshore ดูดีอย่างไรก็ตามยกเว้น "น้อยกว่า 100% การตาย" หมายถึง "การอยู่รอด 100%" ในการตั้งค่าทางชีวภาพนี้คุณอาจต้องสร้างตารางที่บัญชีสำหรับทุกกรณีที่สังเกตหรืออธิบายว่าทำไมคุณ จำกัด การวิเคราะห์ของคุณมาก สิ้นสุดตัวอย่าง

เนื่องจากการอยู่รอด 100% หมายถึงอัตราการตาย 0% คุณสามารถมีตารางที่มีคอลัมน์ 100% = อัตราการตาย / 100%> อัตราการตาย> 0% / อัตราการตาย = 0% ในกรณีนี้คุณจะไม่เปรียบเทียบเปอร์เซ็นต์ แต่เปรียบเทียบมาตรการการตายตามลำดับในสามประเภทประเภทไซต์ (แล้วจะใช้ค่าเปอร์เซ็นต์เดิมแทนหมวดหมู่ได้อย่างไร) การทดสอบ Kruskal-Wallis อาจมีความเหมาะสมที่นี่ซึ่งจะพิจารณาความสัมพันธ์อย่างเหมาะสม (อาจเป็นการทดสอบการเปลี่ยนรูป)

มีการจัดตั้งคณะกรรมการทดสอบโพสต์สำหรับการทดสอบ Kruskal-Wallis: 1 , 2, 3 (วิธีการสุ่มตัวอย่างอาจช่วยแก้ปัญหาความสัมพันธ์)

การถดถอยแบบลอจิสติกและการถดถอยแบบทวินามอาจจะดีกว่าเพราะมันไม่เพียงให้คุณค่าแก่คุณเท่านั้น แต่ยังเป็นการประมาณค่าที่เป็นประโยชน์และช่วงความมั่นใจของขนาดเอฟเฟกต์ อย่างไรก็ตามในการตั้งค่าโมเดลเหล่านี้จำเป็นต้องมีรายละเอียดเพิ่มเติมเกี่ยวกับเว็บไซต์ 100%> อัตราการตาย> 0%


4

ฉันจะสมมติว่า "การอยู่รอด 100%" หมายความว่าเว็บไซต์ของคุณมีเพียงสิ่งมีชีวิตเดียว ดังนั้น 30 หมายถึง 30 สิ่งมีชีวิตตายและ 31 หมายถึง 31 สิ่งมีชีวิตไม่ได้ จากข้อมูลนี้ไคสแควร์ควรจะดี แต่มันจะบอกได้เพียงว่าสมมติฐานไม่ได้รับการสนับสนุนจากข้อมูล - มันจะไม่บอกคุณว่าสมมติฐานที่สมเหตุสมผลสองข้อนั้นดีกว่าหรือไม่ ฉันนำเสนอการวิเคราะห์ความน่าจะเป็นซึ่งดึงข้อมูลนี้ - มันสอดคล้องกับการทดสอบไคสแควร์ แต่มันให้ข้อมูลมากกว่าการทดสอบไคสแควร์และเป็นวิธีที่ดีกว่าในการนำเสนอผลลัพธ์

แบบจำลองนี้เป็นแบบจำลอง bernouli สำหรับตัวบ่งชี้ "ตาย", (หมายถึงเซลล์ของตารางและหมายถึงแต่ละหน่วยภายใน เซลล์)YijBin(1,θij)i2×3j

มีสมมติฐานทั่วโลกสองข้อในการทดสอบไคสแควร์:

  1. ภายในเซลล์ที่กำหนดของตารางมีค่าเท่ากันนั่นคือθijθij=θik=θi
  2. มีความเป็นอิสระทางสถิติให้{i} ซึ่งหมายความว่าพารามิเตอร์ความน่าจะเป็นจะบอกคุณทุกอย่างเกี่ยวกับ - ข้อมูลอื่น ๆ ทั้งหมดไม่เกี่ยวข้องหากคุณรู้YijθiYijθi

แสดงว่าเป็นผลรวมของ , (ดังนั้น ) และให้เป็นขนาดกลุ่ม (ดังนั้น ) ตอนนี้เรามีสมมติฐานที่จะทดสอบ:XiYijX1=30,X2=10,X3=1NiN1=61,N2=30,N3=11

HA:θ1=θ2,θ1=θ3,θ2=θ3

แต่ทางเลือกคืออะไร? ฉันจะบอกว่าชุดค่าผสมที่เป็นไปได้อื่น ๆ ที่เท่ากันหรือไม่เท่ากัน

HB1:θ1θ2,θ1θ3,θ2=θ3
HB2:θ1θ2,θ1=θ3,θ2θ3
HB3:θ1=θ2,θ1θ3,θ2θ3
H:θ1θ2,θ1θ3,θ2θ3

หนึ่งในสมมติฐานเหล่านี้จะต้องเป็นจริงตามสมมติฐาน "ทั่วโลก" ข้างต้น แต่โปรดทราบว่าไม่มีสิ่งเหล่านี้ระบุค่าเฉพาะสำหรับอัตรา - ดังนั้นจึงต้องรวมเข้าด้วยกัน รับตอนนี้เป็นความจริงที่เรามีเพียงหนึ่งพารามิเตอร์ (เพราะทุกคนมีความเท่าเทียมกัน) และชุดก่อนเป็นทางเลือกที่อนุลักษณ์, แสดงนี้และสมมติฐานทั่วโลกโดย{0} ดังนั้นเราจึงมี:HAผม0

P(X1,X2,X3|ยังไม่มีข้อความ1,ยังไม่มีข้อความ2,ยังไม่มีข้อความ3,HA,ผม0)=01P(X1,X2,X3,θ|ยังไม่มีข้อความ1,ยังไม่มีข้อความ2,ยังไม่มีข้อความ3,HA,ผม0)dθ
=(ยังไม่มีข้อความ1X1)(ยังไม่มีข้อความ2X2)(ยังไม่มีข้อความ3X3)01θX1+X2+X3(1-θ)ยังไม่มีข้อความ1+ยังไม่มีข้อความ2+ยังไม่มีข้อความ3-X1-X2-X3dθ
=(ยังไม่มีข้อความ1X1)(ยังไม่มีข้อความ2X2)(ยังไม่มีข้อความ3X3)(ยังไม่มีข้อความ1+ยังไม่มีข้อความ2+ยังไม่มีข้อความ3+1)(ยังไม่มีข้อความ1+ยังไม่มีข้อความ2+ยังไม่มีข้อความ3X1+X2+X3)

ซึ่งก็คือการแจกแจงไฮเพอร์เมตริกซ์หารด้วยค่าคงที่ ในทำนองเดียวกันสำหรับเราจะมี: HB1

P(X1,X2,X3|ยังไม่มีข้อความ1,ยังไม่มีข้อความ2,ยังไม่มีข้อความ3,HB1,ผม0)=01P(X1,X2,X3,θ1θ2|ยังไม่มีข้อความ1,ยังไม่มีข้อความ2,ยังไม่มีข้อความ3,HB1,ผม0)dθ1dθ2
=(ยังไม่มีข้อความ2X2)(ยังไม่มีข้อความ3X3)(ยังไม่มีข้อความ1+1)(ยังไม่มีข้อความ2+ยังไม่มีข้อความ3+1)(ยังไม่มีข้อความ2+ยังไม่มีข้อความ3X2+X3)

คุณสามารถเห็นรูปแบบสำหรับคนอื่น ๆ เราสามารถคำนวณอัตราต่อรองสำหรับพูดเพียงแค่หารสองนิพจน์ด้านบน คำตอบคือประมาณซึ่งหมายความว่าข้อมูลสนับสนุนมากกว่าโดยประมาณ - หลักฐานที่ค่อนข้างอ่อนแอซึ่งสนับสนุนอัตราที่เท่ากัน ความน่าจะเป็นอื่น ๆ จะได้รับด้านล่างHAโวลต์sHB14HAHB14

HYพีโอเสื้อชั่วโมงอีsผมsพีRโอaผมล.ผมเสื้อY(HA|D)0.018982265(HB1|D)0.004790669(HB2|D)0.051620022(HB3|D)0.484155874(H|D)0.440451171

นี่แสดงให้เห็นหลักฐานที่แข็งแกร่งเทียบกับอัตราที่เท่ากัน แต่ไม่ใช่หลักฐานที่ชัดเจนว่าเป็นทางเลือกที่น่าเชื่อถือ ดูเหมือนว่ามีหลักฐานที่ชัดเจนว่าอัตรา "นอกชายฝั่ง" นั้นแตกต่างจากสองอัตราอื่น ๆ แต่ก็ยังไม่มีข้อสรุปที่แน่ชัดว่าอัตรา "ฝั่ง" และ "กลางช่อง" แตกต่างกันหรือไม่ นี่คือสิ่งที่การทดสอบไคสแควร์จะไม่บอกคุณ - เพียงบอกคุณว่าสมมติฐานคือ "อึ" แต่ไม่ใช่สิ่งอื่นที่จะแทนที่A


1

นี่คือรหัสสำหรับทำแบบทดสอบไคสแควร์รวมถึงสร้างสถิติการทดสอบที่หลากหลาย อย่างไรก็ตามการทดสอบทางสถิติของความสัมพันธ์ของระยะขอบตารางไม่มีประโยชน์ที่นี่ คำตอบนั้นชัดเจน ไม่มีใครทำการทดสอบทางสถิติเพื่อดูว่าฤดูร้อนนั้นร้อนกว่าฤดูหนาวหรือไม่

Chompy<-matrix(c(30,10,1,31,20,10), 3, 2)
Chompy
chisq.test(Chompy)
chisq.test(Chompy, simulate.p.value = TRUE, B = 10000)
chompy2<-data.frame(matrix(c(30,10,1,31,20,10,1,2,1,2,1,2,1,2,3,1,2,3), 6,3))
chompy2
chompy2$X2<-factor(chompy2$X2) 
chompy2$X3<-factor(chompy2$X3)
summary(fit1<-glm(X1~X2+X3, data=chompy2, family=poisson))
summary(fit2<-glm(X1~X2*X3, data=chompy2, family=poisson)) #oversaturated
summary(fit3<-glm(X1~1, data=chompy2, family=poisson)) #null
anova(fit3,fit1)
library(lmtest)
waldtest(fit1)
waldtest(fit2) #oversaturated
kruskal.test(X1~X2+X3, data=chompy2)
kruskal.test(X1~X2*X3, data=chompy2)

3
มันจะน่าสนใจสำหรับผู้อ่าน (และ OP) หากคุณสามารถให้รายละเอียดเกี่ยวกับไวยากรณ์ R ที่แตกต่างกัน (และการทดสอบพื้นฐาน) ที่คุณให้และโดยเฉพาะอย่างยิ่งวิธีการทดสอบ Kruskal-Wallis เปรียบเทียบกับแบบจำลองบันทึกเชิงเส้น
chl

คุณสามารถดูได้โดยการคัดลอกและวางรหัสลงในคอนโซล R
Patrick McCann

1
แน่ใจ คำตอบมาจากตัวเองโดยใช้รหัสแน่นอน
chl

0

ฉันเชื่อว่าคุณสามารถใช้ "ช่วงความมั่นใจพร้อมกัน" เพื่อทำการเปรียบเทียบหลายรายการ การอ้างอิงคือ Agresti et al. 2008 ช่วงความเชื่อมั่นพร้อมกันสำหรับการเปรียบเทียบพารามิเตอร์ทวินาม Biometrics 64 1270-1275

คุณสามารถค้นหารหัส R ที่สอดคล้องกันได้ในhttp://www.stat.ufl.edu/~aa/cda/software.html

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.