คำถามติดแท็ก contingency-tables

ตารางของการนับ (สัดส่วนของการนับส่วนเพิ่ม) บางครั้งจัดโดย (อย่างน้อย) สองประเภทที่ระบุโดยแสดงความถี่ bivariate หรือหลายตัวแปร บางครั้งเรียกว่าแท็บไขว้

2
เมื่อพิจารณาถึงพลังของคอมพิวเตอร์ในปัจจุบันมีเหตุผลที่จะทำการทดสอบแบบไคสแควร์มากกว่าการทดสอบที่แน่นอนของฟิชเชอร์หรือไม่?
เนื่องจากซอฟต์แวร์นั้นสามารถทำการคำนวณการทดสอบที่แน่นอนของ Fisher ได้อย่างง่ายดายในปัจจุบันมีสถานการณ์ใดที่การทดสอบไคสแควร์ดีกว่าการทดสอบที่แน่นอนของฟิชเชอร์จริงหรือไม่ ข้อดีของการทดสอบที่แน่นอนของฟิชเชอร์รวมถึง: สเกลไปยังตารางฉุกเฉินที่มีขนาดใหญ่กว่า 2x2 (เช่นตารางr x cใด ๆ) ให้ค่า p ที่แน่นอน ไม่จำเป็นต้องมีจำนวนเซลล์ขั้นต่ำที่คาดว่าจะถูกต้อง

2
ความสัมพันธ์ระหว่างการทดสอบไคสแควร์และการทดสอบในสัดส่วนเท่ากันคืออะไร?
สมมติว่าฉันมีประชากรสามคนที่มีสี่ลักษณะที่ไม่เหมือนกันซึ่งกันและกัน ฉันสุ่มตัวอย่างตัวอย่างจากประชากรแต่ละคนและสร้างแท็บไขว้หรือตารางความถี่สำหรับลักษณะที่ฉันวัด ฉันถูกต้องในการพูดว่า: ถ้าฉันต้องการทดสอบว่ามีความสัมพันธ์ใด ๆ ระหว่างประชากรและลักษณะ (เช่นว่าหนึ่งประชากรมีความถี่สูงกว่าหนึ่งในลักษณะ) ฉันควรใช้การทดสอบไคสแควร์และดูว่าผลที่มีความสำคัญ หากการทดสอบแบบไคสแควร์มีความสำคัญแสดงให้ฉันเห็นว่ามีความสัมพันธ์ระหว่างประชากรและคุณลักษณะบางอย่าง แต่ไม่ใช่ความสัมพันธ์ ยิ่งไปกว่านั้นคุณสมบัติบางอย่างนั้นไม่จำเป็นต้องเกี่ยวข้องกับประชากร ตัวอย่างเช่นหากประชากรที่แตกต่างกันมีการแจกแจงที่แตกต่างกันอย่างมากของคุณสมบัติ A และ B แต่ไม่ใช่ของ C และ D ดังนั้นการทดสอบไคสแควร์อาจยังกลับมามีความหมาย ถ้าผมต้องการที่จะวัดหรือไม่ว่าลักษณะที่เฉพาะเจาะจงได้รับผลกระทบโดยประชากรแล้วฉันสามารถเรียกใช้การทดสอบสำหรับสัดส่วนที่เท่ากัน (ฉันได้เห็นนี้เรียกว่า Z-test หรือเป็นprop.test()ในR) เพียงลักษณะที่ กล่าวอีกนัยหนึ่งเหมาะสมที่จะใช้prop.test()เพื่อกำหนดลักษณะของความสัมพันธ์ระหว่างชุดสองประเภทอย่างแม่นยำมากขึ้นเมื่อการทดสอบไคสแควร์บอกว่ามีความสัมพันธ์ที่สำคัญหรือไม่

3
การแปลความหมายของตัวทำนายการแปลงสภาพบันทึกและ / หรือการตอบสนอง
ฉันสงสัยว่ามันจะสร้างความแตกต่างในการตีความไม่ว่าจะเป็นเพียงขึ้นอยู่กับทั้งขึ้นอยู่กับและเป็นอิสระหรือตัวแปรอิสระเท่านั้นที่ถูกเปลี่ยนเข้าสู่ระบบ พิจารณากรณีของ log(DV) = Intercept + B1*IV + Error ฉันสามารถตีความ IV เป็นเปอร์เซ็นต์เพิ่มขึ้น แต่จะเปลี่ยนแปลงได้อย่างไรเมื่อฉันมี log(DV) = Intercept + B1*log(IV) + Error หรือเมื่อฉันมี DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

4
การทดสอบที่แน่นอนของ Fisher ในตารางฉุกเฉินที่มีขนาดใหญ่กว่า 2x2
ฉันได้รับการสอนให้ใช้การทดสอบที่แน่นอนของฟิชเชอร์ในตารางฉุกเฉินที่ 2x2 เท่านั้น คำถาม: ทำฟิชเชอร์ของตัวเองที่เคยวาดภาพการทดสอบนี้จะใช้ในตารางขนาดใหญ่กว่า 2x2 (ฉันรู้เรื่องของเขาการณ์การทดสอบในขณะที่พยายามที่จะคาดเดาว่าหญิงชราคนหนึ่งสามารถบอกได้ว่านมถูกบันทึกอยู่ในชาหรือชาถูกบันทึกอยู่ในนม ) Stata อนุญาตให้ฉันใช้การทดสอบที่แน่นอนของฟิชเชอร์ในตารางใด ๆ ที่อาจเกิดขึ้น ถูกต้องหรือไม่ ควรใช้ FET หรือไม่หากคาดว่าจำนวนเซลล์ในตารางฉุกเฉินเป็น <5?

4
การสร้างภาพข้อมูลที่ดีที่สุดสำหรับตารางฉุกเฉินคืออะไร
จุดไหนที่ดีที่สุดจากมุมมองเชิงสถิติเพื่อแสดงตารางฉุกเฉินซึ่งโดยทั่วไปแล้วจะถูกวิเคราะห์โดยการทดสอบไคสแควร์ มันเป็น barplot ที่หลบ, barplot ที่ซ้อนกัน, heatmap, พล็อตรูปร่าง, scatterplot ของ jitterred, พล็อตหลายบรรทัดหรืออย่างอื่น? หนึ่งควรแสดงค่าสัมบูรณ์หรือเปอร์เซ็นต์ แก้ไข: หรือตามที่ @forecaster แนะนำในความคิดเห็นตารางของตัวเลขเป็นพล็อตที่เรียบง่ายและน่าจะเพียงพอ


2
ตารางฉุกเฉิน: การทดสอบจะทำอย่างไรและเมื่อไหร่?
ฉันต้องการที่จะเห็นส่วนขยายของการอภิปรายของการอภิปรายทดสอบไคส์สแควร์และฟิชเชอร์ที่แน่นอนขึ้นโดยขยายขอบเขตออกไปเล็กน้อย มีการทดสอบมากมายสำหรับการโต้ตอบในตารางฉุกเฉินเพียงพอที่จะทำให้หัวของฉันหมุน ฉันหวังว่าจะได้รับคำอธิบายเกี่ยวกับการทดสอบที่ฉันควรใช้และเมื่อใดและแน่นอนว่าคำอธิบายว่าทำไมการทดสอบหนึ่งควรจะดีกว่าอีกการทดสอบหนึ่ง ปัญหาปัจจุบันของฉันคือกรณีคลาสสิกแต่คำตอบเกี่ยวกับมิติที่สูงกว่ายินดีต้อนรับเช่นเดียวกับเคล็ดลับสำหรับการดำเนินการแก้ปัญหาต่าง ๆ ใน R อย่างน้อยในกรณีที่ไม่ชัดเจนว่าจะดำเนินการอย่างไรn × mn×ม.n \times m ด้านล่างนี้เป็นรายการการทดสอบทั้งหมดที่ฉันรู้ ฉันหวังว่าด้วยการเปิดเผยข้อผิดพลาดของฉันพวกเขาสามารถแก้ไขได้ χ2χ2\chi^2 2 เครื่องแสตนด์บายเก่า มีสามตัวเลือกที่สำคัญที่นี่: การแก้ไขที่สร้างขึ้นใน R สำหรับตาราง 2x2: "ครึ่งหนึ่งถูกลบออกจากทั้งหมดความแตกต่าง" ฉันควรทำสิ่งนี้ตลอดเวลาหรือไม่?| O-E||O-E||O-E| การทดสอบ " "ไม่แน่ใจว่าจะทำอย่างไรใน Rยังไม่มีข้อความ- 1ยังไม่มีข้อความ-1N-1χ2χ2\chi^2 การจำลอง Monte Carlo สิ่งนี้ดีที่สุดเสมอหรือ ทำไม R ไม่ให้ df กับฉันเมื่อฉันทำสิ่งนี้? การทดสอบที่แน่นอนฟิชเชอร์ โดยทั่วไปแล้วเมื่อเซลล์ใดคาดว่าจะ <4 แต่เห็นได้ชัดว่ามีข้อโต้แย้งบางอย่างสำหรับคำแนะนำนี้ สมมติฐาน (มักเป็นเท็จ) ว่าระยะขอบได้รับการแก้ไขแล้วเป็นปัญหาที่ใหญ่ที่สุดในการทดสอบนี้หรือไม่? การทดสอบที่แน่นอนของ Barnard การทดสอบอื่นที่แน่นอนยกเว้นฉันไม่เคยได้ยินมาก่อน การถดถอยปัวซอง …

2
กรณีการเลือกปฏิบัติในเอเชียของ Palantir: ความน่าจะเป็นคำนวณได้อย่างไร
ฉันอ่านบทความนี้เกี่ยวกับกรณีของ Palantir ที่ฝ่ายแรงงานกล่าวหาว่าพวกเขาเลือกปฏิบัติต่อชาวเอเชีย ไม่มีใครรู้ว่าพวกเขาได้รับการประเมินความน่าจะเป็นเหล่านี้จากที่ไหน ฉันไม่ได้รับ 1/741 ในรายการ (ก) (a) สำหรับตำแหน่ง QA Engineer จากกลุ่มผู้สมัครที่มีคุณสมบัติมากกว่า 730 คนซึ่งประมาณ 77% เป็นชาวเอเชีย - Palantir จ้างผู้สมัครที่ไม่ใช่ชาวเอเชียหกคนและผู้สมัครเอเชียเพียงคนเดียว ผลกระทบที่คำนวณโดย OFCCP มีค่าเกินกว่าสามส่วนเบี่ยงเบนมาตรฐาน โอกาสที่ผลลัพธ์นี้จะเกิดขึ้นตามโอกาสนั้นอยู่ที่ประมาณหนึ่งใน 741 (b) สำหรับตำแหน่งวิศวกรซอฟต์แวร์จากกลุ่มผู้สมัครที่มีคุณสมบัติมากกว่า 1,160 คนหรือประมาณ 85% เป็นชาวเอเชีย - Palantir จ้างผู้สมัครที่ไม่ใช่ชาวเอเชีย 14 คนและผู้สมัครชาวเอเชียเพียง 11 คน ผลกระทบที่คำนวณโดย OFCCP เกินกว่า 5 ส่วนเบี่ยงเบนมาตรฐาน โอกาสที่ผลลัพธ์นี้เกิดขึ้นตามโอกาสนั้นอยู่ที่ประมาณหนึ่งใน 3.4 ล้าน (c) สำหรับตำแหน่ง QA Engineer …

2
การบังคับใช้การทดสอบไคสแควร์ถ้าเซลล์จำนวนมากมีความถี่น้อยกว่า 5
เพื่อค้นหาความสัมพันธ์ระหว่างการสนับสนุนของเพื่อน (ตัวแปรอิสระ) และความพึงพอใจในการทำงาน (ตัวแปรตาม) ฉันต้องการใช้การทดสอบไคสแควร์ การสนับสนุนของเพื่อนคือหมวดหมู่ในสี่กลุ่มตามขอบเขตของการสนับสนุน: 1 = ขอบเขตที่น้อยมาก 2 = บางส่วน 3 = ถึงมากและ 4 = ถึงระดับที่ดีมาก ความพึงพอใจในการทำงานคือหมวดหมู่เป็นสอง: 0 = ไม่พอใจและ 1 = พอใจ ผลลัพธ์ SPSS บอกว่าความถี่เซลล์ 37.5 เปอร์เซ็นต์น้อยกว่า 5 ขนาดตัวอย่างของฉันคือ 101 และฉันไม่ต้องการลดหมวดหมู่ในตัวแปรอิสระให้มีจำนวนน้อยลง ในสถานการณ์นี้มีการทดสอบอื่นใดที่สามารถนำไปใช้เพื่อทดสอบการเชื่อมโยงนี้ได้หรือไม่

1
สิ่งที่อาจเกิดขึ้นในตารางฉุกเฉิน?
Merriam-Websterพจนานุกรมกำหนดผูกพันเหตุการณ์หรือสถานการณ์ 1 : likely but not certain to happen : possible 2 : not logically necessary; especially : empirical 3 a : happening by chance or unforeseen causes b : subject to chance or unseen effects : unpredictable c : intended for use in circumstances not completely foreseen 4 : …

2
ความสัมพันธ์ระหว่างค่า ph, Matthews และ Pearson สัมประสิทธิ์สหสัมพันธ์
ค่าสัมประสิทธิ์สหสัมพันธ์ของพีและแมทธิวเป็นแนวคิดเดียวกันหรือไม่? พวกมันเกี่ยวข้องกันอย่างไรหรือเทียบเท่ากับสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สันสำหรับตัวแปรไบนารีสองตัว? ฉันคิดว่าค่าไบนารีเป็น 0 และ 1 ความสัมพันธ์ของเพียร์สันระหว่างตัวแปรสุ่มสองเบอร์นูลลี่และคือ:yxxxyyy ρ=E[(x−E[x])(y−E[y])]Var[x]Var[y]−−−−−−−−−−√=E[xy]−E[x]E[y]Var[x]Var[y]−−−−−−−−−−√=n11n−n1∙n∙1n0∙n1∙n∙0n∙1−−−−−−−−−−√ρ=E[(x−E[x])(y−E[y])]Var[x]Var[y]=E[xy]−E[x]E[y]Var[x]Var[y]=n11n−n1∙n∙1n0∙n1∙n∙0n∙1 \rho = \frac{\mathbb{E} [(x - \mathbb{E}[x])(y - \mathbb{E}[y])]} {\sqrt{\text{Var}[x] \, \text{Var}[y]}} = \frac{\mathbb{E} [xy] - \mathbb{E}[x] \, \mathbb{E}[y]}{\sqrt{\text{Var}[x] \, \text{Var}[y]}} = \frac{n_{1 1} n - n_{1\bullet} n_{\bullet 1}}{\sqrt{n_{0\bullet}n_{1\bullet} n_{\bullet 0}n_{\bullet 1}}} ที่ไหน E[x]=n1∙nVar[x]=n0∙n1∙n2E[y]=n∙1nVar[y]=n∙0n∙1n2E[xy]=n11nE[x]=n1∙nVar[x]=n0∙n1∙n2E[y]=n∙1nVar[y]=n∙0n∙1n2E[xy]=n11n \mathbb{E}[x] = \frac{n_{1\bullet}}{n} \quad \text{Var}[x] = \frac{n_{0\bullet}n_{1\bullet}}{n^2} \quad \mathbb{E}[y] …

2
การทดสอบทางสถิติสำหรับค่าทำนายผลบวกและลบ
ฉันอ่านกระดาษและเห็นตารางเปรียบเทียบ PPV (Positive Predictive Value) กับ NPV (Negative Predictive Value) พวกเขาทำการทดสอบทางสถิติบางอย่างสำหรับพวกเขานี่เป็นภาพร่างของตาราง: PPV NPV p-value 65.9 100 < 0.00001 ... ทุกแถวหมายถึงตารางฉุกเฉินเฉพาะ พวกเขาทดสอบสมมติฐานอะไร ขอบคุณ!

2
การทดสอบทางสถิติสำหรับตารางฉุกเฉิน nxm
ฉันมีชุดข้อมูลที่ประกอบด้วยองค์ประกอบจากสามกลุ่มลองเรียกมันว่า G1, G2 และ G3 ฉันวิเคราะห์คุณสมบัติบางอย่างขององค์ประกอบเหล่านี้และแบ่งออกเป็น "พฤติกรรม" 3 ประเภท T1, T2 และ T3 (ฉันใช้การวิเคราะห์กลุ่มเพื่อทำสิ่งนั้น) ดังนั้นตอนนี้ฉันมีตารางฉุกเฉิน 3 x 3 เช่นนี้โดยมีจำนวนองค์ประกอบในสามกลุ่มหารตามประเภท: | T1 | T2 | T3 | ------+---------+---------+---------+--- G1 | 18 | 15 | 65 | ------+---------+---------+---------+--- G2 | 20 | 10 | 70 | ------+---------+---------+---------+--- G3 | 15 | 55 …

1
วิธีการตีความสีที่เหลือในพล็อตโมเสค?
นี่คือพล็อตโมเสคของชุดข้อมูลตารางฉุกเฉินHairEyeColorอธิบายไว้ที่นี่ ฉันจะตีความสีที่แสดงถึงสิ่งตกค้างได้อย่างไร อะไรคือความแตกต่างระหว่างของเพียร์สันที่มีค่าสูงและค่าบวก (แสดงเป็นสีน้ำเงิน) เมื่อเทียบกับค่าต่ำและค่าลบที่แสดงเป็นสีแดง

2
การวิเคราะห์การเพิ่มปริมาณโดยระดับการทำสำเนาของยีน
ความเป็นมาทางชีวภาพ เมื่อเวลาผ่านไปพืชบางชนิดมีแนวโน้มที่จะทำซ้ำจีโนมทั้งหมดของพวกเขาได้รับสำเนาเพิ่มเติมของแต่ละยีน เนื่องจากความไม่แน่นอนของการตั้งค่านี้ทำให้ยีนเหล่านี้จำนวนมากถูกลบออกและจีโนมจัดเรียงตัวเองใหม่และทำให้เสถียรพร้อมที่จะทำซ้ำอีกครั้ง เหตุการณ์การทำซ้ำเหล่านี้เกี่ยวข้องกับการเก็งกำไรและการบุกรุกและทฤษฎีก็คือการทำซ้ำช่วยให้พืชสามารถปรับตัวเข้ากับสภาพแวดล้อมใหม่ได้เร็วขึ้น Lupinus เป็นพืชดอกออกดอกบุกรุก Andes ในเหตุการณ์ speciation ที่เร็วที่สุดเท่าที่เคยตรวจพบและยิ่งไปกว่านั้นดูเหมือนว่าจะมีสำเนาที่ซ้ำกันในจีโนมมากกว่า Baptisia ที่เกี่ยวข้องมากที่สุด และตอนนี้ปัญหาทางคณิตศาสตร์: จีโนมของสมาชิกของ Lupinus และสมาชิกของ Baptisia ได้รับการจัดลำดับโดยให้ข้อมูลดิบประมาณ 25,000 ยีนในแต่ละสปีชีส์ ด้วยการสอบถามกับฐานข้อมูลของยีนที่รู้จักกันในฟังก์ชั่นตอนนี้ฉันมี "คาดเดาที่ดีที่สุด" สำหรับสิ่งที่ฟังก์ชั่นที่ยีนอาจทำ - ตัวอย่างเช่น Gene1298 อาจเกี่ยวข้องกับ "เมตาบอลิซึมฟรุกโตส ฉันอยากรู้ว่าถ้ามีเหตุการณ์การทำซ้ำระหว่าง Baptisia และ Lupinus ไม่ว่าการสูญเสียยีนจะเกิดขึ้นแบบสุ่มหรือว่ายีนที่ทำหน้าที่เฉพาะนั้นมีแนวโน้มที่จะถูกเก็บหรือลบมากกว่า ฉันมีสคริปต์ที่จะส่งออกตารางเช่นเดียวกับที่แสดงด้านล่าง L * คือจำนวนยีน Lupinus ทั้งหมดที่เกี่ยวข้องกับฟังก์ชัน L 1+ คือจำนวนยีน lupinus ที่เกี่ยวข้องกับฟังก์ชันที่มีสำเนาอย่างน้อยหนึ่งสำเนา ฉันสามารถทำให้มันผลิต L 2+, L 3+ ฯลฯ …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.