คำถามติดแท็ก hypothesis-testing

การทดสอบสมมติฐานจะประเมินว่าข้อมูลไม่สอดคล้องกับสมมติฐานที่กำหนดแทนที่จะเป็นผลของความผันผวนแบบสุ่มหรือไม่

2
สมมติฐาน NULL สำหรับการโต้ตอบในการวิเคราะห์ความแปรปรวนสองทางคืออะไร?
สมมติว่าเรามีสองปัจจัย (A และ B) แต่ละคนมีสองระดับ (A1, A2 และ B1, B2) และตัวแปรตอบสนอง (y) เมื่อทำการ ANOVA สองทางของประเภท: y~A+B+A*B เรากำลังทดสอบสมมติฐานว่างสามประการ: ไม่มีความแตกต่างในวิธีการของปัจจัย A ปัจจัยในระดับ B ไม่มีความแตกต่างกัน ไม่มีการโต้ตอบระหว่างปัจจัย A และ B เมื่อเขียนลงไปข้อสมมติฐานสองข้อแรกนั้นง่ายต่อการกำหนด (สำหรับ 1 มันคือH0:μA1=μA2H0:μA1=μA2H_0:\; \mu_{A1}=\mu_{A2} ) แต่ควรกำหนดสมมติฐาน 3 อย่างไร? แก้ไข : และจะกำหนดสูตรอย่างไรสำหรับกรณีที่มีมากกว่าสองระดับ ขอบคุณ

4
ค่าที่ถูกต้องสำหรับความแม่นยำและการเรียกคืนในกรณีขอบคืออะไร?
ความแม่นยำหมายถึง: p = true positives / (true positives + false positives) มันถูกต้องหรือไม่ที่ในฐานะtrue positivesและfalse positivesวิธีที่ 0 ความแม่นยำเข้าใกล้ 1? คำถามเดียวกันสำหรับการเรียกคืน: r = true positives / (true positives + false negatives) ขณะนี้ฉันกำลังใช้การทดสอบทางสถิติที่ฉันต้องการคำนวณค่าเหล่านี้และบางครั้งมันก็เกิดขึ้นที่ตัวส่วนเป็น 0 และฉันสงสัยว่าจะคืนค่าใดให้กับกรณีนี้ PS: ขอโทษแท็กที่ไม่เหมาะสมผมอยากจะใช้recall, precisionและlimitแต่ฉันไม่สามารถสร้างแท็กใหม่ ๆ
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

6
นักอุตุนิยมวิทยาของฉันถูกต้องหรือไม่?
คำถามที่รบกวนฉันในบางครั้งซึ่งฉันไม่รู้วิธีการแก้ไข: ทุกวันนักอุตุนิยมวิทยาของฉันให้โอกาสเปอร์เซ็นต์ฝนตก (สมมติว่าคำนวณเป็นตัวเลข 9000 และเขาไม่เคยซ้ำตัวเลข) ทุกวันต่อมาฝนหรือฝนไม่ตก ฉันมีข้อมูลหลายปี - โอกาสที่จะเกิดฝนหรือไม่ จากประวัติศาสตร์ของนักอุตุนิยมวิทยานี้ถ้าเขาบอกว่าคืนนี้โอกาสในวันพรุ่งนี้ของฝนคือ X แล้วสิ่งที่ฉันคาดเดาได้ดีที่สุดว่าโอกาสฝนตกจริงๆคืออะไร?

2
การเลือกระหว่าง -test และ -test
ความเป็นมา: ฉันกำลังนำเสนอให้กับเพื่อนร่วมงานที่ทำงานเกี่ยวกับการทดสอบสมมติฐานและเข้าใจว่าส่วนใหญ่ดี แต่มีแง่มุมหนึ่งที่ฉันคาดว่าจะเป็นปมพยายามเข้าใจและอธิบายให้ผู้อื่นฟัง นี่คือสิ่งที่ฉันคิดว่าฉันรู้ (โปรดแก้ไขถ้าผิด!) สถิติที่อาจเป็นเรื่องปกติหากทราบความแปรปรวนให้ทำตามการแจกแจงแบบtttหากไม่ทราบความแปรปรวน CLT (ทฤษฎีขีด จำกัด กลาง): การกระจายตัวตัวอย่างของค่าเฉลี่ยตัวอย่างนั้นประมาณปกติสำหรับขนาดใหญ่พอnnn (อาจเป็น303030 , อาจสูงถึง300300300สำหรับการแจกแจงแบบเบ้สูง) ttt -distribution สามารถพิจารณาปกติองศาอิสระ&gt;30&gt;30> 30 คุณใช้การทดสอบถ้า:zzz ประชากรปกติและความแปรปรวนเป็นที่รู้จัก (สำหรับขนาดตัวอย่างใด ๆ ) ประชากรปกติไม่ทราบความแปรปรวนและ (เนื่องจาก CLT)n&gt;30n&gt;30n>30 ประชากรทวินาม, , n q &gt; 10np&gt;10np&gt;10np>10nq&gt;10nq&gt;10nq>10 คุณใช้ -test ถ้า:ttt ประชากรปกติไม่ทราบความแปรปรวนและn&lt;30n&lt;30n<30 ไม่มีความรู้เกี่ยวกับประชากรหรือความแปรปรวนและแต่ข้อมูลตัวอย่างดูเป็นปกติ / ผ่านการทดสอบและอื่น ๆ เพื่อให้ประชากรสามารถสันนิษฐานได้ว่าเป็นปกติn&lt;30n&lt;30n<30 ดังนั้นฉันเหลือ: สำหรับตัวอย่างและ&lt; ≈ 300 (?) ไม่มีความรู้เกี่ยวกับประชากรและความแปรปรวนที่ทราบ / ไม่รู้จัก&gt;30&gt;30>30&lt;≈300&lt;≈300<\approx 300 …

3
วิธีอ่อนโยนของสถิติเบย์
ฉันเพิ่งเริ่มอ่าน "รู้เบื้องต้นเกี่ยวกับสถิติแบบเบย์" รุ่นที่ 2 โดย Bolstad ฉันมีชั้นเรียนสถิติเบื้องต้นที่ครอบคลุมการทดสอบทางสถิติเป็นหลักและเกือบจะผ่านชั้นเรียนในการวิเคราะห์การถดถอย ฉันสามารถใช้หนังสืออื่นเล่มใดเพื่อเสริมความเข้าใจในหนังสือเล่มนี้ ฉันทำผ่าน 100-125 หน้าแรกได้ดี หลังจากนั้นหนังสือเริ่มพูดถึงการทดสอบสมมติฐานซึ่งเป็นสิ่งที่ฉันตื่นเต้นมากที่จะครอบคลุม แต่มีบางสิ่งที่ทำให้ฉัน: การใช้ฟังก์ชันความหนาแน่นของความน่าจะเป็นในการคำนวณ ในคำอื่น ๆ วิธีการประเมินสมการดังกล่าว ประโยคทั้งหมดนี้: "สมมติว่าเราใช้เบต้า (1,1) ก่อนหน้าสำหรับ pi จากนั้นเมื่อให้ y = 8 ความหนาแน่นหลังคือเบต้า (9,3) ความน่าจะเป็นด้านหลังของสมมติฐานว่างคือ ... " ฉันเชื่อเบต้า (1,1) หมายถึง PDF โดยที่ค่าเฉลี่ยคือ 1 และ stdev คือ 1? ฉันไม่เข้าใจว่ามันจะเปลี่ยนเป็นเบต้า (9,3) เป็นฟังก์ชั่นความหนาแน่นด้านหลัง ฉันได้รับแนวคิดของนักบวชและผู้โพสต์และเข้าใจวิธีการใช้พวกเขาโดยใช้ตารางด้วยตนเอง ฉันได้รับ (ฉันคิดว่า!) pi นั้นแสดงถึงสัดส่วนหรือความน่าจะเป็นของประชากร ฉันไม่ได้รับวิธีการเชื่อมต่อนี้พร้อมกับข้อมูลที่ฉันจะได้รับในแต่ละวันและได้รับผลลัพธ์

2
ลำดับของตัวแปรใน ANOVA นั้นสำคัญหรือไม่
ฉันถูกต้องหรือไม่ที่จะเข้าใจว่าลำดับของตัวแปรที่ระบุในการวิเคราะห์ความแปรปรวนทำให้เกิดความแตกต่าง แต่ลำดับนั้นไม่สำคัญเมื่อทำการถดถอยเชิงเส้นหลายครั้ง? ดังนั้นสมมติว่าผลลัพธ์เช่นการสูญเสียเลือดที่วัดได้ yและตัวแปรเด็ดขาดสองอย่าง วิธี adenoidectomy a , bวิธีการผ่าตัด โมเดลy~a+bแตกต่างจากโมเดลy~b+a(หรือดังนั้นการนำไปใช้ของฉันใน R ดูเหมือนจะบ่งบอก) ฉันถูกต้องหรือไม่ที่จะเข้าใจว่าคำนี้คือ ANOVA เป็นรูปแบบลำดับขั้นเนื่องจากมันเป็นคุณลักษณะแรกที่มีความแปรปรวนมากที่สุดเท่าที่จะเป็นไปได้สำหรับปัจจัยแรกก่อนที่จะลองคำนวณความแปรปรวนที่เหลือกับปัจจัยที่สอง ในตัวอย่างข้างต้นลำดับชั้นทำให้รู้สึกเพราะฉันมักจะทำ adenoidectomy ก่อนที่จะทำต่อมทอนซิล แต่สิ่งที่จะเกิดขึ้นหากมีสองตัวแปรที่ไม่มีคำสั่งโดยธรรมชาติ?

1
การทดสอบแบบไม่อิงพารามิเตอร์หากดึงตัวอย่างสองตัวอย่างจากการแจกแจงแบบเดียวกัน
ฉันต้องการทดสอบสมมติฐานว่ามีตัวอย่างสองตัวอย่างมาจากประชากรเดียวกันโดยไม่มีการตั้งสมมติฐานใด ๆ เกี่ยวกับการกระจายตัวของกลุ่มตัวอย่างหรือประชากร ฉันจะทำสิ่งนี้ได้อย่างไร จากวิกิพีเดียความประทับใจของฉันคือการทดสอบ Mann Whitney U ควรเหมาะสม แต่ดูเหมือนจะไม่เหมาะสำหรับฉันในทางปฏิบัติ สำหรับ concreteness ฉันได้สร้างชุดข้อมูลที่มีสองตัวอย่าง (a, b) ที่มีขนาดใหญ่ (n = 10,000) และดึงมาจากประชากรสองกลุ่มที่ไม่ปกติ (bimodal) มีความคล้ายคลึงกัน (ค่าเฉลี่ยเดียวกัน) แตกต่างกัน (ค่าเบี่ยงเบนมาตรฐาน รอบ "humps.") ฉันกำลังมองหาการทดสอบที่จะรับรู้ว่าตัวอย่างเหล่านี้ไม่ได้มาจากประชากรเดียวกัน มุมมองฮิสโตแกรม: รหัส R: a &lt;- tibble(group = "a", n = c(rnorm(1e4, mean=50, sd=10), rnorm(1e4, mean=100, sd=10))) b &lt;- tibble(group = "b", n …

3
ความสับสนกับอัตราการค้นพบที่ผิดและการทดสอบหลายอย่าง (ใน Colquhoun 2014)
ฉันได้อ่านบทความที่ยอดเยี่ยมนี้โดย David Colquhoun: การตรวจสอบอัตราการค้นพบที่ผิดพลาดและการตีความค่า p ผิดพลาด (2014) ในสาระสำคัญที่เขาอธิบายว่าทำไมอัตราการค้นพบที่ผิดพลาด (FDR) สามารถจะสูงถึงแม้ว่าเราควบคุมสำหรับข้อผิดพลาดประเภทที่มี\30 %30%30\%α = 0.05α=0.05\alpha=0.05 อย่างไรก็ตามฉันยังสับสนว่าจะเกิดอะไรขึ้นถ้าฉันใช้การควบคุม FDR ในกรณีของการทดสอบหลายครั้ง บอกเด็ก ๆ ว่าฉันได้ทำการทดสอบตัวแปรแต่ละตัวแล้วและคำนวณค่าโดยใช้ขั้นตอน Benjamini-Hochberg ผมหนึ่งตัวแปรที่มีความสำคัญกับqฉันกำลังถาม FDR สำหรับการค้นพบนี้คืออะไร?QQqQ= 0.049Q=0.049q=0.049 ฉันสามารถสันนิษฐานได้อย่างปลอดภัยว่าในระยะยาวหากฉันทำการวิเคราะห์ดังกล่าวเป็นประจำ FDR ไม่ใช่30 %30%30\%แต่ต่ำกว่า5 %5%5\%เพราะฉันใช้ Benjamini-Hochberg นั่นรู้สึกผิดฉันจะบอกว่าค่าQQq -value สอดคล้องกับค่าพีพีpค่าในกระดาษของ Colquhoun และการใช้เหตุผลของเขาที่นี่เช่นกันดังนั้นการใช้ค่าQQqเกณฑ์ที่0.050.050.05ฉันเสี่ยงที่จะ "ทำให้คนโง่" Colquhoun ใส่ไว้) ใน30 %30%30\%ของคดี อย่างไรก็ตามฉันพยายามอธิบายอย่างเป็นทางการมากกว่าและล้มเหลว

2
การวิเคราะห์ความยืดหยุ่น / ริดจ์ / เชือก
ฉันได้รับความสนใจในขั้นตอนสุทธิที่ยืดหยุ่นสำหรับการคาดการณ์การหดตัว / การเลือก ดูเหมือนว่าทรงพลังมาก แต่จากมุมมองทางวิทยาศาสตร์ฉันไม่รู้ดีว่าต้องทำอะไรเมื่อได้สัมประสิทธิ์ ฉันจะตอบคำถามอะไร นี่คือตัวแปรที่มีอิทธิพลต่อผลลัพธ์มากที่สุดและมีสัมประสิทธิ์ซึ่งให้อัตราส่วนความแปรปรวน / ความเอนเอียงที่ดีที่สุดระหว่างการตรวจสอบความถูกต้อง? แน่นอนว่านี่เป็นวิธีการบรรยาย / การคาดการณ์ที่ดีมากเมื่อเปรียบเทียบกับวิธีการประเมินค่าความเชื่อมั่นแบบดั้งเดิม ขณะนี้ Tibshirani &amp; Co. ได้ทำการศึกษาการประมาณค่าอนุมาน แต่ยังอยู่ระหว่างการทดลอง บางคนกำลังใช้ตัวแปรที่ถูกเลือกโดยเครือข่ายอีลาสติกเพื่อทำการวิเคราะห์เชิงอนุมานแบบคลาสสิก แต่นั่นจะขจัดข้อ จำกัด ในความแปรปรวนที่เกิดจากเทคนิค ปัญหาอีกประการหนึ่งคือเนื่องจากพารามิเตอร์แลมบ์ดาและอัลฟาสำหรับตาข่ายยืดหยุ่นถูกเลือกโดยการตรวจสอบความถูกต้องของข้อมูลพวกเขาจึงมีความแปรปรวนแบบสุ่ม ดังนั้นทุกครั้งที่คุณเรียกใช้ (เช่น.) cv.glmnet () คุณจะเลือกเซตย่อยที่แตกต่างกันเล็กน้อยของตัวทำนายที่มีค่าสัมประสิทธิ์ต่างกันอยู่เสมอ ฉันว่าเกี่ยวกับการแก้ปัญหานี้โดยพิจารณาแลมบ์ดาและอัลฟาที่ถูกต้องเป็นตัวแปรสุ่มและดำเนินการขั้นตอนการตรวจสอบความถูกต้องอีกครั้ง n เพื่อรับการแจกแจงของพารามิเตอร์เหล่านี้ วิธีนี้สำหรับผู้ทำนายทุกคนฉันจะมีจำนวนครั้งและทุกค่าสัมประสิทธิ์ฉันจะมีการแจกแจงผล สิ่งนี้จะให้ผลลัพธ์ generalizable เพิ่มเติมกับฉันช่วงสถิติ (เช่น sd ของสัมประสิทธิ์) มันน่าสนใจที่จะเห็นว่าแลมบ์ดาและอัลฟ่าเลือกวิธีนี้ใกล้เคียงกับการแจกแจงแบบไม่แสดงอาการหรือไม่เพราะมันจะเปิดทางสำหรับการทดสอบการอนุมาน (แต่ฉันไม่ใช่นักสถิติดังนั้นฉันไม่ควรพูดเกี่ยวกับสิ่งที่ฉันทำ ไม่เข้าใจ) ดังนั้นในที่สุดคำถามของฉันคือ: เมื่อคุณได้รับการทำนายและค่าสัมประสิทธิ์จากตาข่ายยืดหยุ่นด้วยการตรวจสอบข้ามตามอัลฟาและแลมบ์ดาซึ่งคุณควรนำเสนอผลลัพธ์เหล่านี้และวิธีการ? คุณควรพูดคุยกับพวกเขาอย่างไร? เราเรียนรู้อะไร เรากำลังตั้งสมมุติฐาน / การวางนัยทั่วไปอะไร

1
ฉันจะค้นหาค่าที่ไม่ได้ระบุใน (ตารางสอดแทรก) ในตารางสถิติได้อย่างไร
บ่อยครั้งที่ผู้คนใช้โปรแกรมเพื่อรับค่า p แต่บางครั้งด้วยเหตุผลใดก็ตามอาจจำเป็นต้องได้รับคุณค่าที่สำคัญจากชุดของตาราง ให้ตารางสถิติที่มีระดับนัยสำคัญที่ จำกัด และจำนวนองศาอิสระที่ จำกัด ฉันจะรับค่าวิกฤตที่ระดับความสำคัญอื่น ๆ หรือองศาอิสระได้อย่างไร (เช่นกับตาราง , chi-square หรือ ) ?FtttFFF นั่นคือฉันจะค้นหาค่า "ในระหว่าง" ค่าในตารางได้อย่างไร

1
มีการทดสอบทางสถิติเพื่อเปรียบเทียบสองตัวอย่างขนาด 1 และ 3 หรือไม่
สำหรับโครงการด้านนิเวศวิทยากลุ่มห้องปฏิบัติการของฉันได้เพิ่มน้ำส้มสายชูลงในถังที่บรรจุน้ำปริมาณ 4 บ่อเท่ากัน 1 ชุดควบคุมโดยไม่มีอีโลเดีย (พืชน้ำ) และ 3 กรรมวิธีที่มีอีโลเดียในปริมาณเท่ากัน วัตถุประสงค์ของการเพิ่มน้ำส้มสายชูคือการลดค่าความเป็นกรดด่าง สมมติฐานคือถังที่มีอีลาเดียจะกลับไปเป็นค่า pH ปกติที่เร็วขึ้น กรณีนี้เป็นจริง เราวัดค่า pH ของแต่ละถังเป็นเวลาประมาณสองสัปดาห์ ในที่สุดรถถังทั้งหมดก็กลับสู่ค่า pH ตามธรรมชาติของพวกเขา แต่ระยะเวลาที่ใช้ในการนี้นั้นสั้นกว่ามากสำหรับรถถังที่มีอีโลเดีย เมื่อเราบอกอาจารย์เกี่ยวกับการออกแบบการทดลองของเราเขากล่าวว่าไม่มีการทดสอบทางสถิติที่สามารถดำเนินการกับข้อมูลเพื่อเปรียบเทียบการควบคุมกับการรักษา นั่นเป็นเพราะไม่มีการจำลองแบบสำหรับการควบคุม (เราใช้ถังควบคุมเพียงตัวเดียว) เราไม่สามารถคำนวณความแปรปรวนได้ดังนั้นเราจึงไม่สามารถเปรียบเทียบค่าเฉลี่ยตัวอย่างของการควบคุมและการรักษา ดังนั้นคำถามของฉันคือจริงหรือไม่ ฉันเข้าใจความหมายของเขา ตัวอย่างเช่นหากคุณเพิ่มความสูงของชายคนหนึ่งและผู้หญิงหนึ่งคนคุณจะไม่สามารถสรุปได้เกี่ยวกับประชากรของพวกเขา แต่เราทำการรักษา 3 ครั้งและความแปรปรวนมีน้อย ดูเหมือนว่ามีเหตุผลที่จะสมมติว่าความแปรปรวนจะคล้ายกันในการควบคุม? ปรับปรุง: ขอบคุณสำหรับคำตอบที่ยอดเยี่ยม เราได้รับน้ำมากขึ้นและอีโลเดียจากพื้นที่ชุ่มน้ำและตัดสินใจว่าเราจะทำการทดลองอีกครั้งด้วยรถถังขนาดเล็ก แต่คราวนี้มี 5 การควบคุมและ 5 การบำบัด เรากำลังจะรวมสิ่งนี้กับข้อมูลดั้งเดิมของเรา แต่ค่าเริ่มต้นของรถถังนั้นแตกต่างกันมากจนดูเหมือนจะไม่ถูกต้องที่จะพิจารณาการทดลองใหม่ที่จะสุ่มตัวอย่างจากประชากรเดียวกันกับการทดลองดั้งเดิม เราพิจารณาการเพิ่มอีโลเดียในปริมาณที่แตกต่างกันและพยายามเชื่อมโยงความเร็วของการฟื้นฟูพีเอช (วัดเมื่อเวลาผ่านไปจนกระทั่งพีเอชกลับสู่ค่าดั้งเดิม) ด้วยอีโลเดีย แต่เราตัดสินใจว่าไม่จำเป็น วัตถุประสงค์ของเราเพียงเพื่อแสดงให้เห็นว่าอีโลเดียสร้างความแตกต่างในเชิงบวกไม่ใช่เพื่อสร้างแบบจำลองการทำนายบางอย่างสำหรับค่าพีเอชตอบสนองต่ออีลาเดียในปริมาณที่แตกต่างกันอย่างแท้จริง มันน่าสนใจที่จะกำหนดปริมาณที่เหมาะสมของอีโลเดีย แต่นั่นอาจเป็นแค่จำนวนสูงสุดที่สามารถอยู่รอดได้ การพยายามปรับเส้นโค้งการถดถอยให้เหมาะสมกับข้อมูลจะไม่ได้รับความกระจ่างเป็นพิเศษเนื่องจากการเปลี่ยนแปลงที่ซับซ้อนต่าง …

2
วิธีการทดสอบความแตกต่างระหว่างสองกลุ่มหมายถึงเมื่อข้อมูลไม่กระจายตามปกติ?
ฉันจะกำจัดรายละเอียดและการทดลองทางชีวภาพทั้งหมดและเสนอราคาเพียงปัญหาในมือและสิ่งที่ฉันทำทางสถิติ ฉันอยากจะรู้ว่ามันถูกต้องหรือไม่และจะทำอย่างไรต่อไป หากข้อมูล (หรือคำอธิบายของฉัน) ไม่ชัดเจนเพียงพอฉันจะพยายามอธิบายให้ดีขึ้นโดยแก้ไข สมมติว่าฉันมีสองกลุ่ม / สังเกต X และ Y มีขนาดNx=215Nx=215N_x=215และNy=40Ny=40N_y=40 40 ฉันต้องการทราบว่าค่าเฉลี่ยของการสังเกตทั้งสองนี้เท่ากันหรือไม่ คำถามแรกของฉันคือ: หากสมมติฐานเป็นที่พอใจจะต้องใช้การทดสอบสองตัวอย่างพารามิเตอร์ที่นี่? ฉันถามสิ่งนี้เพราะจากความเข้าใจของฉันมันมักจะใช้เมื่อขนาดเล็ก? ฉันพล็อตฮิสโทแกรมของทั้ง X และ Y และพวกมันไม่ได้กระจายตามปกติซึ่งเป็นหนึ่งในสมมติฐานของการทดสอบสองตัวอย่าง ความสับสนของฉันคือว่าฉันคิดว่าพวกเขาเป็นสองประชากรและนั่นคือเหตุผลที่ฉันตรวจสอบการกระจายปกติ แต่ฉันกำลังจะทำการทดสอบสองตัวอย่าง ... นี่ถูกไหม? จากทฤษฎีบทขีด จำกัด กลางฉันเข้าใจว่าถ้าคุณทำการสุ่มตัวอย่าง (โดยมี / ไม่มีการซ้ำซ้อนขึ้นอยู่กับขนาดประชากรของคุณ) หลาย ๆ ครั้งและคำนวณค่าเฉลี่ยของตัวอย่างในแต่ละครั้งมันจะกระจายโดยประมาณปกติ และค่าเฉลี่ยของตัวแปรสุ่มนี้จะเป็นการประมาณค่าเฉลี่ยของประชากรที่ดี ดังนั้นฉันจึงตัดสินใจทำทั้ง X และ Y 1,000 ครั้งและได้รับตัวอย่างและฉันกำหนดตัวแปรสุ่มให้กับค่าเฉลี่ยของแต่ละตัวอย่าง พล็อตนั้นกระจายตามปกติอย่างมาก ค่าเฉลี่ยของ X และ Y เท่ากับ 4.2 และ …

3
มีใครแก้ไข PTLOS แบบฝึกหัด 4.1 ได้บ้างไหม?
นี้การออกกำลังกายที่ได้รับในทฤษฎีความน่าจะเป็น: ตรรกะของวิทยาศาสตร์โดยเอ็ดวินเจย์นส์, ปี 2003 มีวิธีการแก้ปัญหาบางส่วนเป็นที่นี่ ฉันได้หาทางแก้ปัญหาบางส่วนที่กว้างขึ้นและสงสัยว่ามีคนอื่นแก้ไขมันได้ไหม ฉันจะรอสักครู่ก่อนโพสต์คำตอบของฉันเพื่อให้ผู้อื่นได้ไป เอาล่ะสมมติว่าเรามีnnnพิเศษร่วมกันและสมมติฐานหมดจดแสดงโดยHi(i=1,…,n)Hi(i=1,…,n)H_i \;\;(i=1,\dots,n) ) ต่อไปสมมติว่าเรามีชุดข้อมูลmmmแสดงโดยDj(j=1,…,m)Dj(j=1,…,m)D_j \;\;(j=1,\dots,m) ) อัตราส่วนความน่าจะเป็นสำหรับข้อสมมติฐานที่ i ถูกกำหนดโดย: LR(Hi)=P(D1D2…,Dm|Hi)P(D1D2…,Dm|H¯¯¯¯¯i)LR(Hi)=P(D1D2…,Dm|Hi)P(D1D2…,Dm|H¯i)LR(H_{i})=\frac{P(D_{1}D_{2}\dots,D_{m}|H_{i})}{P(D_{1}D_{2}\dots,D_{m}|\overline{H}_{i})} โปรดทราบว่าสิ่งเหล่านี้เป็นความน่าจะเป็นตามเงื่อนไข ตอนนี้สมมติว่าได้รับ ith สมมติฐานเมตรชุดข้อมูลมีความเป็นอิสระเพื่อให้เรามี:HiHiH_{i}mmm P(D1D2…,Dm|Hi)=∏j=1mP(Dj|Hi)(i=1,…,n)Condition 1P(D1D2…,Dm|Hi)=∏j=1mP(Dj|Hi)(i=1,…,n)Condition 1P(D_{1}D_{2}\dots,D_{m}|H_{i})=\prod_{j=1}^{m}P(D_{j}|H_{i}) \;\;\;\; (i=1,\dots,n)\;\;\;\text{Condition 1} ตอนนี้มันจะค่อนข้างสะดวกถ้าตัวหารยังรวมอยู่ในสถานการณ์นี้ด้วยดังนั้นเราจึงมี: P(D1D2…,Dm|H¯¯¯¯¯i)=∏j=1mP(Dj|H¯¯¯¯¯i)(i=1,…,n)Condition 2P(D1D2…,Dm|H¯i)=∏j=1mP(Dj|H¯i)(i=1,…,n)Condition 2P(D_{1}D_{2}\dots,D_{m}|\overline{H}_{i})=\prod_{j=1}^{m}P(D_{j}|\overline{H}_{i}) \;\;\;\; (i=1,\dots,n)\;\;\;\text{Condition 2} สำหรับในกรณีนี้อัตราส่วนความน่าจะเป็นแยกเป็นผลิตภัณฑ์ที่มีขนาดเล็กลงสำหรับแต่ละชุดข้อมูลดังนั้นเราจึงมี: LR(Hi)=∏j=1mP(Dj|Hi)P(Dj|H¯¯¯¯¯i)LR(Hi)=∏j=1mP(Dj|Hi)P(Dj|H¯i)LR(H_i)=\prod_{j=1}^{m}\frac{P(D_{j}|H_{i})}{P(D_{j}|\overline{H}_{i})} ดังนั้นในกรณีนี้แต่ละชุดข้อมูล "จะออกเสียงลงคะแนนสำหรับHiHiH_i " หรือ "โหวตกับHiHiH_i " เป็นอิสระจากชุดข้อมูลอื่น ๆ แบบฝึกหัดคือการพิสูจน์ว่าถ้าn&gt;2n&gt;2n>2 (มากกว่าสองข้อสมมุติ) ไม่มีวิธีที่ไม่น่าสนใจเช่นนี้ที่แฟคตอริ่งสามารถเกิดขึ้นได้ นั่นคือถ้าคุณสมมติว่าเงื่อนไข 1 และเงื่อนไข …

2
การทดสอบของนักเรียนเป็นการทดสอบแบบ Wald หรือไม่
การทดสอบของนักเรียนเป็นการทดสอบแบบ Wald หรือไม่ ผมได้อ่านคำอธิบายของการทดสอบ Wald จาก Wasserman ของทุกสถิติ สำหรับฉันแล้วการทดสอบ Wald รวมถึงการทดสอบ t ถูกต้องไหม ถ้าไม่มีอะไรทำให้การทดสอบแบบ t ไม่ใช่แบบทดสอบ Wald

1
ทำไมต้องใช้ ANOVA เลยแทนที่จะกระโดดเข้าสู่การทดสอบแบบโพสต์เฉพาะกิจหรือการวางแผนเปรียบเทียบ
เมื่อมองสถานการณ์ ANOVA ระหว่างกลุ่มคุณจะได้อะไรจากการทำแบบทดสอบ ANOVA ก่อนและหลังทำการทดสอบ (Bonferroni, Šidák ฯลฯ ) หรือการทดสอบเปรียบเทียบที่วางแผนไว้ ทำไมไม่ข้ามขั้นตอน ANOVA ทั้งหมด? ฉันรวบรวมว่าในสถานการณ์เช่นนี้ประโยชน์อย่างหนึ่งของ ANOVA ระหว่างกลุ่มคือความสามารถในการใช้ HSD ของ Tukey เป็นแบบทดสอบหลังเลิกเรียน หลังต้องการตารางภายในกลุ่มหมายถึงจากตาราง ANOVA เพื่อคำนวณข้อผิดพลาดมาตรฐานที่เกี่ยวข้อง แต่การปรับ Bonferroni และŠidákเป็นการทดสอบ t-unpaired นั้นไม่จำเป็นต้องมีการวิเคราะห์ ANOVA ใด ๆ ฉันอยากจะถามคำถามเดียวกันเกี่ยวกับสถานการณ์ ANOVA ภายในกลุ่ม ฉันรู้ว่าในกรณีเช่นนี้การทดสอบ HSD ของ Tukey ไม่ได้เป็นการพิจารณาที่เกี่ยวข้องทำให้คำถามนี้มีความกดดันมากขึ้น

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.