คำถามติดแท็ก hypothesis-testing

การทดสอบสมมติฐานจะประเมินว่าข้อมูลไม่สอดคล้องกับสมมติฐานที่กำหนดแทนที่จะเป็นผลของความผันผวนแบบสุ่มหรือไม่

8
จะทดสอบสมมติฐานที่ไม่มีความแตกต่างของกลุ่มได้อย่างไร?
ลองนึกภาพคุณมีการศึกษาที่มีสองกลุ่ม (เช่นชายและหญิง) ดูตัวแปรตามตัวเลข (เช่นคะแนนการทดสอบสติปัญญา) และคุณมีสมมติฐานว่าไม่มีความแตกต่างของกลุ่ม คำถาม: วิธีที่ดีในการทดสอบว่าไม่มีความแตกต่างของกลุ่มคืออะไร คุณจะกำหนดขนาดตัวอย่างที่จำเป็นในการทดสอบอย่างเพียงพอโดยไม่มีความแตกต่างของกลุ่มอย่างไร ความคิดเริ่มต้น: มันจะไม่เพียงพอที่จะทำแบบทดสอบ t-test เพราะความล้มเหลวในการปฏิเสธสมมติฐานว่างไม่ได้หมายความว่าพารามิเตอร์ของดอกเบี้ยมีค่าเท่ากับหรือใกล้เคียงกับศูนย์ โดยเฉพาะอย่างยิ่งกรณีที่มีตัวอย่างขนาดเล็ก ฉันสามารถดูช่วงความมั่นใจ 95% และตรวจสอบว่าค่าทั้งหมดอยู่ในช่วงที่มีขนาดเล็กพอสมควร อาจบวกหรือลบ 0.3 ส่วนเบี่ยงเบนมาตรฐาน

6
การเชื่อมต่อระหว่างภูมิภาคที่น่าเชื่อถือกับการทดสอบสมมติฐานแบบเบย์คืออะไร?
ในสถิติที่ใช้บ่อยมีการเชื่อมต่ออย่างใกล้ชิดระหว่างช่วงความมั่นใจและการทดสอบ ใช้การอนุมานเกี่ยวกับในการแจกแจงเป็นตัวอย่างช่วงเวลาความเชื่อมั่น มีค่าทั้งหมดของที่ไม่ได้ปฏิเสธโดย -test ที่ระดับนัยสำคัญ\N ( μ , σ 2 ) 1 - α ˉ x ± เสื้อα / 2 ( n - 1 ) ⋅ s / √μμ\muไม่มี( μ , σ2)ยังไม่มีข้อความ(μ,σ2)\rm N(\mu,\sigma^2)1 - α1-α1-\alpha μtαx¯± tα / 2( n - 1 ) ⋅ s / n--√x¯±เสื้อα/2(n-1)⋅s/n\bar{x}\pm t_{\alpha/2}(n-1)\cdot s/\sqrt{n}μμ\muเสื้อเสื้อtαα\alpha ช่วงความเชื่อมั่นบ่อยครั้งอยู่ในการทดสอบแบบคว่ำนี้ …

6
ขนาดผลเป็นสมมติฐานสำหรับการทดสอบอย่างมีนัยสำคัญ
วันนี้ที่สโมสรวารสารที่ผ่านการตรวจสอบความถูกต้องของไขว้ (ทำไมคุณไม่อยู่ที่นั่น?) @mbq ถาม: คุณคิดว่าพวกเรา (นักวิทยาศาสตร์ด้านข้อมูลสมัยใหม่) รู้หรือไม่ว่าความหมายสำคัญคืออะไร? และเกี่ยวข้องกับความมั่นใจในผลลัพธ์ของเราอย่างไร @ มิเชลตอบว่าบางคน (รวมถึงฉัน) มักจะทำ: ฉันค้นหาแนวคิดของความสำคัญ (ตามค่า p) มีประโยชน์น้อยลงเรื่อย ๆ เมื่อฉันทำงานต่อไป ตัวอย่างเช่นฉันสามารถใช้ชุดข้อมูลที่มีขนาดใหญ่มากดังนั้นทุกอย่างมีความสำคัญทางสถิติ ( p &lt; .01พี&lt;.01p<.01 ) นี่อาจเป็นคำถามที่งี่เง่า แต่ไม่ใช่ปัญหาที่การทดสอบสมมติฐานใช่หรือไม่ ถ้าคุณทดสอบสมมุติฐานว่าง "A เท่ากับ B" คุณก็รู้คำตอบคือ "ไม่" ชุดข้อมูลที่ใหญ่กว่าจะนำคุณเข้าใกล้ข้อสรุปที่แท้จริงอย่างหลีกเลี่ยงไม่ได้เท่านั้น ฉันเชื่อว่ามันคือเดมิงที่เคยยกตัวอย่างกับสมมติฐาน "จำนวนขนที่อยู่ทางด้านขวาของลูกแกะเท่ากับจำนวนขนที่อยู่ทางซ้าย" แน่นอนว่าไม่ใช่ สมมติฐานที่ดีกว่าคือ "A ไม่แตกต่างจาก B มากกว่ามาก" หรือในตัวอย่างเนื้อแกะ "จำนวนขนที่ด้านข้างของแกะไม่แตกต่างกันเกิน X%" มันสมเหตุสมผลหรือไม่

8
เป็นไปได้หรือไม่ที่จะพิสูจน์สมมติฐานว่าง?
คำถามดังกล่าวเป็นไปได้หรือไม่ที่จะพิสูจน์สมมติฐานว่าง? จากความเข้าใจของฉันเกี่ยวกับสมมติฐานที่ จำกัด คำตอบคือไม่ แต่ฉันไม่สามารถอธิบายได้อย่างแม่นยำ คำถามมีคำตอบที่ชัดเจนหรือไม่?

1
เหตุใดค่า p ของฉันจึงแตกต่างกันระหว่างเอาต์พุตการถดถอยโลจิสติกการทดสอบไคสแควร์และช่วงความมั่นใจสำหรับ OR
ฉันได้สร้างการถดถอยโลจิสติกที่ตัวแปรผลลัพธ์จะหายหลังจากได้รับการรักษา ( CureเทียบกับNo Cure) ผู้ป่วยทั้งหมดในการศึกษานี้ได้รับการรักษา ฉันสนใจที่จะดูว่ามีโรคเบาหวานเกี่ยวข้องกับผลลัพธ์นี้หรือไม่ ใน R ผลลัพธ์การถดถอยโลจิสติกของฉันมีลักษณะดังนี้: Call: glm(formula = Cure ~ Diabetes, family = binomial(link = "logit"), data = All_patients) ... Coefficients: Estimate Std. Error z value Pr(&gt;|z|) (Intercept) 1.2735 0.1306 9.749 &lt;2e-16 *** Diabetes -0.5597 0.2813 -1.990 0.0466 * ... Null deviance: 456.55 on 415 degrees …

3
Bootstrap vs. การทดสอบสมมติฐานการเปลี่ยนลำดับ
มีเทคนิคการสุ่มตัวอย่างที่นิยมใช้กันหลายครั้งซึ่งมักใช้ในทางปฏิบัติเช่น bootstrapping, permutation test, jackknife เป็นต้นมีบทความและหนังสือจำนวนมากที่พูดถึงเทคนิคเหล่านี้เช่นPhilip I Good (2010) Permutation, Parametric และ Bootstrap Tests ของสมมติฐาน คำถามของฉันคือเทคนิคการสุ่มตัวอย่างแบบใดที่ได้รับความนิยมและง่ายต่อการใช้งานมากขึ้น การทดสอบการบูตหรือการเปลี่ยนรูป?

5
ค่า p ไม่มีประโยชน์และอันตรายต่อการใช้งานหรือไม่?
บทความ " The Odds, อัพเดทอย่างต่อเนื่อง" จาก NY Timesเกิดขึ้นเพื่อดึงดูดความสนใจของฉัน จะสั้นก็กล่าวว่า [สถิติแบบเบย์] พิสูจน์ให้เห็นแล้วว่ามีประโยชน์อย่างยิ่งในการเข้าถึงปัญหาที่ซับซ้อนรวมถึงการค้นหาเช่น Coast Guard ที่ใช้ในปี 2013 เพื่อค้นหาชาวประมงที่ขาดหายไป John Aldridge (แม้ว่าจะยังไม่ถึงตอนนี้ก็ตาม ...... สถิติแบบเบย์กำลังกระเพื่อมผ่านทุกสิ่งตั้งแต่ฟิสิกส์จนถึงการวิจัยมะเร็งนิเวศวิทยาจนถึงจิตวิทยา ... ในบทความนี้ยังมีการวิพากษ์วิจารณ์เกี่ยวกับค่า p ของผู้ถี่ประจำเช่น: ผลลัพธ์มักจะถูกพิจารณาว่า“ มีนัยสำคัญทางสถิติ” ถ้าค่า p น้อยกว่า 5 เปอร์เซ็นต์ แต่มีอันตรายในประเพณีนี้ Andrew Gelman ศาสตราจารย์ด้านสถิติของโคลัมเบียกล่าว แม้ว่านักวิทยาศาสตร์จะทำการคำนวณอย่างถูกต้องเสมอ - และพวกเขาไม่ทำเขาให้เหตุผล - ยอมรับทุกสิ่งด้วยค่า p-value 5 เปอร์เซ็นต์ซึ่งหมายความว่าหนึ่งใน 20 ของผลลัพธ์“ นัยสำคัญทางสถิติ” ไม่มีอะไรเลยนอกจากเสียงรบกวนแบบสุ่ม นอกจากนี้ข้างต้นบางทีกระดาษที่มีชื่อเสียงที่สุดที่วิจารณ์ p-value …

3
การตีความค่า p-value ในการทดสอบสมมติฐาน
ฉันเพิ่งมาข้ามกระดาษ"การไม่มีความหมายของสมมติฐานสำคัญการทดสอบ" เจฟฟ์กิลล์ (1999) ผู้เขียนยกความเข้าใจผิดที่พบบ่อยเกี่ยวกับการทดสอบสมมติฐานและค่า p ซึ่งฉันมีสองคำถามที่เฉพาะเจาะจง: P-ค่าเป็นเทคนิคซึ่งเป็นออกแหลมกระดาษโดยทั่วไปไม่ได้บอกเราอะไรเกี่ยวกับ , นอกเสียจากว่าเราจะรู้ว่าการแจกแจงส่วนเพิ่มซึ่งไม่ค่อยเกิดขึ้นในการทดสอบสมมติฐาน "ทุกวัน" เมื่อเราได้ค่า p-value ขนาดเล็กและ "ปฏิเสธสมมติฐานว่าง" อะไรคือข้อความที่น่าจะเป็นที่เราทำเพราะเราไม่สามารถพูดอะไรเกี่ยวกับ ?P(observation|H0)P(observation|H0)P({\rm observation}|H_{0})P(H0|observation)P(H0|observation)P(H_{0}|{\rm observation})P(H0|observation)P(H0|observation)P(H_{0}|{\rm observation}) คำถามที่สองเกี่ยวข้องกับข้อความเฉพาะจากหน้า 6 (652) ของกระดาษ: เนื่องจากค่า p-value หรือช่วงของค่า p ที่ระบุโดยดวงดาวไม่ได้ถูกตั้งค่ามาก่อนจึงไม่ใช่ความน่าจะเป็นในระยะยาวที่จะทำให้เกิดข้อผิดพลาดประเภทที่ 1 แต่โดยทั่วไปถือว่าเป็นเช่นนั้น ใครสามารถช่วยอธิบายสิ่งที่มีความหมายโดยคำสั่งนี้

7
ทำไมสมมติฐานว่างจึงมักถูกปฏิเสธ?
ฉันหวังว่าฉันจะเข้ากับชื่อได้ บ่อยครั้งที่สมมติฐานว่างถูกสร้างขึ้นด้วยความตั้งใจที่จะปฏิเสธมัน มีเหตุผลสำหรับสิ่งนี้หรือเป็นเพียงแค่การประชุมหรือไม่?

5
การทดสอบความสัมพันธ์อัตโนมัติ: Ljung-Box กับ Breusch-Godfrey
ฉันเคยเห็นการทดสอบ Ljung-Box ใช้ค่อนข้างบ่อยสำหรับการทดสอบความสัมพันธ์อัตโนมัติในข้อมูลดิบหรือในแบบจำลองที่เหลือ ฉันเกือบลืมไปแล้วว่ามีการทดสอบความสัมพันธ์แบบอัตโนมัติอีกครั้งหนึ่งนั่นคือการทดสอบ Breusch-Godfrey คำถาม:อะไรคือความแตกต่างที่สำคัญและความเหมือนกันของการทดสอบ Ljung-Box และ Breusch-Godfrey และเมื่อใดที่หนึ่งจะได้รับความนิยมมากกว่าอื่น ๆ ? (ยินดีต้อนรับการอ้างอิงอย่างใดฉันไม่สามารถหาการเปรียบเทียบใด ๆของการทดสอบทั้งสองแม้ว่าฉันจะดูในหนังสือสองสามเล่มและค้นหาเนื้อหาออนไลน์ฉันสามารถหาคำอธิบายของการทดสอบแต่ละครั้งแยกกันแต่สิ่งที่ฉันสนใจคือ การเปรียบเทียบของทั้งสอง)

4
การทดสอบสมมติฐานด้วยเหตุผลเดียว
ฉันเข้าใจการทดสอบสมมติฐานแบบสองด้าน คุณมี (เทียบกับ ) -value คือน่าจะเป็นที่สร้างข้อมูลอย่างน้อยเป็นอย่างมากกับสิ่งที่เป็นข้อสังเกตH 1 = ¬ H 0 : θ ≠ θ 0 p θH0:θ=θ0H0:θ=θ0H_0 : \theta = \theta_0H1=¬H0:θ≠θ0H1=¬H0:θ≠θ0H_1 = \neg H_0 : \theta \ne \theta_0pppθθ\theta ฉันไม่เข้าใจการทดสอบสมมติฐานแบบเดียว ที่นี่ (เทียบกับ ) คำจำกัดความของ p-value ไม่ควรเปลี่ยนแปลงจากด้านบน: มันควรเป็นความน่าจะเป็นที่สร้างข้อมูลอย่างน้อยที่สุดเท่าที่จะสังเกตได้ แต่เราไม่ได้รู้ว่าเพียงว่ามันบนล้อมรอบด้วย\H 1 = ¬ H 0 : θ &gt; θ 0 θ θ …

3
ความขัดแย้งที่มีนัยสำคัญในการถดถอยเชิงเส้น: t-test อย่างมีนัยสำคัญสำหรับสัมประสิทธิ์เทียบกับ F-statistic โดยรวมที่ไม่สำคัญ
ฉันเหมาะสมกับโมเดลการถดถอยเชิงเส้นหลายแบบระหว่างตัวแปรเด็ดขาด 4 อัน (แต่ละระดับมี 4 ระดับ) และเอาต์พุตตัวเลข ชุดข้อมูลของฉันมีข้อสังเกต 43 ข้อ การถดถอยทำให้ผมมีดังต่อไปนี้ -values จาก -test สำหรับทุกค่าสัมประสิทธิ์ความลาดชัน:0.02 ดังนั้นสัมประสิทธิ์สำหรับตัวทำนายที่ 4 จึงมีนัยสำคัญที่ระดับความเชื่อมั่นpppttt.15,.67,.27,.02.15,.67,.27,.02.15, .67, .27, .02α=.05α=.05\alpha = .05 ในทางกลับกันการถดถอยให้จากการทดสอบโดยรวมของสมมติฐานว่างที่สัมประสิทธิ์ความชันของฉันทั้งหมดเท่ากับศูนย์ สำหรับชุดข้อมูลของฉันนี้คือ.pppFFFppp.11.11.11 คำถามของฉัน: ฉันจะตีความผลลัพธ์เหล่านี้ได้อย่างไร ซึ่ง -value ฉันควรใช้และทำไม? สัมประสิทธิ์สำหรับตัวแปรที่ 4 แตกต่างจากที่ระดับความเชื่อมั่นหรือไม่?ppp000α=.05α=.05\alpha = .05 ผมเคยเห็นคำถามที่เกี่ยวข้อง,และสถิติในการถดถอยแต่มีสถานการณ์ตรงข้าม: สูง -test -values และต่ำ -test -value จริง ๆ แล้วฉันไม่เข้าใจว่าทำไมเราถึงต้องการการทดสอบแบบนอกเหนือจากการทดสอบแบบเพื่อดูว่าสัมประสิทธิ์การถดถอยเชิงเส้นแตกต่างจากศูนย์อย่างมีนัยสำคัญหรือไม่FFFttttttpppFFFpppFFFttt

3
เหตุใดจึงมีความแตกต่างระหว่างการคำนวณช่วงความเชื่อมั่นแบบโลจิสติก 95% ด้วยตนเองและการใช้ฟังก์ชัน confint () ใน R
เรียนคุณทุกคน - ฉันสังเกตเห็นบางสิ่งแปลก ๆ ที่ไม่สามารถอธิบายได้ไหม โดยสรุป: แนวทางแบบแมนนวลเพื่อคำนวณช่วงความมั่นใจในโมเดลการถดถอยโลจิสติกและฟังก์ชัน R confint()ให้ผลลัพธ์ที่แตกต่างกัน ฉันเคยผ่านการถดถอยโลจิสติกประยุกต์ของ Hosmer &amp; Lemeshow แล้ว (ฉบับที่ 2) ในบทที่ 3 มีตัวอย่างของการคำนวณอัตราส่วนอัตราต่อรองและช่วงความมั่นใจ 95% ด้วย R ฉันสามารถสร้างโมเดลได้อย่างง่ายดาย: Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

2
ทำความเข้าใจกับค่า p
ฉันรู้ว่ามีวัสดุมากมายที่อธิบายค่า p อย่างไรก็ตามแนวคิดไม่ใช่เรื่องง่ายที่จะเข้าใจอย่างแน่นหนาโดยไม่ต้องชี้แจงเพิ่มเติม นี่คือคำจำกัดความของ p-value จาก Wikipedia: p-value คือความน่าจะเป็นที่จะได้รับสถิติการทดสอบอย่างน้อยที่สุดเท่าที่จะสังเกตได้จริงโดยสมมติว่าสมมติฐานว่างเป็นจริง ( http://en.wikipedia.org/wiki/P-value ) คำถามแรกของฉันเกี่ยวข้องกับการแสดงออก "อย่างน้อยที่สุดเท่าที่สังเกตได้จริง ๆ " ความเข้าใจของฉันเกี่ยวกับตรรกะที่ใช้ p-value มีดังต่อไปนี้: ถ้า p-value มีขนาดเล็กมันไม่น่าเป็นไปได้ที่การสังเกตจะเกิดขึ้นโดยสมมุติฐานว่างและเราอาจต้องการสมมติฐานทางเลือกเพื่ออธิบายการสังเกต หากค่า p-value ไม่เล็กอาจเป็นไปได้ว่าการสังเกตเกิดขึ้นเพียงสมมติว่าสมมติฐานว่างเปล่าและไม่จำเป็นต้องใช้สมมติฐานทางเลือกเพื่ออธิบายการสังเกต ดังนั้นถ้ามีคนต้องการยืนยันสมมติฐานเขา / เธอต้องแสดงว่าค่า p ของสมมติฐานว่างนั้นเล็กมาก เมื่อคำนึงถึงมุมมองนี้ความเข้าใจของฉันเกี่ยวกับนิพจน์ที่ไม่ชัดเจนคือ p-value คือmin[P(X&lt;x),P(x&lt;X)]min[P(X&lt;x),P(x&lt;X)]\min[P(X<x),P(x<X)]ถ้า PDF ของสถิติเป็น unimodal โดยที่XXXคือสถิติทดสอบและxxxคือค่าที่ได้จากการสังเกต ถูกต้องหรือไม่ ถ้ามันถูกต้องมันยังใช้กับ PDF bimodal ของสถิติได้หรือไม่? หากยอดเขาสองอันของ PDF ถูกแยกออกจากกันอย่างดีและค่าที่สังเกตนั้นอยู่ที่ไหนสักแห่งในบริเวณความหนาแน่นของความน่าจะเป็นต่ำระหว่างสองยอดเขา p-value ช่วงใดให้ความน่าจะเป็น คำถามที่สองเป็นเรื่องเกี่ยวกับความหมายของ p-value จาก …

4
ต้นกำเนิดของเกณฑ์“ 5
รายงานข่าวกล่าวว่าเซิร์นจะมีการประกาศในวันพรุ่งนี้ว่าฮิกส์โบซอนได้รับการตรวจทดลอง 5 หลักฐาน อ้างอิงจากบทความ:σσ\sigma 5 เท่ากับโอกาส 99.99994% ที่ข้อมูลที่เครื่องตรวจจับ CMS และ ATLAS กำลังเห็นไม่ใช่แค่เสียงสุ่ม - และมีโอกาส 0.00006% ที่พวกเขาได้รับการกระพริบ 5 σเป็นความมั่นใจที่จำเป็นสำหรับบางสิ่งบางอย่างที่จะระบุว่าเป็น“ การค้นพบทางวิทยาศาสตร์” อย่างเป็นทางการσσ\sigmaσσ\sigma สิ่งนี้ไม่ได้เข้มงวดมากนัก แต่ดูเหมือนว่านักฟิสิกส์ใช้วิธีการทางสถิติแบบ "การทดสอบสมมติฐาน" มาตรฐานโดยตั้งค่าเป็น0.0000006ซึ่งสอดคล้องกับz = 5 (แบบสองด้าน)? หรือมีความหมายอื่น ๆ บ้าง?αα\alpha0.00000060.00000060.0000006z=5z=5z=5 แน่นอนว่าในทางวิทยาศาสตร์ส่วนใหญ่การตั้งค่าอัลฟ่าเป็น 0.05 จะทำเป็นประจำ นี่จะเทียบเท่ากับหลักฐาน"two- " ถึงแม้ว่าฉันไม่เคยได้ยินชื่อนี้มาก่อน มีสาขาอื่น ๆ (นอกเหนือจากฟิสิกส์ของอนุภาค) ที่คำจำกัดความที่เข้มงวดกว่าของอัลฟ่าเป็นมาตรฐานหรือไม่? ใครทราบข้อมูลอ้างอิงสำหรับวิธีการที่ห้าσกฎได้รับการยอมรับจากฟิสิกส์ของอนุภาค?σσ\sigmaσσ\sigma ปรับปรุง:ฉันถามคำถามนี้ด้วยเหตุผลง่ายๆ หนังสือของฉันชีวสถิติที่ใช้งานง่าย (เช่นหนังสือสถิติส่วนใหญ่) มีส่วนที่อธิบายว่ากฎ "P &lt;0.05" ตามปกติคืออะไร ฉันต้องการเพิ่มตัวอย่างของเขตข้อมูลทางวิทยาศาสตร์ที่จำเป็นต้องใช้ค่าที่น้อยกว่า (มาก!) …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.