คำถามติดแท็ก confidence-interval

ช่วงความมั่นใจคือช่วงเวลาที่ครอบคลุมพารามิเตอร์ที่ไม่รู้จักด้วยความมั่นใจ ช่วงความเชื่อมั่นเป็นแนวคิดที่ใช้บ่อย พวกเขามักจะสับสนกับช่วงเวลาที่น่าเชื่อถือซึ่งเป็นแบบอะนาล็อกเบย์ (1α)%

3
ความสัมพันธ์ระหว่างช่วงความมั่นใจและการทดสอบสมมติฐานทางสถิติสำหรับการทดสอบที
เป็นที่ทราบกันดีว่าช่วงความมั่นใจและการทดสอบสมมติฐานทางสถิติมีความสัมพันธ์กันอย่างมาก คำถามของฉันมุ่งเน้นไปที่การเปรียบเทียบค่าเฉลี่ยสำหรับสองกลุ่มโดยยึดตามตัวแปรตัวเลข สมมุติว่าสมมุติฐานนั้นถูกทดสอบโดยใช้ t-test ในอีกด้านหนึ่งเราสามารถคำนวณช่วงความมั่นใจสำหรับค่าเฉลี่ยของทั้งสองกลุ่ม มีความสัมพันธ์ระหว่างการทับซ้อนกันของช่วงความเชื่อมั่นและการปฏิเสธสมมติฐานว่างที่หมายถึงว่ามีความเท่าเทียมกันหรือไม่ ตัวอย่างเช่นการทดสอบอาจปฏิเสธสมมติฐานว่างถ้าช่วงความเชื่อมั่นไม่ทับซ้อนกัน

4
เป็นความจริงหรือไม่ที่ไม่ควรใช้ bootstrap เปอร์เซ็นไทล์?
ใน MIT OpenCourseWare บันทึกสำหรับ 18.05 ความน่าจะเป็นและสถิติเบื้องต้นฤดูใบไม้ผลิ 2014 (ปัจจุบันมีให้บริการที่นี่ ) ระบุว่า: วิธีบูตสแตรปเปอร์เซ็นไทล์น่าดึงดูดเนื่องจากความเรียบง่าย แต่มันขึ้นอยู่กับการกระจายของบูตอยู่บนพื้นฐานโดยเฉพาะอย่างยิ่งกลุ่มตัวอย่างเป็นประมาณการที่ดีการกระจายที่แท้จริงของ{x} ข้าวกล่าวว่าจากวิธีเปอร์เซ็นต์ "แม้ว่านี้สมโดยตรงของ quantiles ของการกระจายบูตสุ่มตัวอย่างกับข้อ จำกัด ของความเชื่อมั่นอาจจะดูเหมือนเป็นครั้งแรกที่น่าสนใจของมันเหตุผลค่อนข้างปิดบัง." [2] ในระยะสั้นไม่ได้ใช้บูตเปอร์เซ็นต์วิธีการ ใช้ bootstrap เชิงประจักษ์แทน (เราได้อธิบายทั้งสองด้วยความหวังว่าคุณจะไม่สับสน bootstrap เชิงประจักษ์สำหรับ bootstrap เปอร์เซ็นไทล์) ˉ xx¯* * * *x¯∗\bar{x}^{*}x¯x¯\bar{x} [2] John Rice สถิติคณิตศาสตร์และการวิเคราะห์ข้อมูลรุ่นที่ 2 หน้า 272 หลังจากค้นหาออนไลน์นิดหน่อยนี่เป็นคำพูดเดียวที่ฉันได้พบว่ารัฐไหนที่ไม่ควรใช้ bootstrap เปอร์เซ็นไทล์ สิ่งที่ฉันจำได้จากการอ่านข้อความหลักการและทฤษฎีสำหรับการทำเหมืองข้อมูลและการเรียนรู้ของเครื่องโดย Clarke et al. นั่นคือเหตุผลหลักสำหรับ bootstrapping คือข้อเท็จจริงที่ว่า …

6
หากช่วงเวลาที่เชื่อถือได้มีค่าคงที่ก่อนหน้านี้ช่วงความมั่นใจ 95% เท่ากับช่วงเวลาที่เชื่อถือได้ 95% หรือไม่
ฉันใหม่มากกับสถิติแบบเบย์และนี่อาจเป็นคำถามที่โง่ อย่างไรก็ตาม: พิจารณาช่วงเวลาที่น่าเชื่อถือด้วยค่าก่อนหน้าซึ่งระบุการแจกแจงแบบสม่ำเสมอ ตัวอย่างเช่นจาก 0 ถึง 1 โดยที่ 0 ถึง 1 แสดงถึงช่วงเต็มของค่าที่เป็นไปได้ของเอฟเฟกต์ ในกรณีนี้ช่วงเวลาที่เชื่อถือได้ 95% จะเท่ากับช่วงความมั่นใจ 95% หรือไม่

2
ช่วงความเชื่อมั่น 50% มีการประเมินอย่างมีประสิทธิภาพมากกว่าช่วงความเชื่อมั่น 95% หรือไม่
คำถามของฉันไหลออกมาจากความคิดเห็นนี้ในบล็อกโพสต์ของ Andrew Gelman ซึ่งเขาสนับสนุนให้ใช้ช่วงความเชื่อมั่น 50% แทนที่จะเป็นช่วงความมั่นใจ 95% แม้ว่าจะไม่ใช่ในกรณีที่พวกเขามีการประเมินที่แข็งแกร่งกว่า: ฉันชอบช่วงเวลา 50% ถึง 95% ด้วยเหตุผล 3 ประการ: ความมั่นคงในการคำนวณ การประเมินที่ใช้งานง่ายขึ้น (ช่วงเวลาครึ่งหนึ่ง 50% ควรมีค่าจริง) ความรู้สึกที่ว่าในการประยุกต์ใช้มันจะเป็นการดีที่สุดที่จะได้ความรู้สึกว่าพารามิเตอร์และค่าที่คาดการณ์นั้นจะอยู่ที่ใด ความคิดเห็นของผู้วิจารณ์ดูเหมือนว่าปัญหาของสมมติฐานที่สร้างช่วงความเชื่อมั่นจะมีผลกระทบมากกว่าถ้าเป็น 95% CI มากกว่าถ้าเป็น 50% CI อย่างไรก็ตามเขาไม่ได้อธิบายว่าทำไม [... ] เมื่อคุณเข้าสู่ช่วงเวลาที่กว้างขึ้นคุณจะไวต่อรายละเอียดหรือสมมติฐานของโมเดลของคุณมากขึ้น ตัวอย่างเช่นคุณจะไม่เชื่อว่าคุณได้ระบุช่วงเวลา 99.9995% อย่างถูกต้อง หรืออย่างน้อยนั่นคือสัญชาตญาณของฉัน ถ้ามันถูกต้องก็ให้เหตุผลว่า 50 เปอร์เซ็นต์ควรจะดีกว่าประมาณ 95% หรืออาจประมาณว่า "แข็งแกร่งขึ้น" เนื่องจากมีความไวต่อข้อสันนิษฐานเกี่ยวกับเสียงน้อยกว่า จริงหรือเปล่า? ทำไม / ทำไมไม่

2
มีช่วงความเชื่อมั่นที่ไม่ใช่พารามิเตอร์ที่เชื่อถือได้สำหรับค่าเฉลี่ยของการแจกแจงแบบเบ้หรือไม่?
การแจกแจงแบบเบ้อย่างมากเช่นบันทึกปกติไม่ส่งผลให้ช่วงความมั่นใจในการบูตที่ถูกต้องแม่นยำ นี่คือตัวอย่างที่แสดงว่าบริเวณหางด้านซ้ายและขวาอยู่ห่างจากอุดมคติในอุดมคติ 0.025 ไม่ว่าคุณจะลองใช้วิธีบูตสแตรปแบบใดใน R: require(boot) n <- 25 B <- 1000 nsim <- 1000 set.seed(1) which <- c('basic', 'perc', 'norm', 'bca', 'stud') mul <- 0; sdl <- 1.65 # on log scale dist <- c('normal', 'lognormal')[2] switch(dist, normal = {g <- function(x) x; mu <- mul}, lognormal = {g …

6
ช่วงความมั่นใจจะมีประโยชน์เมื่อใด
ถ้าฉันเข้าใจอย่างถูกต้องช่วงความเชื่อมั่นของพารามิเตอร์คือช่วงเวลาที่สร้างขึ้นโดยวิธีการที่ให้ช่วงเวลาที่มีค่าจริงสำหรับสัดส่วนตัวอย่างที่ระบุ ดังนั้น 'ความมั่นใจ' เป็นเรื่องเกี่ยวกับวิธีการมากกว่าช่วงเวลาที่ฉันคำนวณจากตัวอย่างเฉพาะ ในฐานะผู้ใช้งานของสถิติฉันรู้สึกว่าถูกโกงอยู่เสมอเนื่องจากพื้นที่ของกลุ่มตัวอย่างทั้งหมดเป็นสมมุติฐาน ทั้งหมดที่ฉันมีคือตัวอย่างหนึ่งและฉันต้องการรู้ว่าตัวอย่างนั้นบอกอะไรฉันเกี่ยวกับพารามิเตอร์ การตัดสินนี้ผิดหรือเปล่า? มีวิธีการดูช่วงความมั่นใจอย่างน้อยในบางสถานการณ์ซึ่งจะมีความหมายต่อผู้ใช้สถิติหรือไม่ [คำถามนี้เกิดขึ้นจากความคิดที่สองหลังจากหยุดใช้ช่วงความเชื่อมั่นในคำตอบ math.se https://math.stackexchange.com/questions/7564/calculating-a-sample-size-based-on-a-confidence-level/7572 # 7572 ]

6
การประมาณช่วงความเชื่อมั่นแบบทวินาม - ทำไมมันไม่สมมาตร
ฉันใช้โค้ด r ต่อไปนี้เพื่อประมาณช่วงความเชื่อมั่นของสัดส่วนทวินามเพราะฉันเข้าใจว่าการแทนที่ "การคำนวณกำลังไฟฟ้า" เมื่อออกแบบตัวรับสัญญาณที่มีลักษณะการตรวจหาโรคในประชากร n คือ 150 และเราเชื่อว่าโรคนี้เป็นที่แพร่หลายในประชากร 25% ฉันคำนวณค่าความไว 75% และความเฉพาะเจาะจง 90% (เพราะนั่นคือสิ่งที่ผู้คนดูเหมือนจะทำ) binom.test(c(29,9), p=0.75, alternative=c("t"), conf.level=0.95) binom.test(c(100, 12), p=0.90, alternative=c("t"), conf.level=0.95) ฉันเคยไปที่ไซต์นี้: http://statpages.org/confint.html หน้าใดที่เป็นจาวาซึ่งคำนวณช่วงความเชื่อมั่นทวินามและให้คำตอบเดียวกัน อย่างไรก็ตามหลังจากการตั้งค่าแบบยาวนั้นฉันต้องการถามว่าทำไมช่วงความเชื่อมั่นจึงไม่สมมาตรเช่นความไวคือ 95 percent confidence interval: 0.5975876 0.8855583 sample estimate probability: 0.7631579 ขออภัยถ้านี่เป็นคำถามที่โง่ แต่ทุกที่ที่ฉันมองดูเหมือนจะแนะนำว่าพวกเขาจะสมมาตรและเพื่อนร่วมงานของฉันดูเหมือนจะคิดว่าพวกเขาจะเกินไป

5
วิธีจัดการกับข้อมูลแบบลำดับชั้น / ซ้อนในการเรียนรู้ของเครื่อง
ฉันจะอธิบายปัญหาด้วยตัวอย่าง สมมติว่าคุณต้องการที่จะทำนายรายได้ของแต่ละบุคคลที่มีคุณลักษณะบางอย่าง: {อายุ, เพศ, ประเทศ, ภูมิภาค, เมือง} คุณมีชุดข้อมูลการฝึกอบรมเช่นนั้น train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

2
การปฏิเสธสมมติฐานโดยใช้ p-value เทียบเท่ากับสมมติฐานที่ไม่ได้อยู่ในช่วงความเชื่อมั่นหรือไม่?
ในขณะที่ได้รับช่วงความเชื่อมั่นอย่างเป็นทางการของการประเมินฉันลงเอยด้วยสูตรที่คล้ายกับวิธีคำนวณค่าppp ดังนั้นคำถาม: พวกเขาเทียบเท่าอย่างเป็นทางการ? Ie กำลังปฏิเสธสมมติฐานมีค่าวิกฤตเทียบเท่ากับไม่ได้อยู่ในช่วงความเชื่อมั่นที่มีค่าวิกฤต ?α 0 αH0=0H0=0H_0 = 0αα\alpha000αα\alpha

3
R: การสุ่มฟอเรสต์การโยน NaN / Inf ในข้อผิดพลาด“ การเรียกฟังก์ชันต่างประเทศ” แม้จะไม่มีชุดข้อมูลของ NaN [ปิด]
ฉันใช้คาเร็ตเพื่อรันฟอเรสต์แบบสุ่มที่ผ่านการตรวจสอบความถูกต้องข้ามชุดข้อมูล ตัวแปร Y เป็นปัจจัย ไม่มีชุดข้อมูลของ NaN, Inf's หรือ NA ในชุดข้อมูลของฉัน อย่างไรก็ตามเมื่อใช้ป่าสุ่มฉันได้รับ Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs …

3
ความแตกต่างระหว่างช่วงความมั่นใจและการทดสอบสมมติฐานคืออะไร
ฉันได้อ่านเกี่ยวกับการถกเถียงเกี่ยวกับการทดสอบสมมติฐาน กับนักวิจารณ์บางคนเสนอว่าไม่ควรใช้การทดสอบสมมติฐาน นักวิจารณ์บางคนแนะนำว่าควรใช้ช่วงความมั่นใจแทน ความแตกต่างระหว่างช่วงความมั่นใจและการทดสอบสมมติฐานคืออะไร คำอธิบายที่มีการอ้างอิงและตัวอย่างจะได้รับการชื่นชม

2
จะสร้างช่วงความมั่นใจ 95% ของความแตกต่างระหว่างค่ามัธยฐานได้อย่างไร
ปัญหาของฉัน: กลุ่มทดลองแบบสุ่มมีการแจกแจงเบ้อย่างถูกต้องของผลลัพธ์หลัก ฉันไม่ต้องการใช้กฎเกณฑ์ปกติและใช้ CIs พื้นฐาน 95% (เช่นใช้ 1.96 X SE) ฉันรู้สึกสะดวกสบายที่จะแสดงการวัดแนวโน้มกลางว่าเป็นค่ามัธยฐาน แต่คำถามของฉันคือวิธีการสร้าง 95% CI ของความแตกต่างในค่ามัธยฐานระหว่างสองกลุ่ม สิ่งแรกที่อยู่ในใจคือ bootstrapping (ลองสุ่มใหม่พร้อมการแทนที่กำหนดค่ามัธยฐานในแต่ละกลุ่มและลบหนึ่งจากกลุ่มอื่นทำซ้ำ 1,000 ครั้งและใช้ Bias ที่ได้รับการแก้ไข 95%) นี่เป็นวิธีที่ถูกต้องหรือไม่? ข้อเสนอแนะอื่น ๆ ?

2
เราควรจะปรับการเปรียบเทียบหลายรายการเมื่อใช้ช่วงความมั่นใจหรือไม่
สมมติว่าเรามีการเปรียบเทียบสถานการณ์หลายอย่างเช่นการโพสต์เฉพาะกิจการอนุมานทางสถิติที่คู่หรือเหมือนการถดถอยพหุคูณที่เราจะทำทั้งหมดmmmเปรียบเทียบ สมมติว่าเราต้องการสนับสนุนการอนุมานในทวีคูณเหล่านี้โดยใช้ช่วงความมั่นใจ 1. เราใช้การปรับเปรียบเทียบหลายรายการกับ CIs หรือไม่ นั่นคือเช่นเดียวกับการเปรียบเทียบหลายครั้งบังคับให้นิยามใหม่ของαα\alphaกับอัตราข้อผิดพลาดที่ครอบครัวฉลาด (FWER) หรืออัตราการค้นพบที่ผิดพลาด (FDR) หมายถึงความมั่นใจ (หรือความน่าเชื่อถือ1หรือความไม่แน่นอนหรือการทำนายหรืออนุมาน ... เลือกช่วงเวลาของคุณ) รับการเปลี่ยนแปลงที่คล้ายกันโดยการเปรียบเทียบหลายรายการ? ฉันรู้ว่าคำตอบเชิงลบที่นี่จะสงสัยคำถามที่เหลืออยู่ของฉัน 2. มีการแปลตรงไปตรงมาของขั้นตอนการปรับเปรียบเทียบหลายรายการตั้งแต่การทดสอบสมมติฐานไปจนถึงการประมาณช่วงเวลาหรือไม่? ยกตัวอย่างเช่นการปรับเปลี่ยนจะมุ่งเน้นไปที่การเปลี่ยนCI-levelCI-level\text{CI-level}ระยะในช่วงความเชื่อมั่น: CIθ=(θ^±t(1−CI-level)/2σ^θ)CIθ=(θ^±t(1−CI-level)/2σ^θ)\text{CI}_{\theta} = (\hat{\theta} \pm t_{(1-\text{CI-level)/2}}\hat{\sigma}_{\theta}) ? 3. เราจะจัดการกับขั้นตอนการควบคุมขั้นตอนขึ้นหรือลงสำหรับ CIs ได้อย่างไร การปรับอัตราข้อผิดพลาดที่เหมาะกับครอบครัวบางส่วนจากวิธีการทดสอบสมมติฐานเพื่ออนุมานคือ 'คงที่' ในการปรับที่เหมือนกันอย่างแม่นยำจะทำกับการอนุมานที่แยกจากกัน ตัวอย่างเช่นการปรับ Bonferroni ทำโดยการเปลี่ยนเกณฑ์การปฏิเสธจาก: ปฏิเสธถ้าp≤α2p≤α2p\le \frac{\alpha}{2}ถึง: ปฏิเสธถ้าp≤α2mp≤α2mp\le \frac{\frac{\alpha}{2}}{m} , แต่การปรับระดับขั้นตอนของ Holm-Bonferroni ไม่ใช่ 'คงที่' แต่ทำโดย: การสั่งซื้อครั้งแรกค่าpppน้อยที่สุดไปหามากที่สุดและจากนั้น ปฏิเสธถ้าp≤1−(1−α2)1m+1−ip≤1−(1−α2)1m+1−ip\le 1 - (1- …

5
ทำไมข้อความเหล่านี้ไม่เป็นไปตามหลักเหตุผลจาก 95% CI สำหรับค่าเฉลี่ย
ฉันได้อ่าน Hoekstra et al, 2014 กระดาษ "เข้าใจผิดที่แข็งแกร่งของช่วงความเชื่อมั่น" ซึ่งผมดาวน์โหลดได้จากเว็บไซต์ของ Wagenmakers ในหน้าถัดไปภาพต่อไปนี้จะปรากฏขึ้น ผู้เขียน False คำตอบที่ถูกต้องสำหรับข้อความเหล่านี้ทั้งหมด ฉันไม่แน่ใจว่าทำไมข้อความเหล่านี้เป็นเท็จและเท่าที่ฉันสามารถบอกได้ว่าส่วนที่เหลือของกระดาษไม่ได้พยายามอธิบายเรื่องนี้ ฉันเชื่อว่า 1-2 และ 4 ไม่ถูกต้องเพราะพวกเขายืนยันบางอย่างเกี่ยวกับมูลค่าที่น่าจะเป็นของค่าเฉลี่ยที่แท้จริงเมื่อค่าเฉลี่ยที่แท้จริงมีค่าแน่นอนที่ไม่ทราบ นี่คือความแตกต่างที่น่าเชื่อหรือไม่? เกี่ยวกับ 3 ฉันเข้าใจว่าไม่ได้หมายถึงการยืนยันเกี่ยวกับโอกาสที่สมมติฐานว่างไม่ถูกต้องแม้ว่าฉันจะไม่แน่ใจในเหตุผลที่ว่าทำไม ในทำนองเดียวกัน 6 ไม่สามารถเป็นจริงได้เพราะมันหมายความว่าค่าเฉลี่ยจริงกำลังเปลี่ยนจากการทดสอบเป็นการทดสอบ คนที่ฉันไม่เข้าใจจริงๆก็คือ 5. ทำไมจึงเป็นเช่นนั้นผิด หากฉันมีกระบวนการที่ 95% ของเวลาผลิต CIs ที่มีค่าเฉลี่ยจริงทำไมฉันไม่ควรพูดว่าฉันมีความมั่นใจ 95% ค่าประชากรอยู่ระหว่าง 0.1 ถึง 0.4 เป็นเพราะเราอาจมีข้อมูลพิเศษเกี่ยวกับตัวอย่างที่เราเพิ่งทำไปซึ่งจะทำให้เราคิดว่าน่าจะเป็นหนึ่งใน 5% ที่ไม่มีค่าเฉลี่ยจริงหรือ ตัวอย่างเช่น 0.13 รวมอยู่ในช่วงความมั่นใจและด้วยเหตุผลบางอย่าง 0.13 ไม่ถือว่าเป็นค่าที่น่าเชื่อถือภายในบริบทการวิจัยเฉพาะบางประการเช่นเนื่องจากค่านั้นจะขัดแย้งกับทฤษฎีก่อนหน้า ความมั่นใจหมายถึงอะไรในบริบทนี้

3
ช่วงความเชื่อมั่นสำหรับความแปรปรวนที่กำหนดหนึ่งการสังเกต
นี่เป็นปัญหาจาก "7th Kolmogorov Student Olympiad in The Probability Theory Theory": เมื่อทำการสังเกตจาก aโดยไม่ทราบพารามิเตอร์ทั้งสองให้ช่วงความมั่นใจสำหรับด้วยระดับความมั่นใจอย่างน้อย 99%XXXNormal(μ,σ2)Normal⁡(μ,σ2)\operatorname{Normal}(\mu,\sigma^2)σ2σ2\sigma^2 สำหรับฉันแล้วมันน่าจะเป็นไปไม่ได้ ฉันมีวิธีแก้ปัญหา แต่ยังไม่ได้อ่าน ความคิดใด ๆ ฉันจะโพสต์โซลูชันในอีกสองสามวัน [การแก้ไขการติดตาม: การแก้ปัญหาอย่างเป็นทางการที่โพสต์ด้านล่าง วิธีแก้ปัญหาของ Cardinal นั้นยาวกว่า แต่ให้ช่วงความมั่นใจที่ดีกว่า ขอบคุณ Max และ Glen_b สำหรับอินพุตของพวกเขา]

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.