จะคำนวณช่วงความมั่นใจสำหรับอัตราส่วนอย่างไร


12

พิจารณาการทดลองที่ให้อัตราส่วนระหว่าง 0 ถึง 1 ว่าการรับอัตราส่วนนี้ไม่ควรเกี่ยวข้องในบริบทนี้อย่างไร มันเป็นเนื้อหาในรุ่นก่อนหน้าของคำถามนี้แต่เอาออกเพื่อความชัดเจนหลังจากการอภิปรายเกี่ยวกับเมตาXi

การทดลองนี้ซ้ำครั้งในขณะที่nมีขนาดเล็ก (ประมาณ 3-10) X ฉันจะถือว่าเป็นอิสระและกันกระจาย จากนี้เราคาดว่าค่าเฉลี่ยโดยการคำนวณค่าเฉลี่ย¯ Xแต่วิธีการในการคำนวณช่วงความเชื่อมั่นที่สอดคล้องกัน[ U , V ] ?nnXiX¯[U,V]

เมื่อใช้วิธีมาตรฐานในการคำนวณช่วงความมั่นใจบางครั้งมีขนาดใหญ่กว่า 1 อย่างไรก็ตามปรีชาของฉันคือช่วงความมั่นใจที่ถูกต้อง ...V

  1. ... ควรอยู่ในช่วง 0 และ 1
  2. ... ควรเล็กลงด้วยการเพิ่มn
  3. ... เป็นลําดับตามลําดับที่คํานวณโดยใช้วิธีมาตรฐาน
  4. ... คำนวณโดยวิธีทางเสียงเชิงคณิตศาสตร์

สิ่งเหล่านี้ไม่ใช่ข้อกำหนดที่แน่นอน แต่อย่างน้อยฉันก็ต้องการที่จะเข้าใจว่าทำไมสัญชาตญาณของฉันจึงผิด

การคำนวณตามคำตอบที่มีอยู่

ในต่อไปนี้ช่วงความเชื่อมั่นที่เกิดจากคำตอบที่มีอยู่เมื่อเทียบสำหรับ }{Xi}={0.985,0.986,0.935,0.890,0.999}

วิธีการมาตรฐาน (aka "คณิตศาสตร์ของโรงเรียน")

,σ2=0.0204ดังนั้นช่วงความเชื่อมั่น 99% คือ[0.865,1.053] สิ่งนี้ขัดแย้งกับสัญชาตญาณ 1X¯=0.959σ2=0.0204[0.865,1.053]

การครอบตัด (แนะนำโดย @soakley ในความคิดเห็น)

เพียงใช้วิธีมาตรฐานจากนั้นให้เนื่องจากผลลัพธ์นั้นง่ายต่อการทำ แต่เราอนุญาตให้ทำเช่นนั้นได้หรือไม่ ฉันยังไม่มั่นใจว่าขอบเขตล่างล่างคงที่ (-> 4. )[0.865,1.000]

Logistic Regression Model (แนะนำโดย @Rose Hartman)

ข้อมูล Transformed: ส่งผล[ 0.173 , 7.87 ]เปลี่ยนมันกลับส่งผลให้[ 0.543 , 0.999 ] เห็นได้ชัดว่า 6.90 เป็นสิ่งที่เกินค่าสำหรับข้อมูลที่ถูกแปลงในขณะที่ 0.99 นั้นไม่ใช่ข้อมูลที่ไม่ได้ทำการแปลซึ่งส่งผลให้เกิดช่วงความมั่นใจที่มีขนาดใหญ่มาก (-> 3. ){4.18,4.25,2.09,2.66,6.90}[0.173,7.87][0.543,0.999]

ช่วงความมั่นใจสัดส่วนทวินาม (แนะนำโดย @Tim)

วิธีการดูค่อนข้างดี แต่น่าเสียดายที่มันไม่เหมาะกับการทดสอบ เพียงรวมผลลัพธ์และตีความว่าเป็นการทดลอง Bernoulli ขนาดใหญ่ที่ซ้ำแล้วซ้ำอีกตามที่แนะนำโดย @ZahavaKor ผลลัพธ์ดังต่อไปนี้:

จาก 5 * 1000รวม ป้อนสิ่งนี้ใน Adj เครื่องคิดเลขให้ Wald [ 0.9511 , 0.9657 ] สิ่งนี้ดูเหมือนจะไม่เหมือนจริงเพราะไม่มี X iเดียวอยู่ในช่วงเวลานั้น! (-> 3. )985+986+890+935+999=479551000[0.9511,0.9657]Xi

Bootstrapping (แนะนำโดย @soakley)

n=530933125=0.99[0.91,0.99][min(Xi),max(Xi)]n


คุณถูกต้องในแนวทางที่สองของคุณ ฉันไม่แน่ใจเกี่ยวกับคนแรก - มันไม่ได้ระบุไว้อย่างชัดเจนในแง่สถิติ เท่าที่ฉันทราบความสามารถในการทำซ้ำหมายถึงการทดลองเดียวกันจะดำเนินการโดยนักวิจัยที่แตกต่างกันและพวกเขาได้รับผลลัพธ์ที่คล้ายกัน คุณต้องระบุเป้าหมายของคุณให้ชัดเจนยิ่งขึ้นโดยเฉพาะอย่างยิ่งในแง่ของสมมติฐานทางสถิติเกี่ยวกับพารามิเตอร์ที่คุณพยายามประเมิน เพียงแค่ใช้คำว่า "การทำซ้ำ" นั้นคลุมเครือเกินไปในความคิดของฉัน
Zahava Kor

คุณถูกต้องการทำซ้ำเป็นคำที่ถูกต้องและไม่สามารถทำซ้ำได้ ฉันจะพยายามสร้างคำจำกัดความในแง่สถิติ
koalo

@ZahavaKor ฉันได้ลบตัวอย่างที่ไม่ได้ระบุไว้เกี่ยวกับความสามารถในการทำซ้ำและระบุแอปพลิเคชันจริงของฉันโดยหวังว่าจะชี้แจงปัญหาของฉันและไม่สับสน
koalo

หากคุณใช้ตัวอย่างขนาด 1,000 จริง ๆ แสดงว่าคุณใช้วิธี resampling ไม่ถูกต้อง แต่ด้วยข้อมูลจำนวนมากคุณไม่จำเป็นต้องทำการสุ่มใหม่และควรได้รับผลลัพธ์ที่ดี (นั่นคือช่วงความเชื่อมั่นที่แคบ) ด้วยวิธีทวินามมาตรฐานตามที่คุณพบด้านบน เพียงเพราะจุดข้อมูลส่วนบุคคลของคุณไม่ได้อยู่ในช่วงเวลาที่เกิดขึ้นไม่ได้หมายความว่าช่วงเวลานั้นไม่ถูกต้อง
soakley

1
ลองคิดดูสิ คุณสุ่มตัวอย่าง 10 รายการและรับ 9 สำเร็จ ฉันตัวอย่าง 1,000 และได้รับ 900 สำเร็จ ใครจะมีค่าประมาณที่แม่นยำมากขึ้นของค่าเฉลี่ย? ลองใช้สูตรที่อ้างอิงโดยทิมหากยังไม่มีสัญชาติญาณ ดังนั้นในตัวอย่างสุดท้ายในคำถามของคุณขนาดตัวอย่างไม่ใช่ 5 มันคือ 5,000!
soakley

คำตอบ:


6

ขั้นแรกเพื่อชี้แจงสิ่งที่คุณกำลังเผชิญไม่ใช่การกระจายตัวแบบทวินามตามที่คำถามของคุณแนะนำ (คุณอ้างถึงเป็นการทดลองแบบเบอนูลลี) การแจกแจงแบบทวินามนั้นไม่ต่อเนื่องผลลัพธ์ที่ได้ก็คือความสำเร็จ ผลลัพธ์ของคุณคืออัตราส่วนในแต่ละครั้งที่คุณทำการทดสอบไม่ใช่ชุดของความสำเร็จและความล้มเหลวที่คุณจะคำนวณอัตราส่วนสรุปหนึ่ง ด้วยเหตุนี้วิธีการคำนวณช่วงความมั่นใจในสัดส่วนทวินามจะทำให้ข้อมูลของคุณทิ้งไปเป็นจำนวนมาก และคุณก็ยังถูกต้องว่ามันเป็นปัญหาในการปฏิบัติต่อสิ่งนี้ราวกับว่ามันถูกแจกจ่ายตามปกติเนื่องจากคุณสามารถรับ CI ที่ขยายช่วงของตัวแปรที่เป็นไปได้

ฉันแนะนำให้คิดถึงเรื่องนี้ในแง่ของการถดถอยโลจิสติก ใช้แบบจำลองการถดถอยโลจิสติกด้วยตัวแปรอัตราส่วนของคุณเป็นผลลัพธ์และไม่มีตัวทำนาย การสกัดกั้นและ CI ของมันจะให้สิ่งที่คุณต้องการในการบันทึกและจากนั้นคุณสามารถแปลงกลับเป็นสัดส่วน นอกจากนี้คุณยังสามารถทำการแปลงโลจิสติกได้ด้วยตัวเองคำนวณ CI จากนั้นแปลงกลับเป็นระดับเดิม หลามของฉันแย่มาก แต่นี่เป็นวิธีที่คุณทำได้ใน R:

set.seed(24601)
data <- rbeta(100, 10, 3)
hist(data)

ฮิสโตแกรมของข้อมูลดิบ

data_logits <- log(data/(1-data)) 
hist(data_logits)

ฮิสโตแกรมของข้อมูลที่แปลงแล้วของ logit

# calculate CI for the transformed data
mean_logits <- mean(data_logits)
sd <- sd(data_logits)
n <- length(data_logits)
crit_t99 <- qt(.995, df = n-1) # for a CI99
ci_lo_logits <- mean_logits - crit_t * sd/sqrt(n)
ci_hi_logits <- mean_logits + crit_t * sd/sqrt(n)

# convert back to ratio
mean <- exp(mean_logits)/(1 + exp(mean_logits))
ci_lo <- exp(ci_lo_logits)/(1 + exp(ci_lo_logits))
ci_hi <- exp(ci_hi_logits)/(1 + exp(ci_hi_logits))

นี่คือขอบเขตล่างและบนบน CI 99% สำหรับข้อมูลเหล่านี้:

> ci_lo
[1] 0.7738327
> ci_hi
[1] 0.8207924

ฟังดูเหมือนเป็นวิธีที่ดี แต่ผลลัพธ์ไม่ใช่สิ่งที่ฉันคาดหวังโดยสังหรณ์ใจ: data_logits สำหรับ 0.99,0.94,0.94 คือ 4.59,2.75,2,75 ทำให้ช่วงความมั่นใจของ [-2.73,9.47] การแปลงหลังนี้ให้ [0.061,0.999] - ใหญ่กว่าที่ฉันคาดไว้มาก
koalo

1
สำหรับการสังเกตเพียงสามครั้งคุณควรคาดหวังช่วงความมั่นใจที่มาก จากฮิสโตแกรมของคุณดูเหมือนว่าคุณมีการสังเกตมากกว่าสามครั้ง --- ฉันสมมุติตัวอย่างของคุณด้วย 0.99,0.94,0.94 เป็นเพียงการอธิบาย หากขนาดตัวอย่างที่แท้จริงของคุณคือสามฉันไม่แนะนำให้คำนวณช่วงความมั่นใจเลย (หรือหมายถึงสำหรับเรื่องนั้น)
Rose Hartman

ฮิสโตแกรมด้านบนมาจากสคริปต์ python เพื่อแสดงปัญหาของฉัน ฉันไม่สามารถได้รับการวัดมากมายจากการทดลองในโลกแห่งความเป็นจริง อย่างน้อยก็ไม่ใช่สำหรับการรวมกันของพารามิเตอร์ทุกตัว ฉันยอมรับว่า 3 อาจเล็กเกินไปและอาจประมาณ 10 อาจเป็นไปได้ในการประเมินขั้นสุดท้าย แต่ไม่มากแน่นอน ดังนั้นฉันควรทำอย่างไรเพื่อแสดงให้เห็นว่าฉันไม่ได้โชคดีที่ได้รับการวัดครั้งเดียว แต่การทำซ้ำการทดสอบนั้นไม่ได้ให้ผลลัพธ์ที่แตกต่างอย่างสิ้นเชิง?
koalo

@RoseHartman นั่นเป็นคำอธิบายที่ชัดเจนดี แต่มันก็เป็นการดีที่ได้เห็นวิธีการของคุณที่ใช้กับตัวอย่างของข้อมูล (n = 5) ในคำถาม
PM

@scitamehtam ฉันเขียนคำตอบก่อนที่โคอาโลจะให้ข้อมูลตัวอย่างและชี้แจงว่าขนาดตัวอย่างจะเป็น 10 หรือน้อยกว่าการสังเกต koalo ได้อัปเดตคำถามเดิมเพื่อรวมตัวอย่างการทำงานจากแต่ละคำตอบด้วยข้อมูล n = 5 ซึ่งเป็นประโยชน์อย่างมาก
Rose Hartman

3

คุณอาจต้องการลอง resampling / bootstrapping อีกครั้ง ลองดูกรณีง่าย ๆ ที่คุณพูดถึง

ด้วยจุดข้อมูล 3 จุดที่ 0.99, 0.94 และ 0.94 คุณจะไม่ทำการสุ่มใหม่เลยเพราะคุณสามารถแสดงรายการการเรียงสับเปลี่ยนที่เป็นไปได้ทั้งหมด 27 รายการหาค่าเฉลี่ยในแต่ละกรณีแล้วเรียงลำดับค่าเฉลี่ย

25/27=26/27=

n

คำถามที่นี่: เราจะสร้างช่วงความมั่นใจสำหรับพารามิเตอร์ของการทดสอบการเปลี่ยนแปลงได้อย่างไร ให้รายละเอียดเพิ่มเติมรวมถึงรหัส R


ดังที่เขียนไว้ในความคิดเห็นอื่น n จะไม่เป็น "มากกว่า 3" แต่อาจเป็นไปได้ว่า n = 10 เป็นไปได้ถ้าจำเป็น ในขณะที่วิธีนี้รับประกันได้ว่าช่วงความมั่นใจของฉันจะไม่เกิน 1.0 แต่ดูเหมือนว่าจะประเมินช่วงความเชื่อมั่นต่ำกว่าวิธีอื่น ๆ ที่จริงแล้วมันจะไม่ใหญ่กว่าช่วง [min, max]
koalo

คุณคิดว่าค่าเฉลี่ยจะอยู่นอก [min, max] บ่อยแค่ไหน?
soakley

อาจเป็นไปได้ยาก แต่นั่นก็หมายความว่าหากช่วงเวลา [min, max] มีขนาดเล็กพอที่จะพิสูจน์การสนับสนุนการเรียกร้องของฉันฉันสามารถลืมช่วงความมั่นใจและให้ [min, max] ได้หรือไม่ จากประสบการณ์ของฉันสำหรับขนาดตัวอย่างขนาดเล็กช่วงความเชื่อมั่นค่อนข้างใหญ่เมื่อเทียบกับ [ขั้นต่ำสูงสุด]
koalo

2

ช่วงความเชื่อมั่นแบบทวินามเป็นหัวข้อถกเถียงทางสถิติมาเป็นเวลานาน ปัญหาของคุณพิจารณาอัตราส่วนน้อยกว่า 100% แต่จะกลายเป็นปัญหามากยิ่งขึ้นถ้าเราใช้ 100% วิธีหนึ่งที่ชาญฉลาดในการถามคำถามคือ:

เมื่อดวงอาทิตย์ขึ้นโดยไม่ล้มเหลวทุกวันตลอด 2,000 ปีที่ผ่านมาความน่าจะเป็นที่จะเกิดขึ้นในวันพรุ่งนี้คืออะไร

p=1

มีหลายวิธีในการคำนวณก้อยเหล่านี้ ฉันขอแนะนำให้ตรวจสอบWikipediaเพื่อหาคณิตศาสตร์หรือหากคุณต้องการคำตอบให้ค้นหาเครื่องคำนวณช่วงทวินามแบบนี้ (ซึ่งมีคำอธิบายเพิ่มเติมเกี่ยวกับคณิตศาสตร์อยู่ข้างหลัง)


นั่นใกล้เคียงกับสิ่งที่ฉันกำลังมองหา แต่สูตรดูเหมือนจะคำนวณช่วงความมั่นใจสำหรับผลลัพธ์ของการทดสอบครั้งเดียวของฉันเท่านั้นและไม่ใช่ช่วงความมั่นใจสำหรับค่าเฉลี่ยของการทดสอบหลายครั้ง
koalo

ไม่สำคัญว่าคุณจะมีการรันหนึ่งครั้งหรือหลายครั้งตราบใดที่ตัวหาร (ตัวอย่าง 100 แพ็คเก็ตในตัวคุณ) ยังคงเหมือนเดิมในทุกการวิ่ง การรันการทดลอง 3 ครั้งที่ละ 100 ครั้งจะเหมือนกับการใช้การทดสอบหนึ่งครั้งกับแพคเก็ต 300 ชุดและคุณสามารถใช้สูตรทวินามได้ แต่ด้วย n = 300 และไม่ใช่ n = 100 หากตัวส่วนนั้นไม่เท่ากันคุณจะต้องหาค่าเฉลี่ยถ่วงน้ำหนัก (ถ่วงด้วยค่าของ n) แล้วค่า n ใหม่จะเท่ากับผลรวมของค่า n
Zahava Kor

@ZahavaKor เนื่องจากความคิดเห็นยาวเกินไปฉันจึงเพิ่มการแก้ไขคำถามของฉัน ฉันไม่ได้พูดว่ามันผิด แต่มันไม่ตรงกับความเข้าใจปัจจุบันของฉัน
koalo

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.