ช่วงความมั่นใจจะมีประโยชน์เมื่อใด

30

ถ้าฉันเข้าใจอย่างถูกต้องช่วงความเชื่อมั่นของพารามิเตอร์คือช่วงเวลาที่สร้างขึ้นโดยวิธีการที่ให้ช่วงเวลาที่มีค่าจริงสำหรับสัดส่วนตัวอย่างที่ระบุ ดังนั้น 'ความมั่นใจ' เป็นเรื่องเกี่ยวกับวิธีการมากกว่าช่วงเวลาที่ฉันคำนวณจากตัวอย่างเฉพาะ

ในฐานะผู้ใช้งานของสถิติฉันรู้สึกว่าถูกโกงอยู่เสมอเนื่องจากพื้นที่ของกลุ่มตัวอย่างทั้งหมดเป็นสมมุติฐาน ทั้งหมดที่ฉันมีคือตัวอย่างหนึ่งและฉันต้องการรู้ว่าตัวอย่างนั้นบอกอะไรฉันเกี่ยวกับพารามิเตอร์

การตัดสินนี้ผิดหรือเปล่า? มีวิธีการดูช่วงความมั่นใจอย่างน้อยในบางสถานการณ์ซึ่งจะมีความหมายต่อผู้ใช้สถิติหรือไม่

[คำถามนี้เกิดขึ้นจากความคิดที่สองหลังจากหยุดใช้ช่วงความเชื่อมั่นในคำตอบ math.se https://math.stackexchange.com/questions/7564/calculating-a-sample-size-based-on-a-confidence-level/7572 # 7572 ]

confidence-interval interpretation

— Jyotirmoy Bhattacharya
แหล่งที่มา

15

ฉันชอบคิดว่า CIs เป็นวิธีหนึ่งที่จะหลีกเลี่ยงกรอบการทดสอบสมมติฐาน (HT) อย่างน้อยกรอบการตัดสินใจแบบไบนารีตามแนวทางของNeymanและสอดคล้องกับทฤษฎีการวัดในบางวิธี แม่นยำมากขึ้นฉันมองว่าพวกเขาใกล้เคียงกับความน่าเชื่อถือของการประมาณค่า (ความแตกต่างของค่าเฉลี่ย) และในทางกลับกัน HT นั้นใกล้กว่าการให้เหตุผลเชิงสมมุติฐานเชิงอนุมานมากกว่าด้วยข้อผิดพลาด (เราไม่สามารถยอมรับโมฆะได้ มักจะสุ่ม ฯลฯ ) ยังมีทั้งการประมาณช่วงเวลาและ HT เราต้องพึ่งพาสมมติฐานการกระจายส่วนใหญ่ (เช่นการกระจายตัวอย่างภายใต้ ) ซึ่งช่วยให้การอนุมานจากตัวอย่างของเราไปยังประชากรทั่วไปหรือตัวแทนหนึ่ง (อย่างน้อยในบ่อยครั้ง วิธีการ) $H_0$

ในหลายบริบท CIs ประกอบกับ HT ปกติและฉันดูพวกเขาดังในภาพต่อไปนี้ (อยู่ภายใต้ ): $H_0$

ข้อความแสดงแทน

นั่นคือภายใต้กรอบ HT (ซ้าย) คุณจะดูว่าสถิติของคุณมาจากโมฆะมากแค่ไหนขณะที่ CIs (ขวา) คุณกำลังดูผลกระทบ null "จากสถิติของคุณ" ในแง่หนึ่ง

นอกจากนี้โปรดทราบว่าสำหรับสถิติบางประเภทเช่นอัตราต่อรอง HT มักไม่มีความหมายและควรดู CI ที่เกี่ยวข้องซึ่งมีความสมมาตรและให้ข้อมูลที่เกี่ยวข้องมากขึ้นเกี่ยวกับทิศทางและความแม่นยำของสมาคมถ้ามี

— CHL
แหล่งที่มา

ทำไมคุณถึงบอกว่าการทดสอบสมมติฐานมักไม่มีความหมายต่ออัตราต่อรองมากกว่าการประมาณผลกระทบอื่น ๆ ฉันขอย้ำว่าช่วงความมั่นใจนั้นมีประโยชน์มากกว่าข้อผิดพลาดมาตรฐานสำหรับอัตราต่อรองและการประมาณการอื่น ๆ ด้วยการแจกแจงการสุ่มตัวอย่างแบบอสมมาตรในตัวอย่าง จำกัด

— onestop

@onestop ดีฉันกำลังคิดว่าคุณพูดเกี่ยวกับ "การแจกแจงการสุ่มตัวอย่างแบบอสมมาตร ... " (และดูเหมือนว่าฉันยังไม่ชัดเจน) แต่ก็เป็นความจริงที่ว่าในการศึกษาทางระบาดวิทยาเรามักสนใจ CIs มากที่สุด เราประมาณการได้แม่นยำกว่า HT

— chl

+1 สิ่งนี้ทำให้ฉันนึกถึงว่าฉันใช้สคริปต์ของคุณเพื่อเรียนรู้เส้นกำกับด้วยการกระโดดและเปลี่ยนสิ่งต่าง ๆ ลองทำสิ่งต่าง ๆ ขอบคุณอีกครั้งสำหรับสิ่งนั้นมีประโยชน์มากในการเริ่มต้น

— ARS

@ars จริงๆแล้วฉันดูเหมือนจะจำได้ว่ารูปนี้ทำด้วย PStricks อย่างไรก็ตามดีจุดเริ่มต้นของการสิ้นสุดเป็นpiprime.fr/asymptote

— chl

@chl นี่อาจไม่เป็นหัวข้อ แต่คุณช่วยบอกฉันหน่อยได้ไหมว่าคุณทำกราฟเหล่านี้เป็น R

— suncoolsu

7

อีกทางเลือกหนึ่งที่เกี่ยวข้องกับคำถามที่ 2 ของคุณ "มีวิธีดูช่วงความเชื่อมั่นอย่างน้อยในบางสถานการณ์ซึ่งจะมีความหมายต่อผู้ใช้สถิติหรือไม่":

คุณควรจะดูที่คชกรรมอนุมานและส่งผลให้ความน่าเชื่อถือช่วงเวลา ช่วงเวลาที่น่าเชื่อถือ 95% สามารถตีความได้ว่าเป็นช่วงเวลาที่คุณเชื่อว่ามีความน่าจะเป็น 95% ของการรวมค่าพารามิเตอร์จริง ราคาที่คุณจ่ายคือคุณต้องใส่การกระจายความน่าจะเป็นก่อนหน้านี้ในค่าที่คุณเชื่อว่าพารามิเตอร์ที่แท้จริงน่าจะใช้ก่อนที่จะรวบรวมข้อมูล และก่อนหน้าของคุณอาจแตกต่างจากคนอื่นมาก่อนดังนั้นช่วงเวลาที่เชื่อถือได้ของคุณอาจแตกต่างกันแม้ว่าคุณจะใช้ข้อมูลเดียวกัน

นี่เป็นเพียงความพยายามอย่างรวดเร็วและหยาบของฉันในการสรุป! หนังสือเรียนที่ดีและเน้นการใช้งานจริงคือ:

Andrew Gelman, John B. Carlin, Hal S. Stern และ Donald B. Rubin "การวิเคราะห์ข้อมูลแบบเบย์" (รุ่นที่ 2) แชปแมน & โถง / ซีอาร์ซี 2546 ได้ไอ978-1584883883

— OneStop
แหล่งที่มา

ขอบคุณ แต่สิ่งที่เกี่ยวกับช่วงความมั่นใจบ่อยครั้งโดยเฉพาะ? มีสถานการณ์ใดบ้างที่พวกเขาจะเกี่ยวข้องหรือไม่?

— Jyotirmoy Bhattacharya

ฉันเชื่อว่าการมีนักบวชที่แตกต่างกันนั้นไม่ใช่ประเด็น (อย่างน้อยจากมุมมองของ Bayesian) ถ้าเกิดว่าคุณมีความรู้ที่แตกต่างกันเกี่ยวกับสถานการณ์ในมือ เราต้องมองว่าพวกนักบวชเป็นคนหล่อข้อมูลสำคัญของพวกเรา ฉันรู้ว่ามันไม่ง่าย ...

— teucer

@Jyotirmoy เกี่ยวกับวิธีการแบบเบส์กับนักสะสมประจำคะแนนที่น่าสนใจเกิดขึ้นที่นี่: stats.stackexchange.com/questions/1611/…

— chl

6

ผมคิดว่าสถานที่ตั้งของคำถามนี้เป็นข้อบกพร่องเพราะมันปฏิเสธความแตกต่างระหว่างความไม่แน่นอนและเป็นที่รู้จัก

การอธิบายการพลิกเหรียญเป็นการเปรียบเทียบที่ดี ก่อนที่เหรียญจะพลิกผลลัพธ์จะไม่แน่นอน หลังจากนั้นจะไม่มี "สมมติฐาน" อีกต่อไป สิ่งที่ทำให้เกิดความสับสนนี้เกิดขึ้นได้กับสถานการณ์จริงที่เราต้องการเข้าใจ (พฤติกรรมของเหรียญหรือการตัดสินใจที่จะต้องทำอันเป็นผลมาจากผลลัพธ์ของมัน) โดยพื้นฐานแล้วปฏิเสธบทบาทสำหรับความน่าจะเป็นในการทำความเข้าใจโลก

ความคมชัดนี้ถูกส่งออกไปด้วยความโล่งใจที่คมชัดภายในเวทีทดลองหรือข้อบังคับ ในกรณีเช่นนี้นักวิทยาศาสตร์หรือผู้ควบคุมจะรู้ว่าพวกเขาจะต้องเผชิญกับสถานการณ์ที่มีผลเมื่อใดก็ตามก่อนหน้านี้ไม่ทราบ แต่พวกเขาจะต้องทำการกำหนดที่สำคัญเช่นวิธีการออกแบบการทดลองหรือสร้างเกณฑ์เพื่อใช้ในการปฏิบัติตามกฎระเบียบ (สำหรับการทดสอบยาความปลอดภัยในสถานที่ทำงานมาตรฐานด้านสิ่งแวดล้อมและอื่น ๆ ) คนเหล่านี้และสถาบันที่พวกเขาต้องการวิธีการและความรู้เกี่ยวกับลักษณะความน่าจะเป็นของวิธีการเหล่านั้นเพื่อพัฒนากลยุทธ์ที่ดีที่สุดและสามารถป้องกันได้เช่นการออกแบบการทดลองที่ดีและขั้นตอนการตัดสินใจที่ยุติธรรมที่ผิดพลาดน้อยที่สุด

ช่วงความเชื่อมั่นแม้จะมีเหตุผลที่ไม่ดีนัก แต่ยังสอดคล้องกับกรอบการตัดสินใจเชิงทฤษฎีนี้ เมื่อวิธีการสร้างช่วงเวลาแบบสุ่มมีการรวมกันของคุณสมบัติที่ดีเช่นความมั่นใจในการครอบคลุมช่วงเวลาที่คาดหวังน้อยที่สุดและลดความยาวที่คาดหวังของช่วงเวลาให้น้อยที่สุด - ทั้งคู่เป็นคุณสมบัติเบื้องต้นไม่ใช่คนหลังเป็นอาชีพที่ยาวนานของการใช้วิธีการนั้นเราสามารถลดค่าใช้จ่ายที่เกี่ยวข้องกับการกระทำที่ระบุโดยวิธีการนั้น

— whuber
แหล่งที่มา

ยกตัวอย่างการใช้ช่วงความมั่นใจในการตัดสินใจ หรือยังดีกว่าให้เปรียบเทียบช่วงความเชื่อมั่นสองช่วงและวิธีที่คุณจะทำการตัดสินใจที่แตกต่างกับแต่ละช่วงเวลาในขณะที่ยังคงรักษาไว้อย่างสมบูรณ์ในกรอบงานประจำ

— BrainPermafrost

@Brain ตำราสถิติเบื้องต้นใด ๆ ที่จะให้ตัวอย่างเช่น หนึ่งที่เป็นประจำอย่างไม่สะทกสะท้านคือ Freedman, Pisani และ Purves, สถิติ (ทุกรุ่น)

— whuber

6

คุณถูกต้องในการบอกว่าช่วงความเชื่อมั่น 95% เป็นสิ่งที่เกิดจากการใช้วิธีการที่ทำงานใน 95% ของกรณีแทนที่จะเป็นช่วงเวลาใด ๆ ที่มีโอกาส 95% ที่มีค่าที่คาดหวัง

"พื้นฐานทางตรรกะและการตีความขอบเขตความเชื่อมั่นยังคงเป็นเรื่องของความขัดแย้ง" {David Colquhoun, 1971, บรรยายเรื่องชีวสถิติ}

ใบเสนอราคานั้นนำมาจากตำราสถิติที่ตีพิมพ์ในปี 1971 แต่ฉันขอยืนยันว่ามันยังคงเป็นจริงในปี 2010 การโต้เถียงน่าจะรุนแรงที่สุดในกรณีของช่วงความเชื่อมั่นสำหรับสัดส่วนทวินาม มีวิธีการแข่งขันมากมายสำหรับการคำนวณช่วงความเชื่อมั่นเหล่านั้น แต่พวกเขาทั้งหมดไม่ถูกต้องในความรู้สึกหนึ่งอย่างหรือมากกว่านั้นและแม้แต่วิธีการปฏิบัติที่เลวร้ายที่สุดก็มีผู้เสนอในหมู่ผู้เขียนตำราเรียน แม้เรียกว่า 'แน่นอน' ช่วงเวลาไม่สามารถให้คุณสมบัติที่คาดหวังของช่วงความเชื่อมั่น

ในกระดาษที่เขียนขึ้นสำหรับศัลยแพทย์ (เป็นที่รู้จักอย่างกว้างขวางสำหรับความสนใจในสถิติ!), John Ludbrook และฉันโต้เถียงสำหรับการใช้งานเป็นประจำของช่วงความเชื่อมั่นที่คำนวณโดยใช้ Bayesian เหมือนกันมาก่อนเพราะช่วงเวลาดังกล่าวมีคุณสมบัติบ่อยๆ การครอบคลุม 95% ที่แท้จริงในทุกสัดส่วนที่แท้จริง) แต่ที่สำคัญคือการครอบคลุมที่ดียิ่งขึ้นกว่าสัดส่วนที่สังเกตได้ทั้งหมด (การครอบคลุม 95% ที่แน่นอน) กระดาษเนื่องจากกลุ่มเป้าหมายของมันไม่ได้มีรายละเอียดมากและดังนั้นจึงไม่สามารถโน้มน้าวใจนักสถิติทั้งหมด แต่ฉันกำลังทำงานบนกระดาษติดตามด้วยชุดเต็มของผลลัพธ์และเหตุผล

นี่เป็นกรณีที่วิธีการแบบเบย์มีคุณสมบัติเป็นประจำและเป็นวิธีที่ใช้บ่อยซึ่งเป็นสิ่งที่เกิดขึ้นค่อนข้างบ่อย สมมติฐานของเครื่องแบบก่อนหน้านี้ไม่เป็นปัญหาเพราะมีการกระจายสัดส่วนประชากรอย่างสม่ำเสมอในการคำนวณการรายงานข่าวประจำทุกครั้งที่ฉันเจอ

คุณถามว่า: "มีวิธีการดูช่วงความเชื่อมั่นอย่างน้อยในบางสถานการณ์ซึ่งจะมีความหมายต่อผู้ใช้สถิติหรือไม่" คำตอบของฉันคือว่าสำหรับช่วงความเชื่อมั่นทวินามหนึ่งสามารถรับช่วงเวลาที่มีสัดส่วนประชากร 95% ของเวลาสำหรับสัดส่วนที่สังเกตได้ทั้งหมด นั่นคือใช่ อย่างไรก็ตามการใช้งานแบบดั้งเดิมของช่วงความเชื่อมั่นคาดว่าจะครอบคลุมทุกสัดส่วนประชากรและสำหรับคำตอบคือ "ไม่!"

ความยาวของคำตอบสำหรับคำถามของคุณและคำตอบที่หลากหลายต่อพวกเขาแสดงให้เห็นว่าช่วงความมั่นใจนั้นมีการเข้าใจผิดอย่างกว้างขวาง หากเราเปลี่ยนวัตถุประสงค์ของเราจากการครอบคลุมสำหรับค่าพารามิเตอร์ที่แท้จริงทั้งหมดไปเป็นความครอบคลุมของค่าพารามิเตอร์ที่แท้จริงสำหรับค่าตัวอย่างทั้งหมดมันอาจจะง่ายขึ้นเพราะช่วงเวลานั้นจะถูกกำหนดให้มีความเกี่ยวข้องโดยตรงกับค่าที่สังเกตมากกว่าประสิทธิภาพของวิธีการต่อ se

— Michael Lew
แหล่งที่มา

5

นี่คือการอภิปรายที่ดี ฉันรู้สึกว่าช่วงเวลาที่น่าเชื่อถือของเบย์และช่วงเวลาสนับสนุนโอกาสเป็นวิธีที่จะไปเช่นเดียวกับความน่าจะเป็นหลังเบย์ของเหตุการณ์ที่น่าสนใจ (เช่นยาเสพติดมีประสิทธิภาพ) แต่การแทนที่ค่า P ที่มีช่วงความเชื่อมั่นเป็นสิ่งสำคัญ วารสารทางการแพทย์ที่ดีที่สุดทุกฉบับเช่น NEJM และ JAMA มีกระดาษที่มีปัญหา "การขาดหลักฐานไม่ใช่หลักฐานการขาด" ในบทคัดย่อของพวกเขา การใช้ช่วงความเชื่อมั่นส่วนใหญ่จะป้องกันความผิดพลาดดังกล่าว ข้อความเล็กน้อยที่ยอดเยี่ยมคือhttp://www.amazon.com/Statistics-Confidence-Intervals-Statistical-Guidelines/dp/0727913751

— Frank Harrell
แหล่งที่มา

3

ในการตอบคำถามของคุณโดยตรง: สมมติว่าคุณกำลังใคร่ครวญการใช้เครื่องในการเติมธัญพืชลงในกล่องซีเรียล เห็นได้ชัดว่าคุณไม่ต้องการเติม / เติมมากเกินไปในกล่อง คุณต้องการประเมินความน่าเชื่อถือของเครื่อง คุณทำการทดสอบหลาย ๆ ชุดเช่น: (a) ใช้เครื่องเพื่อเติมกล่องและ (b) วัดปริมาณของธัญพืชที่บรรจุในกล่อง

การใช้ข้อมูลที่เก็บรวบรวมคุณสร้างช่วงความมั่นใจสำหรับปริมาณธัญพืชที่เครื่องน่าจะกรอกลงในกล่อง ช่วงความมั่นใจนี้บอกเราว่าช่วงเวลาที่เราได้รับนั้นมีความน่าจะเป็น 95% ที่มันจะมีปริมาณธัญพืชที่แท้จริงที่เครื่องจะใส่ในกล่อง อย่างที่คุณพูดการตีความของช่วงความมั่นใจนั้นขึ้นอยู่กับตัวอย่างที่มองไม่เห็นซึ่งสร้างขึ้นโดยวิธีที่อยู่ภายใต้การพิจารณา แต่นี่เป็นสิ่งที่เราต้องการอย่างแท้จริงในบริบทของเรา ในบริบทข้างต้นเราจะใช้เครื่องซ้ำ ๆ เพื่อเติมลงในกล่องและทำให้เราใส่ใจเกี่ยวกับการรับรู้ปริมาณของธัญพืชที่เครื่องบรรจุอยู่ในกล่อง

สรุปนามธรรมจากบริบทข้างต้น: ช่วงความมั่นใจทำให้เรารับประกันได้ว่าถ้าเราใช้วิธีการตรวจสอบ (ในตัวอย่าง method = machine) ข้างต้นซ้ำ ๆมีความน่าจะเป็น 95% ที่ช่วงความมั่นใจจะมีพารามิเตอร์จริง .

2

μ

$\mu$

σ^{2}

$\sigma^2$

μ

$\mu$

1

@Jyotirmoy แน่นอน CI ที่เฉพาะเจาะจงอาจเป็นวิธีการออก กล่าวอีกนัยหนึ่งมีโอกาส 5% ที่ CI ไม่มีค่าจริง อย่างไรก็ตามการตีความที่ฉันให้นั้นสอดคล้องกับวิธีการสร้าง CIs จริง เราจินตนาการโดยใช้วิธีซ้ำ ๆ และสร้าง CI เพื่อให้ความน่าจะเป็นที่ CI ที่สังเกตเห็นมีค่าจริงคือ 0.95 ขอให้สังเกตว่าคำตอบของฉันไม่ได้พูดอะไรเกี่ยวกับความน่าจะเป็นที่คุณค่าที่แท้จริงมีอยู่จริงนั่นคือคำแถลงที่สามารถสร้างขึ้นได้ด้วยช่วงเวลาที่น่าเชื่อถือและไม่ใช่ช่วงความมั่นใจ

1

(100 - α)

$(100-\alpha)$

H_{0}

$H_0$

t

$t$

z

$z$

@Srikant ฉันอาจเข้าใจผิด "method = machine" ในคำตอบ ฉันคิดว่าคุณกำลังบอกว่า 95% ของกล่องทั้งหมดที่ออกมาจากสายการประกอบจะมีน้ำหนักภายในช่วงความมั่นใจ 95% ที่ได้จากตัวอย่างเฉพาะของกล่อง

— Jyotirmoy Bhattacharya