ทำไมข้อความเหล่านี้ไม่เป็นไปตามหลักเหตุผลจาก 95% CI สำหรับค่าเฉลี่ย


26

ฉันได้อ่าน Hoekstra et al, 2014 กระดาษ "เข้าใจผิดที่แข็งแกร่งของช่วงความเชื่อมั่น" ซึ่งผมดาวน์โหลดได้จากเว็บไซต์ของ Wagenmakers

ในหน้าถัดไปภาพต่อไปนี้จะปรากฏขึ้น

ทดสอบ

ผู้เขียน False คำตอบที่ถูกต้องสำหรับข้อความเหล่านี้ทั้งหมด ฉันไม่แน่ใจว่าทำไมข้อความเหล่านี้เป็นเท็จและเท่าที่ฉันสามารถบอกได้ว่าส่วนที่เหลือของกระดาษไม่ได้พยายามอธิบายเรื่องนี้

ฉันเชื่อว่า 1-2 และ 4 ไม่ถูกต้องเพราะพวกเขายืนยันบางอย่างเกี่ยวกับมูลค่าที่น่าจะเป็นของค่าเฉลี่ยที่แท้จริงเมื่อค่าเฉลี่ยที่แท้จริงมีค่าแน่นอนที่ไม่ทราบ นี่คือความแตกต่างที่น่าเชื่อหรือไม่?

เกี่ยวกับ 3 ฉันเข้าใจว่าไม่ได้หมายถึงการยืนยันเกี่ยวกับโอกาสที่สมมติฐานว่างไม่ถูกต้องแม้ว่าฉันจะไม่แน่ใจในเหตุผลที่ว่าทำไม

ในทำนองเดียวกัน 6 ไม่สามารถเป็นจริงได้เพราะมันหมายความว่าค่าเฉลี่ยจริงกำลังเปลี่ยนจากการทดสอบเป็นการทดสอบ

คนที่ฉันไม่เข้าใจจริงๆก็คือ 5. ทำไมจึงเป็นเช่นนั้นผิด หากฉันมีกระบวนการที่ 95% ของเวลาผลิต CIs ที่มีค่าเฉลี่ยจริงทำไมฉันไม่ควรพูดว่าฉันมีความมั่นใจ 95% ค่าประชากรอยู่ระหว่าง 0.1 ถึง 0.4 เป็นเพราะเราอาจมีข้อมูลพิเศษเกี่ยวกับตัวอย่างที่เราเพิ่งทำไปซึ่งจะทำให้เราคิดว่าน่าจะเป็นหนึ่งใน 5% ที่ไม่มีค่าเฉลี่ยจริงหรือ ตัวอย่างเช่น 0.13 รวมอยู่ในช่วงความมั่นใจและด้วยเหตุผลบางอย่าง 0.13 ไม่ถือว่าเป็นค่าที่น่าเชื่อถือภายในบริบทการวิจัยเฉพาะบางประการเช่นเนื่องจากค่านั้นจะขัดแย้งกับทฤษฎีก่อนหน้า

ความมั่นใจหมายถึงอะไรในบริบทนี้


คำตอบ:


11

ความหมายของคำถาม (5) ขึ้นอยู่กับการตีความ "ความเชื่อมั่น" ที่ไม่เปิดเผย ฉันค้นหาบทความอย่างละเอียดและไม่พบความพยายามในการกำหนด "ความมั่นใจ" หรือความหมายในบริบทนี้ กระดาษอธิบายคำตอบของคำถาม (5) คือ

"... [มัน] กล่าวถึงขอบเขตของ CI ในขณะที่ ... CI สามารถใช้ในการประเมินเฉพาะขั้นตอนและไม่ใช่ช่วงเวลาเฉพาะ"

นี่คือทั้งกว้างขวางและทำให้เข้าใจผิด ขั้นแรกหากคุณไม่สามารถประเมินผลลัพธ์ของขั้นตอนนั้นขั้นตอนแรกได้ดีเพียงใด ประการที่สองคำสั่งในคำถามไม่ได้เกี่ยวกับขั้นตอน แต่เกี่ยวกับ"ความมั่นใจ" ของผู้อ่านในผลลัพธ์

ผู้เขียนปกป้องตัวเอง:

"ก่อนดำเนินการต่อเป็นสิ่งสำคัญที่ต้องระลึกถึงคำจำกัดความที่ถูกต้องของ CI CI คือช่วงเวลาที่เป็นตัวเลขที่สร้างขึ้นรอบการประมาณค่าพารามิเตอร์อย่างไรก็ตามช่วงเวลาดังกล่าวไม่ได้ระบุคุณสมบัติของพารามิเตอร์โดยตรง คุณสมบัติของขั้นตอนตามปกติสำหรับเทคนิคของผู้ใช้บ่อย "

ความลำเอียงของพวกเขาปรากฏในวลีสุดท้าย: "เทคนิคของนักเล่นแร่แปรธาตุ" (เขียนบางทีด้วยความรู้สึกส่อ แม้ว่าคุณสมบัตินี้จะถูกต้อง แต่ก็ไม่สมบูรณ์อย่างยิ่ง มันไม่สามารถสังเกตได้ว่าช่วงความมั่นใจเป็นสมบัติของวิธีการทดลอง (วิธีการที่ได้รับและวัดตัวอย่าง) และที่สำคัญกว่านั้นคือธรรมชาติของตัวเอง นั่นเป็นเหตุผลเดียวที่ทุกคนจะสนใจในคุณค่าของมัน

เมื่อเร็ว ๆ นี้ฉันมีความสุขที่ได้อ่านหนังสือเวียนทางชีววิทยาของ Edward Batschelet (สำนักพิมพ์วิชาการ, 1981) Batschelet เขียนอย่างชัดเจนและตรงประเด็นในรูปแบบที่กำกับโดยนักวิทยาศาสตร์ที่ทำงาน นี่คือสิ่งที่เขาพูดเกี่ยวกับช่วงความมั่นใจ:

" การประมาณค่าพารามิเตอร์โดยไม่มีข้อบ่งชี้ความเบี่ยงเบนที่เกิดจากความผันผวนของโอกาสมีค่าทางวิทยาศาสตร์น้อย ...

"ในขณะที่พารามิเตอร์ที่จะประมาณคือจำนวนคงที่ขีด จำกัด ความเชื่อมั่นจะถูกกำหนดโดยตัวอย่างพวกเขาเป็นสถิติและดังนั้นจึงขึ้นอยู่กับความผันผวนของโอกาสตัวอย่างต่าง ๆ ที่ดึงมาจากประชากรเดียวกันนำไปสู่ช่วงความเชื่อมั่นที่ต่างกัน"

[ความสำคัญอยู่ในต้นฉบับที่หน้า 84-85]

ขอให้สังเกตความแตกต่างในการเน้น: ในขณะที่บทความที่เป็นปัญหามุ่งเน้นไปที่กระบวนการ Batschelet มุ่งเน้นไปที่กลุ่มตัวอย่างและโดยเฉพาะในสิ่งที่มันสามารถเปิดเผยเกี่ยวกับพารามิเตอร์และจำนวนข้อมูลที่สามารถได้รับผลกระทบจาก "ความผันผวนของโอกาส" ฉันพบว่าวิธีการทางวิทยาศาสตร์ที่ใช้งานได้จริงและไร้การสร้างสรรค์มีความสว่างและในที่สุดก็มีประโยชน์

การกำหนดช่วงเวลาของความเชื่อมั่นอย่างเต็มรูปแบบมากกว่าที่เสนอในกระดาษจึงต้องดำเนินการดังนี้:

CI คือช่วงเวลาตัวเลขที่สร้างขึ้นโดยประมาณของพารามิเตอร์ ใครก็ตามที่เห็นด้วยกับข้อสมมติฐานพื้นฐานของการก่อสร้าง CI นั้นเป็นธรรมในการกล่าวว่าพวกเขามั่นใจว่าพารามิเตอร์อยู่ภายในช่วงเวลา: นี่คือความหมายของ "มั่นใจ" ความหมายนี้เป็นวงกว้างตามความหมายของความเชื่อมั่นที่ไม่ใช่ทางเทคนิคทั่วไปเนื่องจากภายใต้การทดลองซ้ำหลายครั้ง (ไม่ว่าจะเกิดขึ้นจริงหรือไม่) CI ถึงแม้ว่ามันจะแตกต่างกันไปก็ตามคาดว่าจะมีพารามิเตอร์ส่วนใหญ่

ในความรู้สึกที่แน่นแฟ้นกว่าเดิมและมีความคิดสร้างสรรค์มากขึ้นของ "ความมั่นใจ" คำตอบของคำถาม (5) นั้นเป็นจริง


2
เป็นที่น่าสังเกตว่าวิธีการของ Batschelet นั้นดูเหมือนจะแยกแยะช่วงความเชื่อมั่นบางประเภทที่ให้ผู้อ่านหยุดคิดเช่น CIs ที่ว่างเปล่า CI เช่นนี้แทบจะไม่ได้จับความคิดของ "ตัวบ่งชี้ของการเบี่ยงเบนที่เกิดจากความผันผวนของโอกาส" คำแนะนำนี้อาจเป็นคำจำกัดความมาตรฐานของช่วงความมั่นใจอาจไม่สำเร็จตามที่ตั้งใจไว้ ไม่ว่าในกรณีที่ไม่มีข้อบ่งชี้ที่ชัดเจนว่าคำว่า "ความมั่นใจ" หมายถึงอะไร (5) เราต้องลดข้อสรุปใด ๆ ที่ผู้เขียนเขียนขึ้นตามคำตอบที่ได้จากคำถามนั้น
whuber

yicauchy(μ,1)μ

... ต่อไป ... ดังนั้นถึงแม้ว่าจะครอบคลุมความคุ้มครองโดยเฉลี่ยในระยะยาว แต่ความครอบคลุมในกลุ่มตัวอย่างบางประเภทจะไม่
ความน่าจะเป็นทางการ

10

คำถาม 1-2, 4: ในการวิเคราะห์เป็นประจำค่าเฉลี่ยที่แท้จริงไม่ใช่ตัวแปรสุ่มดังนั้นความน่าจะเป็นเหล่านี้จึงไม่ได้ถูกกำหนดในขณะที่การวิเคราะห์แบบเบย์ความน่าจะเป็นขึ้นอยู่กับก่อนหน้านี้

คำถามที่ 3: ยกตัวอย่างพิจารณากรณีที่เรารู้แน่นอนมันยังคงเป็นไปได้ที่จะได้ผลลัพธ์เหล่านี้ แต่ไม่มีเหตุผลพอที่จะบอกได้ว่าสมมติฐานว่างเปล่าคือ 'ไม่น่าจะเป็นจริง' เราได้รับข้อมูลที่ไม่น่าจะเกิดขึ้นหากสมมติฐานว่างเป็นจริง แต่สิ่งนี้ไม่ได้หมายความว่าสมมติฐานว่างนั้นไม่น่าจะเป็นจริง

คำถามที่ 5: นี่เป็นบิตที่น่าสงสัยเนื่องจากขึ้นอยู่กับคำจำกัดความของ "เราสามารถมั่นใจได้% p" หากเรากำหนดคำสั่งให้หมายถึงสิ่งที่อนุมานจากช่วงความเชื่อมั่น p% คำสั่งนั้นจะถูกต้องตามคำนิยาม อาร์กิวเมนต์ pro-Bayesian โดยทั่วไประบุว่าผู้คนมักตีความคำแถลงเหล่านี้โดยสังหรณ์ใจเพื่อแปลว่า "ความน่าจะเป็นคือ p%" ซึ่งน่าจะผิด (เปรียบเทียบคำตอบที่ 1-2,4)

คำถามที่ 6: คำอธิบายของคุณ "หมายความว่าค่าเฉลี่ยจริงกำลังเปลี่ยนจากการทดสอบเป็นการทดสอบ" ถูกต้องแน่นอน

บทความนี้ถูกกล่าวถึงในบล็อกของ Andrew Gelman เมื่อไม่นานมานี้ ( http://andrewgelman.com/2014/03/15/problematic-interpretations-confidence-intervals/ ) ตัวอย่างเช่นประเด็นที่เกี่ยวกับการตีความคำแถลงในคำถามที่ 5 ได้ถูกกล่าวถึงในข้อคิดเห็น


1
ดังนั้นหากมีใครกลับไปและแทนที่ทุกตัวอย่างของ "ค่าเฉลี่ยที่แท้จริง" ด้วย "การประมาณการที่ดีที่สุดสำหรับค่าเฉลี่ยที่แท้จริง" ดังนั้นข้อความจะกลายเป็นถูกต้องหรือไม่
Superbest

@Superbest ที่ดีที่สุดถ้าเราพิจารณา "การประมาณการที่ดีที่สุดสำหรับข้อมูลนี้" มันเป็นค่าคงที่เป็นที่รู้จัก หากเราพิจารณา "การประมาณการที่ดีที่สุดของกลุ่มตัวอย่างในอนาคต" เราจะไม่ทราบว่ามันแตกต่างกันอย่างไรเพราะเราไม่ทราบค่าเฉลี่ยที่แท้จริง
Juho Kokkala

นี่ไม่ใช่การโต้แย้งถึงความคิดเห็นข้างต้นทั้งหมด แต่ฉันควรชี้ให้เห็นว่า "การประมาณการที่ดีที่สุด" หมายถึงตัวเลขจริงมากกว่าการแจกแจง ด้วย CI ใคร ๆ ก็สามารถพูดคุยเกี่ยวกับ "การกระจายของที่ค่าเฉลี่ยที่แท้จริงอาจได้รับข้อมูลนี้"
Superbest

1
@ Super นั่นเป็นความเข้าใจผิดของ CI ที่พูดถึงในหนังสือพิมพ์ โดยเฉพาะอย่างยิ่งความหมายที่แท้จริงคือจำนวน ; มันไม่มีการกระจาย ดูสองครั้งแรกในการค้นหาไซต์สำหรับช่วงความมั่นใจสำหรับการอภิปรายเพิ่มเติม
whuber

1
@ สุดยอด "ช่วงเวลาที่น่าเชื่อถือ" จะเข้ามาใกล้
whuber

8

หากไม่มีคำจำกัดความที่เป็นทางการของความหมายของคำว่า "มั่นใจ 95%" การให้เหตุผลในการติดฉลาก # 5 จริงหรือเท็จมีอะไรบ้าง คนธรรมดาจะตีความผิดอย่างไม่ต้องสงสัยว่าเป็นความหมายเหมือนกันกับความน่าจะเป็น 95% ของค่าเฉลี่ยที่อยู่ในช่วงเวลานั้น: แต่บางคนใช้มันในแง่ของการใช้วิธีการสร้างช่วงเวลาซึ่งช่วงเวลามีค่าเฉลี่ยจริง 95% แม่นยำเพื่อหลีกเลี่ยงการพูดคุยเกี่ยวกับการกระจายความน่าจะเป็นของพารามิเตอร์ที่ไม่รู้จัก ซึ่งดูเหมือนว่าเป็นการขยายคำศัพท์อย่างเป็นธรรมชาติ

โครงสร้างที่คล้ายกันของคำแถลงก่อนหน้า (# 4) อาจกระตุ้นให้ผู้ตอบแบบสอบถามพยายามที่จะแยกความแตกต่างระหว่าง "เรามั่นใจ 95%" และ "มีความน่าจะเป็น 95%" แม้ว่าพวกเขาจะไม่ได้เพลิดเพลินกับแนวคิดนี้มาก่อน ฉันคาดว่ากลเม็ดนี้จะนำไปสู่ข้อตกลงที่มีสัดส่วนสูงที่สุด - เมื่อดูที่กระดาษฉันพบว่าฉันผิด แต่สังเกตว่าอย่างน้อย 80% อ่านแบบสอบถามในฉบับภาษาดัตช์ซึ่งอาจจะถามคำถามเกี่ยวกับ ความถูกต้องของการแปลภาษาอังกฤษ


4

นี่คือคำจำกัดความของช่วงความมั่นใจจากพจนานุกรมของ BS Everitt :

"ช่วงของค่าที่คำนวณจากการสังเกตตัวอย่างที่เชื่อว่ามีความน่าจะเป็นบางอย่างที่จะมีค่าพารามิเตอร์ที่แท้จริงตัวอย่างเช่น 95% CI หมายถึงกระบวนการประเมินซ้ำแล้วซ้ำอีกแล้ว 95% ของช่วงเวลาที่คำนวณได้นั้นคาดว่าจะมีค่าพารามิเตอร์ที่แท้จริงโปรดทราบว่าระดับความน่าจะเป็นที่ระบุไว้อ้างถึงคุณสมบัติของช่วงเวลาและไม่ใช่กับพารามิเตอร์ของตัวเองซึ่งไม่ถือว่าเป็นตัวแปรสุ่ม "

ความเข้าใจผิดที่พบบ่อยมากคือการทำให้สับสนในความหมายของช่วงความมั่นใจกับช่วงเวลาที่น่าเชื่อถือ AKA "ช่วงความเชื่อมั่นแบบเบย์" ซึ่งทำให้ข้อความคล้ายกับคำถามในคำถาม

ฉันได้ยินมาว่าช่วงความมั่นใจมักจะคล้ายกับช่วงเวลาที่น่าเชื่อถือซึ่งได้มาจากความรู้ที่ไม่เคยมีมาก่อน แต่มันก็บอกกับฉันเกี่ยวกับเรื่องเล็ก ๆ น้อย ๆ


Jaynes 1976 ช่วงเวลาความมั่นใจกระดาษกับช่วงเวลาแบบเบย์ นั่นคืออย่างน้อยหนึ่ง soure ที่น่าเชื่อถือ นอกจากนี้ยังมีนักบวชอ้างอิงของเบอร์เกอร์และเบอร์นาร์โด อย่างจริงจังคุณไม่เคยได้ยินสิ่งเหล่านี้?
ความน่าจะเป็นทางการที่

2

เกี่ยวกับการหยั่งรู้ถึงความเท็จของคำถามที่ 5 ฉันได้รับการอภิปรายในหัวข้อนี้จากที่นี่

มันถูกต้องที่จะบอกว่ามีโอกาส 95% ที่ช่วงความมั่นใจที่คุณคำนวณนั้นมีค่าเฉลี่ยประชากรจริง มันไม่ถูกต้องนักที่จะบอกว่ามีโอกาส 95% ที่ค่าเฉลี่ยประชากรอยู่ภายในช่วงเวลา

ความแตกต่างคืออะไร? ค่าเฉลี่ยประชากรมีค่าเดียว คุณไม่รู้ว่ามันคืออะไร (เว้นแต่ว่าคุณกำลังทำแบบจำลอง) แต่มันมีค่าเดียว หากคุณทำการทดสอบซ้ำค่านั้นจะไม่เปลี่ยนแปลง (และคุณก็ยังไม่รู้ว่ามันคืออะไร) ดังนั้นจึงไม่ถูกต้องที่จะถามเกี่ยวกับความน่าจะเป็นที่ค่าเฉลี่ยของประชากรอยู่ในช่วงที่กำหนด ในทางตรงกันข้ามช่วงความมั่นใจที่คุณคำนวณขึ้นอยู่กับข้อมูลที่คุณรวบรวม หากคุณทำการทดสอบซ้ำช่วงความเชื่อมั่นของคุณจะแตกต่างกัน มันก็โอเคที่จะถามเกี่ยวกับความน่าจะเป็นที่ช่วงเวลานั้นมีค่าเฉลี่ยประชากร

ทีนี้คำถามเฉพาะของคุณเกี่ยวกับ 5 ทำไมมันผิด ...

  1. เป็นเพราะเราอาจมีข้อมูลพิเศษเกี่ยวกับตัวอย่างที่เราเพิ่งทำไปซึ่งจะทำให้เราคิดว่าน่าจะเป็นหนึ่งใน 5% ที่ไม่มีค่าเฉลี่ยจริงหรือ ไม่ฉันคิดว่าเป็นเพราะค่าเฉลี่ยที่แท้จริงไม่ใช่ตัวแปรสุ่ม แต่ช่วงความเชื่อมั่นเป็นหน้าที่ของข้อมูล
  2. 100(1α)100(1α)

ในฐานะที่เป็นหมายเหตุด้านข้าง (กล่าวถึงในคำตอบอื่น ๆ สำหรับคำถามนี้) ช่วงเวลาที่น่าเชื่อถือซึ่งเป็นแนวคิดจากสถิติแบบเบย์ทำทำนายว่ามูลค่าที่แท้จริงของพารามิเตอร์มีความน่าจะเป็นโดยเฉพาะอย่างยิ่งที่จะอยู่ในช่วงความเชื่อมั่น บางทีคุณอาจได้ข้อมูลพื้นฐานเพิ่มเติมจากบล็อกของ Gelman


5
"ช่วงเวลามีค่าจริง" และ "ค่าจริงอยู่ภายในช่วง" หมายความว่าสิ่งเดียวกัน การคิดในแง่ของอดีตนั้นมีประโยชน์มากกว่า แต่ก็ไม่สมเหตุสมผลที่จะพูดว่าสิ่งหนึ่งถูกต้องและอีกข้อหนึ่งไม่ถูกต้อง
David Richerby
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.