ช่วงความมั่นใจพูดถึงความแม่นยำอย่างไร (ถ้ามี)


31

Morey et al (2015) ยืนยันว่าช่วงความเชื่อมั่นนั้นทำให้เข้าใจผิดและมีอคติหลายประการที่เกี่ยวข้องกับความเข้าใจของพวกเขา ในบรรดาคนอื่น ๆ พวกเขาอธิบายถึงการเข้าใจผิดอย่างแม่นยำดังต่อไปนี้:

ความแม่นยำผิดพลาด
ความกว้างของช่วงความมั่นใจบ่งบอกถึงความแม่นยำของความรู้ของเราเกี่ยวกับพารามิเตอร์ ช่วงความมั่นใจแคบแสดงความรู้ที่แม่นยำในขณะที่ข้อผิดพลาดความมั่นใจกว้างแสดงความรู้ที่ไม่แม่นยำ

ไม่มีการเชื่อมต่อที่จำเป็นระหว่างความแม่นยำของการประมาณและขนาดของช่วงความมั่นใจ วิธีหนึ่งในการดูสิ่งนี้คือจินตนาการนักวิจัยสองคน - นักวิจัยอาวุโสและนักศึกษาปริญญาเอกกำลังวิเคราะห์ข้อมูลจากผู้เข้าร่วมคนจากการทดลอง ในฐานะที่เป็นแบบฝึกหัดเพื่อประโยชน์ของนักศึกษาปริญญาเอกนักวิจัยอาวุโสตัดสินใจที่จะสุ่มแบ่งผู้เข้าร่วมออกเป็นสองชุดจากชุดเพื่อให้พวกเขาแต่ละคนสามารถแยกวิเคราะห์ครึ่งชุดข้อมูล ในการประชุมครั้งหลังทั้งสองร่วมกันกับอีกคนหนึ่งของพวกเขาของนักเรียนช่วงความเชื่อมั่นสำหรับค่าเฉลี่ย ปริญญาเอกของนักเรียน CI เป็นและนักวิจัยอาวุโสของ CI เป็น425 t 95 % 52 ± 2 95 % 53 ± 45025t95%52±295%53±4

นักวิจัยอาวุโสตั้งข้อสังเกตว่าผลลัพธ์ของพวกเขามีความสอดคล้องกันอย่างกว้างขวางและพวกเขาสามารถใช้ค่าเฉลี่ยถ่วงน้ำหนักเท่ากันของการประมาณจุดสองจุดของพวกเขา52.5ซึ่งเป็นการประเมินโดยรวมของค่าเฉลี่ยที่แท้จริง

อย่างไรก็ตามนักศึกษาปริญญาเอกระบุว่าวิธีการทั้งสองของพวกเขาไม่ควรมีน้ำหนักเท่ากัน: เธอตั้งข้อสังเกตว่า CI ของเธอกว้างกว่าครึ่งและระบุว่าการประเมินของเธอแม่นยำกว่าและควรให้น้ำหนักมากกว่า บันทึกที่ปรึกษาของเธอที่ว่านี้ไม่สามารถจะถูกต้องเพราะการประมาณการจากน้ำหนักไม่สม่ำเสมอทั้งสองวิธีจะแตกต่างจากการประเมินจากการวิเคราะห์ข้อมูลที่สมบูรณ์ชุดซึ่งจะต้องเป็น52.552.5ความผิดพลาดของนักศึกษาระดับปริญญาเอกคือสมมติว่า CIs ระบุความถูกต้องของข้อมูลภายหลังโดยตรง

ตัวอย่างข้างต้นดูเหมือนจะทำให้เข้าใจผิด ถ้าเราสุ่มแบ่งครึ่งเป็นสองตัวอย่างเราจะคาดหวังว่าค่าเฉลี่ยตัวอย่างและข้อผิดพลาดมาตรฐานจะใกล้เคียงกัน ในกรณีเช่นนี้ไม่ควรมีความแตกต่างระหว่างการใช้ค่าเฉลี่ยถ่วงน้ำหนัก (เช่นถ่วงน้ำหนักด้วยข้อผิดพลาดผกผัน) และการใช้ค่าเฉลี่ยเลขคณิตอย่างง่าย อย่างไรก็ตามหากค่าประมาณแตกต่างกันและข้อผิดพลาดในตัวอย่างใดตัวอย่างหนึ่งมีขนาดใหญ่ขึ้นอย่างเห็นได้ชัดสิ่งนี้อาจแนะนำ "ปัญหา" กับตัวอย่างดังกล่าว

เห็นได้ชัดว่าในตัวอย่างข้างต้นขนาดของกลุ่มตัวอย่างเหมือนกันดังนั้น "เข้าร่วมกลับ" ข้อมูลโดยการใช้ค่าเฉลี่ยหมายถึงเท่ากับการใช้ค่าเฉลี่ยของกลุ่มตัวอย่างทั้งหมด ปัญหาคือตัวอย่างทั้งหมดเป็นไปตามตรรกะที่ไม่ถูกต้องที่ตัวอย่างถูกแบ่งออกเป็นส่วนแรกจากนั้นจึงนำกลับมารวมอีกครั้งสำหรับการประเมินครั้งสุดท้าย

ตัวอย่างสามารถ re-phrased เพื่อนำไปสู่ข้อสรุปตรงกันข้าม:

ผู้วิจัยและนักเรียนตัดสินใจที่จะแบ่งชุดข้อมูลออกเป็นสองส่วนและวิเคราะห์แยกต่างหาก หลังจากนั้นพวกเขาเปรียบเทียบการประเมินของพวกเขาและปรากฏว่าตัวอย่างหมายความว่าพวกเขาคำนวณแตกต่างกันมากนอกจากนี้ข้อผิดพลาดมาตรฐานของการประเมินของนักเรียนก็ยิ่งมากขึ้น นักเรียนกลัวว่าสิ่งนี้จะแนะนำปัญหาที่มีความแม่นยำในการประมาณค่าของเขา แต่นักวิจัยบอกเป็นนัยว่าไม่มีการเชื่อมต่อระหว่างช่วงความมั่นใจและความแม่นยำดังนั้นการประมาณการทั้งสองมีความน่าเชื่อถือเท่า ๆ กันและพวกเขาสามารถเผยแพร่ได้ เป็นประมาณการสุดท้ายของพวกเขา

ระบุว่าเป็นทางการมากขึ้นช่วงความมั่นใจ "มาตรฐาน" เช่นของนักเรียนนั้นขึ้นอยู่กับข้อผิดพลาดt

x¯±c×SE(x)

โดยที่คงที่ ในกรณีเช่นนี้พวกเขาเกี่ยวข้องโดยตรงกับความแม่นยำใช่มั้ย .. ?c

ดังนั้นคำถามของฉัน
คือการเข้าใจผิดที่มีความแม่นยำเป็นความผิดจริงหรือไม่? ช่วงความมั่นใจพูดถึงความแม่นยำอย่างไร


Morey, R. , Hoekstra, R. , Rouder, J. , Lee, M. , & Wagenmakers, E.-J. (2015) การเข้าใจผิดในการวางความเชื่อมั่นในช่วงความมั่นใจ Bulletin & ทบทวนจิตวิทยา, 1–21 https://learnbayes.org/papers/confidenceIntervalsFallacy/


2
ฉันคิดว่าถ้าความแม่นยำถูกกำหนดให้เป็นส่วนกลับของความแปรปรวนจากนั้นความกว้างของ CIs เหล่านี้จะสะท้อนเฉพาะการประมาณความแม่นยำเท่านั้น ความกว้างของช่วงเวลาที่น่าเชื่อถือของ Bayesian สำหรับค่าเฉลี่ยจะสะท้อนถึงความไม่แน่นอนเกี่ยวกับความแม่นยำ
Scortchi - Reinstate Monica

@Scortchi แล้วนี่เป็นอีกวิธีหนึ่งในการบอกว่าวิธีการที่ใช้บ่อยเป็นสิ่งที่ไม่น่าเชื่อถือโดยทั่วไป .. ?
ทิม

7
ฉันว่านี่เป็นปลาเฮอริ่งแดง ฉันเพิ่งจำลองการทดลอง 10,000 ครั้งในแต่ละตัวอย่างวาด 50 ตัวอย่างจากการแจกแจงแบบปกติที่มีค่าเฉลี่ย 52.5 และ SD 7.5 (เพื่อให้ SE ของตัวอย่างย่อยขนาด 25 น่าจะประมาณ, ให้ค่า CI ของ±37.5/25=5±3 ) จากนั้นฉันแบ่งตัวอย่างเหล่านี้เป็นสองชุดและตรวจสอบความถี่ของ CIs ที่แตกต่างกันตั้งแต่ 2 ครั้งขึ้นไป สิ่งนี้เกิดขึ้นใน 6 กรณีจาก 10,000 คดีเท่านั้น ใครก็ตามที่สังเกต CIs แตกต่างกันนี้ค่อนข้างจะสงสัยว่ามีบางอย่างผิดปกติในการเลือกตัวอย่าง
S. Kolassa - Reinstate Monica

@StephanKolassa ผมว่าแบบจำลองที่เดียวกันกับที่นำไปสู่ข้อสรุปที่ว่าเหมือนกัน - นี้เป็นวิธีที่คำถามที่โผล่ออกมา :)
ทิม

2
@ เวลา: ฉันไม่รู้จริง ๆ ว่าพวกเขากำลังพยายามจะไปที่: ถ้าหาก ความแม่นยำที่แท้จริงของการประมาณค่าเฉลี่ยนั้นถูกคิดว่าเป็นฟังก์ชั่นของค่าพารามิเตอร์ที่ไม่ทราบค่า อย่าคิดว่าจะมีใครยอมรับว่าความแตกต่างในความกว้างของ CIs ทั้งสองนี้จึงไม่สะท้อนความแตกต่างในความแม่นยำของการประมาณการ (เว้นแต่พวกเขาจะสงสัยขั้นตอนการสุ่มตัวอย่าง) เมื่อพิจารณาถึงคุณสมบัติการครอบคลุมของ CIs ตามเงื่อนไขในค่าสัมประสิทธิ์การเปลี่ยนแปลงที่สังเกตได้อาจเป็นวิธีที่ดีกว่า
Scortchi - Reinstate Monica

คำตอบ:


16

ในบทความนี้เราแสดงให้เห็นถึงการเข้าใจผิดอย่างแม่นยำในหลายวิธี สิ่งที่คุณถามเกี่ยวกับ - สิ่งแรกในเอกสาร - ตัวอย่างมีไว้เพื่อแสดงให้เห็นว่า "CI = ความแม่นยำ" แบบง่าย ๆ นั้นผิด นี่ไม่ได้เป็นการบอกว่าสิ่งนี้บ่อยนักผู้มีอำนาจ, Bayesian หรือ likelihoodist จะสับสนกับสิ่งนี้

ต่อไปนี้เป็นอีกวิธีในการดูว่าเกิดอะไรขึ้น: หากเราเพิ่งบอก CIs เราจะยังไม่สามารถรวมข้อมูลในตัวอย่างเข้าด้วยกัน เราจำเป็นต้องรู้และจากนั้นเราสามารถแยก CIs ออกเป็นˉ xและs 2และรวมตัวอย่างสองตัวอย่างเข้าด้วยกันอย่างถูกต้อง เหตุผลที่เราต้องทำสิ่งนี้คือข้อมูลใน CI นั้นอยู่เหนือขอบเขตของพารามิเตอร์ที่สร้างความรำคาญ เราต้องคำนึงว่าทั้งสองตัวอย่างมีข้อมูลเกี่ยวกับพารามิเตอร์ความรำคาญเดียวกัน สิ่งนี้เกี่ยวข้องกับการคำนวณทั้งสองอย่างNx¯s2ค่ารวมพวกเขาจะได้รับการประมาณการโดยรวมของ σ 2แล้วคำนวณ CI ใหม่s2σ2

สำหรับการสาธิตอื่น ๆ เกี่ยวกับการเข้าใจผิดอย่างแม่นยำโปรดดู

  • หลาย CIs ในส่วน Welch (1939) (เรือดำน้ำ) ซึ่งหนึ่งในนั้นรวมถึง CI "เล็กน้อย" ที่กล่าวถึงโดย @dsaxton ด้านบน ในตัวอย่างนี้ CI ที่ดีที่สุดจะไม่ติดตามความกว้างของโอกาสและมีอีกหลายตัวอย่างของ CIs ที่ไม่เหมือนกัน
  • ความจริงที่ว่าซีไอเอ - แม้กระทั่งซีไอเอที่ "ดี" ก็สามารถว่างเปล่าได้ "เท็จ" แสดงถึงความแม่นยำที่ไม่สิ้นสุด

คำตอบของปริศนาคือ "ความแม่นยำ" อย่างน้อยที่สุดวิธีที่ผู้สนับสนุน CI คิดเกี่ยวกับมัน (การประเมินหลังการทดลองว่า "การปิด" การประมาณคือพารามิเตอร์) นั้นไม่ใช่ลักษณะที่ช่วงความมั่นใจโดยทั่วไป และพวกเขาไม่ได้ตั้งใจ ขั้นตอนความมั่นใจโดยเฉพาะอาจ ... หรือไม่

ดูการอภิปรายที่นี่: http://andrewgelman.com/2011/08/25/why_it_doesnt_m/#comment-61591


7
(+1) ยอดเยี่ยมจากผู้เขียนจริง! ฉันยอมรับว่า CI มีปัญหาทางปรัชญาหลายประการเช่นเดียวกับการอนุมานทุกรูปแบบ (แค่ปัญหาที่แตกต่างกัน ) ... ฉันชอบวิธีที่คุณชี้ให้เห็นว่าเป็นขั้นตอนความมั่นใจเฉพาะที่คุณต้องพิจารณาไม่ใช่แค่ว่าเป็น CI และระดับดังกล่าว

4
(+1) ขอบคุณสำหรับคำตอบของคุณ! ฉันเห็นด้วยกับข้อโต้แย้งที่คุณระบุในเอกสารของคุณว่า CI ไม่ต้องพูดอะไรเกี่ยวกับความแม่นยำ แต่การเรียกสิ่งนี้ว่าการเข้าใจผิดนั้นทำให้คุณรู้สึกว่าคุณไม่ได้พูดอะไรเกี่ยวกับความแม่นยำ - และนี่ไม่ใช่สิ่งเดียวกัน ... ยิ่งกว่านั้น: ในความเห็นของคุณมันเป็น "การเข้าใจผิดอย่างแม่นยำ" เป็นปัญหาการวิเคราะห์ในชีวิตจริง .. ? ฉันยอมรับว่าการตีความของ CI ผิด แต่ในกรณีนี้ฉันไม่แน่ใจ ...
ทิม

2
ผลกระทบ "ชีวิตจริง" เป็นเรื่องยากที่จะหาจำนวนโดยเฉพาะอย่างยิ่ง b / c ที่สามารถพูดคุยเกี่ยวกับผลกระทบในสถานการณ์การวิเคราะห์ที่เฉพาะเจาะจงหรือข้ามเขตข้อมูล สำหรับการคำนวณ CI บน Gaussian หมายถึงการเข้าใจผิดนั้นไม่อันตรายเกินไป แต่ให้พิจารณารายการอ้างอิงที่ p117 (ย่อหน้าเริ่มต้น "ขั้นตอนความมั่นใจของ Steiger จะบ่อยแค่ไหน ... ") ช่วงเวลาในเอกสารที่เผยแพร่มีแนวโน้มว่า "แคบเกินไป" การเข้าใจผิดมีผลกระทบอื่น ๆ : การขาดความละเอียดถี่ถ้วนในการกำเนิดของกระบวนการ CI ใหม่ (ตรวจสอบกระดาษใด ๆ กับ CI ใหม่) ลังเลที่นักวิเคราะห์จะย้ายออกจากสมมติฐาน Gaussian เมื่อจำเป็นและอื่น ๆ
richarddmorey

ฉันถูกยั่วเย้าโดย parantheses เหล่านี้ "เรือดำน้ำ" นี่คืออะไร?
Superbest

1
θ

13

ก่อนอื่นให้ จำกัด ตัวเราไว้ที่ขั้นตอน CI ซึ่งจะสร้างช่วงเวลาด้วยความกว้างที่เป็นบวกและ จำกัด อย่างเคร่งครัดเท่านั้น (เพื่อหลีกเลี่ยงกรณีทางพยาธิวิทยา)

ในกรณีนี้ความสัมพันธ์ระหว่างความแม่นยำและความกว้างของ CI สามารถแสดงให้เห็นได้ในทางทฤษฎี ใช้การประมาณค่าเฉลี่ย (เมื่อมี) หาก CI ของคุณสำหรับค่าเฉลี่ยแคบมากคุณมีการตีความสองอย่าง: คุณโชคไม่ดีและกลุ่มตัวอย่างของคุณแน่นเกินไป (มีโอกาส 5% ที่เกิดขึ้น) หรือช่วงเวลาของคุณครอบคลุมค่าเฉลี่ยจริง (95% โอกาสเบื้องต้น) แน่นอน CI ที่สังเกตได้อาจเป็นหนึ่งในสองสิ่งนี้แต่เราตั้งค่าการคำนวณของเราเพื่อให้หลังมีแนวโน้มที่จะเกิดขึ้นมากขึ้น (เช่นโอกาส 95% เป็นนิรนัย) ... ดังนั้นเราจึงมีระดับสูง ของความมั่นใจช่วงเวลาของเราครอบคลุมค่าเฉลี่ยเนื่องจากเราตั้งค่าความน่าจะเป็นดังนั้นนี่จึงเป็นเช่นนั้น ดังนั้น 95% CI ไม่ใช่ช่วงเวลาความน่าจะเป็น (เช่น Bayesian Credible Interval) แต่เป็น "ผู้ให้คำปรึกษาที่เชื่อถือได้" มากกว่า ... คนที่สถิติถูกต้อง 95% ของเวลาดังนั้นเราจึงเชื่อคำตอบของพวกเขาแม้ว่า คำตอบใด ๆ อาจผิด

ใน 95% ของกรณีที่มันครอบคลุมพารามิเตอร์จริงจากนั้นความกว้างจะบอกคุณบางอย่างเกี่ยวกับช่วงของค่าที่เป็นไปได้ที่ได้รับข้อมูล (เช่นคุณสามารถผูกค่าที่แท้จริงได้ดีเพียงใด) ดังนั้นมันจึงทำหน้าที่เหมือนเครื่องวัดความแม่นยำ . ใน 5% ของกรณีที่ไม่เกิดขึ้นดังนั้น CI จึงทำให้เข้าใจผิด (เนื่องจากตัวอย่างทำให้เข้าใจผิด)

ดังนั้นความกว้าง 95% CI หมายถึงความแม่นยำ ... ฉันว่ามีโอกาส 95% ที่มันจะทำได้ (หากความกว้างของ CI ของคุณเป็นค่าบวกแน่นอน) ;-)

CI ที่เหมาะสมคืออะไร

ในการตอบกลับโพสต์ของผู้เขียนต้นฉบับฉันได้แก้ไขคำตอบของฉัน (a) โดยคำนึงว่าตัวอย่าง "ตัวอย่างแยก" มีจุดประสงค์ที่เฉพาะเจาะจงมากและ (b) เพื่อให้พื้นหลังเพิ่มเติมตามที่ผู้ร้องขอร้องขอ:

ในโลกอุดมคติ (บ่อยครั้ง) การแจกแจงการสุ่มตัวอย่างทั้งหมดจะยอมรับสถิติสำคัญที่เราสามารถใช้เพื่อให้ได้ช่วงความมั่นใจที่แน่นอน อะไรคือสิ่งที่ยอดเยี่ยมเกี่ยวกับสถิติสำคัญ การแจกแจงสามารถทำได้โดยไม่ทราบมูลค่าที่แท้จริงของพารามิเตอร์ที่กำลังถูกประเมิน! ในกรณีที่ดีเหล่านี้เรามีการแจกแจงที่แน่นอนของสถิติตัวอย่างของเราที่เกี่ยวข้องกับพารามิเตอร์ที่แท้จริง (แม้ว่ามันอาจจะไม่ใช่เกาส์เซียน) เกี่ยวกับพารามิเตอร์นี้

เพิ่มความกระชับ: เรารู้ว่าการแจกแจงข้อผิดพลาด (หรือการเปลี่ยนแปลงบางอย่าง)

คุณภาพของตัวประมาณค่าบางอย่างที่ช่วยให้เราสร้างช่วงความเชื่อมั่นที่สมเหตุสมผลได้ ช่วงเวลาเหล่านี้ไม่เพียงแค่ตอบสนองคำจำกัดความของพวกเขาเท่านั้น ... พวกเขาทำได้โดยอาศัยการได้รับจากการแจกแจงความคลาดเคลื่อนที่เกิดขึ้นจริง

การแจกแจงแบบเกาส์และสถิติ Z ที่เกี่ยวข้องเป็นตัวอย่างที่ยอมรับได้ของการใช้ปริมาณที่เป็นหัวใจสำคัญในการพัฒนา CI ที่แน่นอนสำหรับค่าเฉลี่ย มีตัวอย่างที่ลึกลับมากกว่านี้ แต่โดยทั่วไปแล้วเป็นสิ่งที่กระตุ้น "ทฤษฎีตัวอย่างขนาดใหญ่" ซึ่งโดยทั่วไปแล้วเป็นความพยายามที่ใช้ทฤษฎีเบื้องหลังเกาส์ซีไอซีเข้ากับการแจกแจงที่ไม่ยอมรับปริมาณที่แท้จริง ในกรณีเหล่านี้คุณจะอ่านเกี่ยวกับการพิจาณาประมาณการพิจาณาหรือ asymptotically การพิจาณา (ในขนาดตัวอย่าง) ปริมาณหรือ "ช่วง" ความเชื่อมั่น ... เหล่านี้จะขึ้นอยู่กับทฤษฎีความน่าจะเป็น - โดยเฉพาะข้อเท็จจริงที่ว่า การกระจายแบบปกติ

อีกวิธีในการสร้าง CIs ที่สมเหตุสมผลคือ "invert" การทดสอบสมมติฐาน แนวคิดคือการทดสอบ "ดี" (เช่น UMP) จะส่งผลให้ CI ที่ดี (อ่าน: แคบ) สำหรับอัตราความผิดพลาด Type I ที่กำหนด สิ่งเหล่านี้ไม่มีแนวโน้มที่จะให้ความคุ้มครองที่แน่นอน แต่ให้ความคุ้มครองที่ต่ำกว่าขอบเขต (หมายเหตุ: คำจำกัดความที่แท้จริงของ X% -CI เพียงบอกว่าต้องครอบคลุมพารามิเตอร์จริงอย่างน้อย X% ของเวลา)

การใช้การทดสอบสมมติฐานไม่จำเป็นต้องมีการกระจายโดยตรงหรือการกระจายข้อผิดพลาด - ความรู้สึกมันมาจากความรู้สึกของการทดสอบพื้นฐาน ตัวอย่างเช่นหากเรามีการทดสอบที่ภูมิภาคที่ถูกปฏิเสธมีความยาว 0 5% ของเวลาและความยาวที่ไม่มีที่สิ้นสุด 95% ของเวลาเราจะกลับไปที่ที่เราอยู่กับ CI - แต่มันชัดเจนว่าการทดสอบนี้ไม่ได้ ตามเงื่อนไขของข้อมูลและด้วยเหตุนี้จะไม่ให้ข้อมูลใด ๆ เกี่ยวกับพารามิเตอร์พื้นฐานที่กำลังทดสอบ

แนวคิดที่กว้างกว่านี้ - การประมาณความแม่นยำควรเป็นเงื่อนไขในข้อมูลกลับไปที่ Fischer และแนวคิดเกี่ยวกับสถิติเสริม คุณสามารถมั่นใจได้ว่าหากผลลัพธ์ของการทดสอบหรือขั้นตอน CI ของคุณนั้นไม่ได้ถูกกำหนดโดยข้อมูล (เช่นพฤติกรรมที่มีเงื่อนไขนั้นเหมือนกับพฤติกรรมที่ไม่มีเงื่อนไข) จากนั้นคุณก็มีวิธีที่น่าสงสัย


2
มันจะดีถ้าคุณสามารถอธิบายรายละเอียดในสิ่งที่คุณเพิ่มไว้ใน "หมายเหตุ" ฉันคิดว่านี่เป็นจุดเริ่มต้นของการสนทนาทั้งหมด: เราสามารถกำหนดขั้นตอนที่ใช้บ่อยสำหรับการสร้าง CIs ซึ่งความกว้างของ CI ไม่มีความสัมพันธ์ใด ๆ กับความแม่นยำใด ๆ ดังนั้นหนึ่งสามารถโต้เถียงเป็น Morey et al ทำที่ CIs ถูกเข้าใจผิดในหลักการ ฉันเห็นด้วยกับคุณว่ากระบวนการ CI ที่ใช้กันทั่วไปนั้นมีเหตุผลมากกว่านั้น แต่ก็ต้องมีความชัดเจนในสิ่งที่ทำให้สิ่งเหล่านั้นเป็นเช่นนั้น
อะมีบาพูดว่า Reinstate Monica

@ amoeba ฉันได้เพิ่มคำอธิบายเพิ่มเติมเกี่ยวกับสาเหตุที่ทำให้ CIs ไม่ทั้งหมดถูกสร้างขึ้นเท่ากัน ... แนวคิดหลักคือความเก่าแก่สิ่งที่สองคือบทบาทของการแจกแจงข้อผิดพลาด (หรือการประมาณ)

ขอบคุณสำหรับการอัพเดท. สิ่งหนึ่งที่ฉันยังไม่ชัดเจนในคำตอบของคุณคือในย่อหน้าแรกคุณไม่ได้พูดอะไรเกี่ยวกับความกว้างของ CI; คุณกำลังพูดถึงมันประกอบด้วยหรือไม่ประกอบด้วยพารามิเตอร์ประชากรที่แท้จริง ทุกอย่างถูกต้องแม้ในกรณี "พยาธิวิทยา" จากนั้นคุณบอกว่าใช่ความกว้างบ่งบอกถึงความแม่นยำ แต่คุณไม่ได้ระบุอาร์กิวเมนต์ใด ๆ สำหรับสิ่งนั้น (ณ จุดนั้น) ในการอภิปรายภายหลังคุณอธิบายเพิ่มเติมได้
อะมีบาพูดว่า Reinstate Monica

@ amoeba ฉันเดาว่าโพสต์ของฉันสามารถทำได้ด้วยการจัดรูปแบบอีกเล็กน้อย ตรรกะพื้นฐานคือสิ่งนี้ (สมมติว่าเรากำลังใช้โพรซีเดอร์ CI "สมเหตุสมผล" ตามที่ฉันร่าง): มีโอกาส 95% ที่ช่วงเวลาจะมีพารามิเตอร์ที่แท้จริง หลังจากที่เรารวบรวมข้อมูลเรามีช่วงเวลาตามจริงของเรา (จำกัด ความกว้างไม่เป็นศูนย์) ถ้ามันมีพารามิเตอร์จริงจากนั้นความกว้างจะแสดงช่วงของค่าที่เป็นไปได้ที่อาจเป็นไปได้ดังนั้นความกว้างจะ จำกัด ขอบเขตของพารามิเตอร์ อย่างไรก็ตามใน 5% ของกรณีที่ช่วงเวลาไม่มีค่าจากนั้นช่วงเวลาจะทำให้เข้าใจผิด

@amoeba โพสต์ที่ปรับปรุงแล้วเพื่อเน้นการเชื่อมต่อระหว่างความกว้างของ CI และความแม่นยำยิ่งขึ้น

8

{x1,x2,,xn}(μ,σ2)μ(,){0}ขึ้นอยู่กับการพลิกของเหรียญอคติ ด้วยการใช้อคติที่ถูกต้องเราสามารถรับความมั่นใจในระดับใดก็ได้ที่เราต้องการ แต่แน่นอนว่า "การคาดคะเน" ช่วงเวลาของเราไม่มีความแม่นยำเลยแม้ว่าเราจะจบลงด้วยช่วงเวลาที่มีความกว้างเป็นศูนย์

เหตุผลที่ผมไม่คิดว่าเราควรดูแลเกี่ยวกับความล้มเหลวที่เห็นได้ชัดนี้ก็คือว่าในขณะที่มันเป็นความจริงที่ไม่มีการเชื่อมต่อที่จำเป็นระหว่างความกว้างของช่วงความเชื่อมั่นและความแม่นยำที่มีคือการเชื่อมต่อที่เป็นสากลเกือบระหว่างข้อผิดพลาดมาตรฐานและความแม่นยำและใน กรณีส่วนใหญ่ความกว้างของช่วงความมั่นใจเป็นสัดส่วนกับข้อผิดพลาดมาตรฐาน

σ


จุดที่ดีเกี่ยวกับ CI แบบไม่ จำกัด สุ่ม ... แสดงให้เห็นว่าความเชื่อมั่นเป็นแนวคิดที่แตกต่างกว่าความแม่นยำ ฉันอาจจะได้คำตอบของฉันโดยบอกว่าฉันกำลังสมมติ CI ตามความน่าจะเป็นซึ่งความกว้างเกี่ยวข้องกับความโค้งของความน่าจะเป็นของบันทึกซึ่งเป็นการประมาณข้อผิดพลาดมาตรฐาน ... โพสต์ของคุณชี้ให้เห็นว่า ความคุ้มครอง แต่ในวิธีที่ใช้งานง่ายมาก

ปัญหาที่เกี่ยวข้อง (แม้ว่าจะเป็นสิ่งที่น่าสนใจมาก) ก็คือเซตย่อยที่เกี่ยวข้องสำหรับ CI ... ตัวอย่างเช่นหากคุณมีเงื่อนไขเกี่ยวกับสถิติเสริมการรายงานข่าวของ CI ของคุณอาจเปลี่ยนไป (ในกรณีนี้ก็คือ การเปลี่ยนแปลงขึ้นอยู่กับความแปรปรวนของตัวอย่างของคุณ) นี่คือลิงค์ไปยังกระดาษ: jstor.org/stable/2242024?seq=1#page_scan_tab_contents

@Bey มีอีกตัวอย่างมากน้อยจากกระดาษนี้ที่เกี่ยวข้องกับเรือดำน้ำเป็น: webfiles.uci.edu/mdlee/fundamentalError.pdf มันเป็นสิ่งที่น่าสนใจ แต่ดูเหมือนว่าจะเป็นกรณีของการตีความที่ไม่มีบุคคลที่ฉลาดทำ
dsaxton

ตกลงกัน .... ไม่สามารถออกจากความรู้สึกร่วมกันที่ประตูที่มีสถิติ ... แม้จะอยู่ในเครื่องการเรียนรู้ (บางส่วนของการเรียกชื่อผิด)

1
@richarddmorey: โอเคฉันเข้าใจแล้ว ถ้าอย่างนั้นมันเป็นเพียงสูตรที่โชคร้าย! ฉันไม่ได้นำมันออกจากบริบทโดยเจตนา; ฉันอ่านประโยคนี้โดยสังเขปอย่างตรงไปตรงมาและสรุปถึงสถานการณ์ใด ๆ (ไม่ทราบว่า "ในตัวอย่างนั้น" ถูกสมมติในประโยคนั้น) พิจารณาออกความคิดเห็นชี้แจงในหัวข้ออื่นที่มีข้อกล่าวหาของฉัน (ที่มี upvotes แล้ว)
อะมีบาพูดว่า Reinstate Monica

4

ฉันคิดว่าการแยกความแตกต่างระหว่าง "ช่วงความเชื่อมั่น" และ "ความแม่นยำ" (ดูคำตอบจาก @dsaxton) มีความสำคัญเนื่องจากความแตกต่างนั้นชี้ให้เห็นปัญหาในการใช้งานทั่วไปของทั้งสองคำ

ข้อความจากWikipedia :

ความแม่นยำของระบบการวัดที่เกี่ยวข้องกับความสามารถในการทำซ้ำและการทำซ้ำคือระดับที่การวัดซ้ำภายใต้เงื่อนไขที่ไม่เปลี่ยนแปลงแสดงผลลัพธ์เดียวกัน

สิ่งหนึ่งอาจยืนยันได้ว่าช่วงความเชื่อมั่นที่เกิดขึ้นบ่อยครั้งนั้นแสดงถึงความแม่นยำของรูปแบบการวัดโครงการหากมีรูปแบบเดียวกันซ้ำ CI 95% ที่คำนวณได้สำหรับการทำซ้ำแต่ละครั้งจะมีค่าจริงหนึ่งค่าของพารามิเตอร์ใน 95% ของการทำซ้ำ

อย่างไรก็ตามนี่ไม่ใช่สิ่งที่หลายคนต้องการจากการวัดความแม่นยำในทางปฏิบัติ พวกเขาอยากรู้วิธีการปิดค่าที่วัดได้คือการจริงคุ้มค่าคุ้มค่าช่วงความมั่นใจบ่อยครั้งไม่ได้ให้การวัดความแม่นยำอย่างเคร่งครัด ภูมิภาคที่น่าเชื่อถือเบย์ทำ

บางส่วนของความสับสนคือว่าในการปฏิบัติตัวอย่างช่วงความเชื่อมั่นและ frequentist คชกรรมภูมิภาคที่น่าเชื่อถือ"จะมากขึ้นหรือน้อยทับซ้อน" การสุ่มตัวอย่างจากการแจกแจงแบบปกติดังเช่นในความคิดเห็นบางส่วนเกี่ยวกับ OP เป็นตัวอย่างเช่น นั่นอาจเป็นกรณีในทางปฏิบัติสำหรับการวิเคราะห์บางประเภทในวงกว้างที่ @Bey คำนึงถึงโดยประมาณจากข้อผิดพลาดมาตรฐานในกระบวนการที่มีการแจกแจงแบบปกติในขีด จำกัด

หากคุณรู้ว่าคุณอยู่ในสถานการณ์เช่นนี้นั้นอาจไม่มีอันตรายในทางปฏิบัติในการตีความ 95% CI เฉพาะจากการดำเนินการตามรูปแบบการวัดเพียงครั้งเดียวเนื่องจากมีความน่าจะเป็น 95% ที่มีค่าจริง อย่างไรก็ตามการตีความช่วงเวลาของความเชื่อมั่นนั้นไม่ได้มาจากสถิติบ่อยครั้งซึ่งค่าที่แท้จริงอาจเป็นหรือไม่ได้อยู่ในช่วงเวลานั้น

หากช่วงความเชื่อมั่นและภูมิภาคที่น่าเชื่อถือแตกต่างกันอย่างเห็นได้ชัดว่าการตีความแบบเหมือนเบย์ของช่วงความเชื่อมั่นบ่อยครั้งอาจทำให้เข้าใจผิดหรือผิดเนื่องจากกระดาษเชื่อมโยงด้านบนและวรรณกรรมก่อนหน้านี้ที่อ้างถึงในนั้น ใช่ "สามัญสำนึก" อาจช่วยหลีกเลี่ยงการตีความที่ผิด ๆ แต่ในประสบการณ์ของฉัน "สามัญสำนึก" นั้นไม่ธรรมดา

หน้า CrossValidated อื่น ๆ มีข้อมูลมากขึ้นในช่วงความเชื่อมั่นและความแตกต่างระหว่างช่วงความเชื่อมั่นและภูมิภาคที่น่าเชื่อถือ ลิงค์จากหน้าเหล่านั้นยังให้ข้อมูลสูง


นี่เป็นจุดที่ดี .... ฉันคิดว่าการตีความ "ความแม่นยำ" ที่ใกล้เคียงที่สุดนั้นคล้ายกับข้อผิดพลาด RMS การประมาณที่เป็นกลาง แต่มีความแปรปรวนสูงนั้นถูกมองว่าไม่ดีไปกว่าตัวประมาณที่มีความแปรปรวนต่ำ แต่มีความลำเอียงสูง ... ทั้งคู่ไม่สามารถพึ่งพาเพื่อให้การประมาณใกล้เคียงกับมูลค่าที่แท้จริง

+1 แต่ฉันไม่แน่ใจว่าฉันแบ่งปันมุมมองในแง่ร้ายของคุณใน "สามัญสำนึก" มีคำพูดที่ดีจากฟรีย์เกี่ยวกับ "สามัญสำนึก" ในสถิติ frequentist I have in fact been struck repeatedly in my own work, after being led on general principles to the solution of a problem, to find that Fisher had already grasped the essentials by some brilliant piece of common senseคือ:
อะมีบาพูดว่า Reinstate Monica

@amoeba พิจารณาการอ้างสิทธิ์ของ Laplace ว่า"ทฤษฎีความน่าจะเป็นไม่ได้เป็นอะไรนอกจากสามัญสำนึกที่ลดลงในการคำนวณ" อย่างน้อยความพยายามที่อุทิศให้กับทฤษฎีความน่าจะเป็นอย่างน้อยก็แสดงให้เห็นว่านัยยะของสามัญสำนึกนั้นไม่ชัดเจนในทันที
EdM

@ amoeba: ฟิชเชอร์ปฏิเสธ CIs และระบุ Fisher เป็น freq-ist กำลังทำให้เข้าใจผิด ตรรกะของช่วงเวลาของเขา (fiducial) คล้ายกับ obj เบย์และเขาระบุความน่าจะเป็นด้วยความไม่แน่นอนเชิงเหตุผล เขาบอกว่า: "บางครั้งมันก็ถูกกล่าวหาว่าวิธีการ fiducial โดยทั่วไปนำไปสู่ผลลัพธ์เช่นเดียวกับวิธีการของ [CIs] มันยากที่จะเข้าใจว่าสิ่งนี้เป็นเช่นนั้นได้อย่างไรเพราะมันถูกวางไว้อย่างแน่นหนาว่า ช่วงเวลาไม่ได้นำไปสู่การแถลงความน่าจะเป็นเกี่ยวกับพารามิเตอร์ของโลกแห่งความเป็นจริงในขณะที่การโต้แย้ง fiducial มีอยู่เพื่อจุดประสงค์นี้ " (ฟิชเชอร์ 1959)
richarddmorey

@ Richard, ขอบคุณสำหรับการชี้แจง เป็นที่รู้กันว่าฟิชเชอร์พูดสิ่งที่ขัดแย้งกันตลอดชีวิตการทำงานที่ยาวนานและเปลี่ยนความคิดของเขาสองสามครั้ง ฉันไม่คุ้นเคยกับทฤษฎีความไว้วางใจของเขาดังนั้นจึงไม่สามารถให้ความเห็นเกี่ยวกับเรื่องนี้ สมมติฐานที่ไม่ได้สติของฉันคือ Jeffreys ในคำพูดนั้นอ้างถึง "ช่วงเวลาของนักเล่นแร่แปรธาตุ" ของฟิชเชอร์ แต่ฉันไม่มีหลักฐานว่า จากประสบการณ์ของฉัน (มี จำกัด !) ไม่มีใครเคยใช้การอนุมานแบบ fiducial ไม่มีใคร เคย ในขณะที่มีการใช้เทคนิคบ่อยครั้งและหลายคนกลับไปหาฟิชเชอร์ ดังนั้นสมาคมที่มีอยู่ในใจของฉัน
อะมีบาพูดว่า Reinstate Monica

1

@ มีมัน ไม่มีการเชื่อมต่อที่จำเป็นระหว่างคะแนนและประสิทธิภาพหรือราคาและคุณภาพหรือกลิ่นและรสชาติ แต่คนหนึ่งมักแจ้งเกี่ยวกับอีกคนหนึ่ง

หนึ่งสามารถพิสูจน์ได้โดยการเหนี่ยวนำที่หนึ่งไม่สามารถให้แบบทดสอบป๊อป ในการตรวจสอบอย่างใกล้ชิดหมายความว่าเราไม่สามารถรับประกันได้ว่าคำถามนี้เป็นเรื่องที่น่าแปลกใจ แต่เวลาส่วนใหญ่มันจะเป็น

ดูเหมือนว่า Morey et al แสดงว่ามีบางกรณีที่ความกว้างไม่เป็นไปตามปกติ แม้ว่าจะเพียงพอที่จะเรียกร้อง "ไม่มีการเชื่อมต่อที่จำเป็นระหว่างความแม่นยำของการประมาณและขนาดของช่วงความเชื่อมั่น" แต่ก็ไม่เพียงพอที่จะสรุปต่อไปว่า CIs โดยทั่วไปไม่มีข้อมูลเกี่ยวกับความแม่นยำ เพียง แต่พวกเขาไม่รับประกันว่าจะทำเช่นนั้น

(คะแนนไม่เพียงพอที่จะตอบ + + Bey ของ)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.