ความแตกต่างระหว่างช่วงความมั่นใจกับช่วงเวลาที่เชื่อถือได้คืออะไร


229

การแลกเปลี่ยนของ Joris และ Srikant ที่นี่ทำให้ฉันสงสัย (อีกครั้ง) ถ้าคำอธิบายภายในของฉันสำหรับความแตกต่างระหว่างช่วงความมั่นใจและช่วงเวลาที่น่าเชื่อถือนั้นเป็นสิ่งที่ถูกต้อง คุณจะอธิบายความแตกต่างอย่างไร

คำตอบ:


313

ฉันเห็นด้วยอย่างสมบูรณ์กับคำอธิบายของศรีกันต์ หากต้องการหมุนฮิวริสติกมากขึ้น:

โดยทั่วไปแล้ววิธีการแบบดั้งเดิมมักวางตัวว่าโลกเป็นทางเดียว (เช่นพารามิเตอร์มีค่าจริงหนึ่งค่า) และพยายามทำการทดลองที่มีผลสรุปซึ่งไม่ว่ามูลค่าที่แท้จริงของพารามิเตอร์จะถูกต้องอย่างน้อยที่สุด ความน่าจะเป็น

เป็นผลให้เพื่อแสดงความไม่แน่นอนในความรู้ของเราหลังจากการทดลองวิธีการที่ใช้บ่อยใช้ "ช่วงความเชื่อมั่น" - ช่วงของค่าที่ออกแบบมาเพื่อรวมมูลค่าที่แท้จริงของพารามิเตอร์ที่มีความน่าจะเป็นขั้นต่ำ 95% ผู้ทำการทดสอบจะออกแบบการทดลองและขั้นตอนช่วงความมั่นใจ 95% เพื่อให้การทดสอบเริ่มต้นจนจบทุกๆ 100 การทดลองอย่างน้อย 95 ของช่วงความเชื่อมั่นที่เกิดขึ้นคาดว่าจะรวมค่าจริงของพารามิเตอร์ อีก 5 คนอาจจะผิดเล็กน้อยหรืออาจเป็นเรื่องไร้สาระที่สมบูรณ์ - การพูดอย่างเป็นทางการว่าใช้ได้ตราบใดที่วิธีการนั้นเกี่ยวข้องตราบใดที่การอนุมาน 95 จาก 100 ถูกต้อง (แน่นอนว่าเราต้องการให้พวกเขาผิดเล็กน้อยไม่ใช่เรื่องไร้สาระทั้งหมด)

วิธีการแบบเบย์กำหนดปัญหาต่างกัน แทนที่จะบอกว่าพารามิเตอร์มีเพียงค่าจริง (ไม่ทราบ) วิธี Bayesian บอกว่าค่าของพารามิเตอร์นั้นคงที่ แต่ได้รับเลือกจากการแจกแจงความน่าจะเป็นบางอย่าง - รู้จักกันในชื่อการกระจายความน่าจะเป็นก่อนหน้า (อีกวิธีที่จะบอกว่านั่นคือก่อนที่จะทำการวัดใด ๆ Bayesian มอบหมายการแจกแจงความน่าจะเป็นซึ่งพวกเขาเรียกว่าสถานะความเชื่อว่ามูลค่าที่แท้จริงของพารามิเตอร์เกิดขึ้นได้อย่างไร) ก่อนหน้านี้อาจเป็นที่รู้จัก เพื่อประเมินขนาดของรถบรรทุกถ้าเรารู้ว่าการกระจายขนาดโดยรวมของรถบรรทุกจาก DMV) หรืออาจเป็นข้อสันนิษฐานที่ดึงออกมาจากอากาศบาง ๆ การอนุมานแบบเบย์นั้นง่ายกว่า - เรารวบรวมข้อมูลบางส่วนแล้วคำนวณความน่าจะเป็นของค่าต่าง ๆ ของพารามิเตอร์ที่ให้ข้อมูล การแจกแจงความน่าจะเป็นแบบใหม่นี้เรียกว่า "ความน่าจะเป็นหลัง" หรือเพียงแค่ "หลัง" วิธีการแบบเบย์สามารถสรุปความไม่แน่นอนของพวกเขาได้ด้วยการให้ช่วงของค่าในการแจกแจงความน่าจะเป็นหลังซึ่งรวมถึง 95% ของความน่าจะเป็น - สิ่งนี้เรียกว่า "ช่วงความน่าเชื่อถือ 95%"

พรรคพวกเบย์อาจวิพากษ์วิจารณ์ช่วงความมั่นใจบ่อยเช่นนี้: "แล้วถ้าการทดลอง 95 จาก 100 ครั้งให้ช่วงความมั่นใจที่มีค่าจริงฉันไม่สนใจการทดลอง 99 ครั้งที่ฉันไม่สนใจฉันสนใจการทดลองนี้ ฉันไม่ทำกฎของคุณอนุญาต 5 จาก 100 ให้ไร้สาระสมบูรณ์ [ค่าลบ, ค่าที่เป็นไปไม่ได้] ตราบใดที่ 95 อื่นถูกต้อง; มันไร้สาระ "

นักมานุษยวิทยาคนหนึ่งอาจวิจารณ์ช่วงความน่าเชื่อถือแบบเบย์ดังนี้: "ถ้าเช่นนั้น 95% ของความน่าจะเป็นหลังรวมอยู่ในช่วงนี้จะเกิดอะไรขึ้นถ้าค่าที่แท้จริงคือพูดว่า 0.37 ถ้าเป็นเช่นนั้น เริ่มต้นจนจบจะผิด 75% ของเวลาการตอบสนองของคุณคือ 'โอเคไม่เป็นไรเพราะก่อนหน้านี้มันหายากมากที่ค่าเป็น 0.37' และนั่นอาจเป็นเช่นนั้น แต่ฉันต้องการวิธีที่ ใช้งานได้กับค่าที่เป็นไปได้ของพารามิเตอร์ใด ๆ ฉันไม่สนใจประมาณ 99 ค่าของพารามิเตอร์ที่ไม่ได้มีฉันสนใจค่าที่แท้จริงเพียงค่าเดียวที่มันมีเช่นกันโอ้โดยวิธีการคำตอบของคุณจะถูกต้องเท่านั้น ถ้าก่อนหน้านี้ถูกต้องถ้าคุณเพิ่งดึงมันออกมาจากอากาศเพราะมันรู้สึกถูกคุณสามารถออกไป "

ในแง่หนึ่งทั้งสองสมัครพรรคพวกเหล่านี้ถูกต้องในการวิพากษ์วิจารณ์ของวิธีการของกันและกัน แต่ฉันอยากให้คุณคิดทางคณิตศาสตร์เกี่ยวกับความแตกต่าง - ตามที่ศรีกันต์อธิบาย


นี่คือตัวอย่างเพิ่มเติมจากการพูดคุยที่แสดงความแตกต่างอย่างแม่นยำในตัวอย่างที่ไม่ต่อเนื่อง

เมื่อฉันยังเป็นเด็กแม่ของฉันเคยทำให้ฉันประหลาดใจเป็นครั้งคราวโดยสั่งคุกกี้ช็อกโกแลตชิปให้จัดส่งทางไปรษณีย์ บริษัท จัดส่งเก็บขวดคุกกี้สี่ชนิดที่แตกต่างกัน - ประเภท A, ประเภท B, ประเภท C และประเภท D และพวกเขาทั้งหมดอยู่ในรถบรรทุกเดียวกันและคุณไม่เคยแน่ใจว่าสิ่งที่คุณจะได้รับ แต่ละขวดมีคุกกี้ 100 ชิ้น แต่คุณสมบัติที่แยกขวดคุกกี้ที่แตกต่างกันคือการแจกช็อคโกแลตชิปต่อคุกกี้ หากคุณเข้าถึงขวดและหยิบคุกกี้ออกมาสุ่มอย่างสม่ำเสมอนี่คือการแจกแจงความน่าจะเป็นที่คุณจะได้รับตามจำนวนชิป:

ข้อความแสดงแทน

ตัวอย่างเช่นโถคุกกี้ประเภท A มี 70 คุกกี้ที่มีสองชิปแต่ละชิปและไม่มีคุกกี้ที่มีสี่ชิปขึ้นไป! โถคุกกี้แบบ Type-D มี 70 คุกกี้โดยแต่ละชิปมีหนึ่งชิป โปรดสังเกตว่าแต่ละคอลัมน์แนวตั้งเป็นฟังก์ชันมวลความน่าจะเป็น - ความน่าจะเป็นแบบมีเงื่อนไขของจำนวนชิปที่คุณจะได้รับเนื่องจาก jar = A หรือ B หรือ C หรือ C หรือ D และแต่ละคอลัมน์จะรวมกันเป็น 100

ฉันเคยรักที่จะเล่นเกมทันทีที่ผู้จัดส่งออกขวดคุกกี้ใหม่ของฉัน ฉันจะดึงคุกกี้หนึ่งชิ้นโดยการสุ่มจากโถนับชิปบนคุกกี้และพยายามแสดงความไม่แน่นอนของฉัน - ที่ระดับ 70% ซึ่งอาจเป็นขวดได้ ดังนั้นจึงเป็นข้อมูลประจำตัวของ jar (A, B, C หรือ D) ที่เป็นค่าของพารามิเตอร์ที่ถูกประเมิน จำนวนชิป (0, 1, 2, 3 หรือ 4) คือผลลัพธ์หรือการสังเกตหรือตัวอย่าง

เดิมทีฉันเล่นเกมนี้โดยใช้ช่วงความมั่นใจ 70% เป็นประจำ ช่วงเวลาดังกล่าวจำเป็นต้องตรวจสอบให้แน่ใจว่าไม่ว่ามูลค่าที่แท้จริงของพารามิเตอร์นั้นหมายความว่าไม่ว่าจะได้รับคุกกี้ขวดใดช่วงเวลาจะครอบคลุมมูลค่าที่แท้จริงด้วยความน่าจะเป็นอย่างน้อย 70%

แน่นอนว่าช่วงเวลานั้นเป็นฟังก์ชันที่เกี่ยวข้องกับผลลัพธ์ (แถว) กับชุดของค่าของพารามิเตอร์ (ชุดคอลัมน์) แต่เพื่อสร้างช่วงความมั่นใจและรับประกันความคุ้มครอง 70% เราต้องทำงาน "แนวตั้ง" - ดูที่แต่ละคอลัมน์ตามลำดับและตรวจสอบให้แน่ใจว่า 70% ของฟังก์ชันความน่าจะเป็นมวลถูกครอบคลุมเพื่อให้ 70% ของเวลานั้น ข้อมูลประจำตัวของคอลัมน์จะเป็นส่วนหนึ่งของช่วงเวลาที่เป็นผลลัพธ์ โปรดจำไว้ว่ามันเป็นคอลัมน์แนวตั้งที่สร้าง PMF

ดังนั้นหลังจากทำตามขั้นตอนนั้นฉันก็ลงเอยด้วยช่วงเวลาเหล่านี้:

ป้อนคำอธิบายรูปภาพที่นี่

ตัวอย่างเช่นหากจำนวนชิปของคุกกี้ที่ฉันวาดคือ 1 ช่วงความมั่นใจของฉันจะเป็น {B, C, D} หากตัวเลขคือ 4 ช่วงความมั่นใจของฉันจะเป็น {B, C} โปรดสังเกตว่าเนื่องจากแต่ละคอลัมน์มีจำนวนถึง 70% หรือมากกว่าดังนั้นไม่ว่าเราจะอยู่ในคอลัมน์ใด (ไม่ว่าผู้ส่งของขวดใดจะปล่อยทิ้ง) ช่วงเวลาที่เกิดจากขั้นตอนนี้จะรวมขวดที่ถูกต้องด้วยความน่าจะเป็นอย่างน้อย 70%

ขอให้สังเกตว่าขั้นตอนที่ฉันทำตามในการสร้างช่วงเวลานั้นมีดุลยพินิจบ้าง ในคอลัมน์สำหรับประเภท B ฉันสามารถทำให้แน่ใจได้อย่างง่ายดายว่าช่วงเวลาที่รวม B จะเท่ากับ 0,1,2,3 แทนที่จะเป็น 1,2,3,4 นั่นจะส่งผลให้ครอบคลุม 75% สำหรับขวดประเภท B (12 + 19 + 24 + 20) ยังคงพบกับขอบเขตที่ต่ำกว่า 70%

พี่สาวของฉัน Bayesia คิดว่าวิธีนี้บ้าไปแล้ว “ คุณต้องพิจารณาผู้ส่งมอบซึ่งเป็นส่วนหนึ่งของระบบ” เธอกล่าว "ลองปฏิบัติกับเอกลักษณ์ของโหลว่าเป็นตัวแปรสุ่มและสมมติว่าผู้จัดส่งเลือกพวกเขาอย่างเท่าเทียมกัน - หมายความว่าเขามีรถบรรทุกสี่คันและเมื่อเขาไปถึงบ้านของเราเขาเลือกสุ่มโดยแต่ละคน ความน่าจะเป็นแบบเดียวกัน "

ตอนนี้เรามาดูความน่าจะเป็นที่เกิดร่วมกันของเหตุการณ์ทั้งหมด - ประเภทโถและจำนวนชิปที่คุณวาดจากคุกกี้แรกของคุณ "เธอกล่าวโดยวาดตารางต่อไปนี้:

ป้อนคำอธิบายรูปภาพที่นี่

ขอให้สังเกตว่าตอนนี้ตารางทั้งหมดเป็นฟังก์ชันมวลความน่าจะเป็น - หมายถึงทั้งตารางมีผลรวม 100%

"ตกลง" ฉันพูด "คุณกำลังมุ่งหน้าไปกับสิ่งนี้ที่ไหน?"

"คุณได้ดูความน่าจะเป็นแบบมีเงื่อนไขของจำนวนชิปที่ได้รับในขวด" เบย์เซียกล่าว สิ่งที่คุณสนใจจริง ๆ คือความน่าจะเป็นแบบมีเงื่อนไขที่กำหนดให้กับจำนวนชิปบนคุกกี้! ช่วงเวลา 70% ของคุณควรรวมรายการขวดที่มีความน่าจะเป็น 70% jar ที่แท้จริงนั่นง่ายกว่าและเข้าใจง่ายกว่าหรือเปล่า "

"แน่นอน แต่เราจะคำนวณได้อย่างไร" ฉันถาม.

"สมมติว่าเรารู้ว่าคุณมี 3 ชิปจากนั้นเราสามารถละเว้นแถวอื่น ๆ ทั้งหมดในตารางและเพียงแค่ถือว่าแถวนั้นเป็นฟังก์ชันมวลความน่าจะเป็นเราจะต้องเพิ่มความน่าจะเป็นสัดส่วนตามสัดส่วนแต่ละแถวจะเท่ากับ 100 แม้ว่า " เธอทำ:

ป้อนคำอธิบายรูปภาพที่นี่

"สังเกตว่าแต่ละแถวตอนนี้เป็น pmf และรวมเป็น 100% เราได้พลิกความน่าจะเป็นตามเงื่อนไขจากสิ่งที่คุณเริ่มต้นด้วย - ตอนนี้มันเป็นความน่าจะเป็นของคนที่ทิ้งขวดไว้หนึ่งขวดโดยกำหนดจำนวนชิปบน คุกกี้แรก "

"น่าสนใจ" ฉันพูด "ตอนนี้เราก็แค่ไหไหในแต่ละแถวมากพอที่จะรับความน่าจะเป็นได้มากถึง 70%" เราทำอย่างนั้นทำให้ช่วงความน่าเชื่อถือเหล่านี้:

ป้อนคำอธิบายรูปภาพที่นี่

แต่ละช่วงเวลาจะมีชุดของไหที่เป็นความน่าจะเป็นรวม 70% ของการเป็นไหจริง

"เอาเลย" ฉันพูด "ฉันไม่เชื่อมั่นลองวางช่วงเวลาสองแบบเคียงข้างกันแล้วเปรียบเทียบพวกมันเพื่อให้ครอบคลุมและสมมติว่าผู้ส่งเลือกขวดแต่ละประเภทด้วยความน่าจะเป็นเท่ากับความน่าเชื่อถือ"

ที่นี่พวกเขาคือ:

ช่วงความเชื่อมั่น:

ป้อนคำอธิบายรูปภาพที่นี่

ช่วงเวลาความน่าเชื่อถือ:

ป้อนคำอธิบายรูปภาพที่นี่

"มาดูกันว่าช่วงความมั่นใจของคุณมันบ้าแค่ไหน" กล่าวว่าเบย์เซีย "คุณไม่มีคำตอบที่สมเหตุสมผลเมื่อคุณวาดคุกกี้ที่มีชิปเป็นศูนย์! คุณแค่บอกว่ามันเป็นช่วงเวลาที่ว่างเปล่า แต่นั่นก็ผิดอย่างเห็นได้ชัด - มันจะต้องเป็นหนึ่งในสี่ประเภทขวด ตัวคุณเองระบุช่วงเวลาในตอนท้ายของวันเมื่อคุณรู้ว่าช่วงเวลานั้นผิดหรือเปล่าและเมื่อคุณดึงคุกกี้ที่มี 3 ชิป - ช่วงเวลาของคุณถูกต้องเพียง 41% ของเวลาเรียกความเชื่อมั่นนี้ '70% ' ช่วงคือพล่าม "

"เฮ้เฮ้" ฉันตอบ "มันถูกต้อง 70% ของเวลาไม่ว่าผู้ส่งมอบขวดจะออกไปแบบไหนนั่นเป็นอะไรที่มากกว่าที่คุณสามารถพูดเกี่ยวกับความน่าเชื่อถือของคุณได้ถ้าหากกระปุกประเภท B ล่ะช่วงเวลาของคุณจะผิด 80% ของเวลา และแก้ไขให้ถูกต้อง 20% เท่านั้น! "

"นี่เป็นปัญหาใหญ่" ฉันพูดต่อ "เพราะความผิดพลาดของคุณจะสัมพันธ์กับประเภทของโถถ้าคุณส่งหุ่นยนต์ 100 'Bayesian' เพื่อประเมินขวดที่คุณมีหุ่นยนต์แต่ละตัวสุ่มคุกกี้หนึ่งตัวคุณ กำลังบอกฉันว่าในวันที่พิมพ์ B คุณจะคาดหวังว่า 80 ของหุ่นยนต์จะได้รับคำตอบที่ผิดแต่ละคนมีความเชื่อ> 73% ในข้อสรุปที่ไม่ถูกต้อง! มันลำบากโดยเฉพาะถ้าคุณต้องการให้หุ่นยนต์ส่วนใหญ่เห็นด้วยกับ คำตอบที่ถูกต้อง "

"บวกเราต้องทำให้สมมติฐานนี้ว่าพนักงานส่งสินค้าทำงานอย่างสม่ำเสมอและเลือกขวดแต่ละประเภทโดยการสุ่ม" ฉันพูด "มันมาจากไหนจะเกิดอะไรขึ้นถ้ามันผิด? คุณไม่ได้คุยกับเขาคุณยังไม่ได้สัมภาษณ์เขา แต่คำแถลงทั้งหมดที่คุณมีต่อความเป็นไปได้ที่เหลืออยู่ในแถลงการณ์นี้เกี่ยวกับพฤติกรรมของเขาฉันไม่ต้องทำ สมมติฐานใด ๆ เช่นนี้และช่วงเวลาของฉันตรงตามเกณฑ์แม้ในกรณีที่เลวร้ายที่สุด "

“ เป็นเรื่องจริงที่ช่วงความน่าเชื่อถือของฉันทำงานได้ไม่ดีกับขวดประเภท B” เบย์เซียกล่าว "แต่แล้วอะไรล่ะขวดแบบ B เกิดขึ้นเพียง 25% เท่านั้นมันมีความสมดุลโดยความคุ้มครองที่ดีของฉันคือขวดประเภท A, C และ D และฉันไม่เคยตีพิมพ์ไร้สาระ"

"เป็นเรื่องจริงที่ช่วงความมั่นใจของฉันจะทำงานได้ไม่ดีเมื่อฉันวาดคุกกี้ที่มีชิปเป็นศูนย์" ฉันพูด "แต่แล้วอะไรล่ะ Chipless cookies เกิดขึ้นมากที่สุด 27% ของเวลาในกรณีเลวร้ายที่สุด (jar-D ประเภท) ฉันสามารถจ่ายเรื่องไร้สาระให้กับผลลัพธ์นี้ได้เพราะ NO jar จะส่งผลให้ตอบผิดมากกว่า 30 ครั้ง % ของเวลา "

"คอลัมน์มีความสำคัญมาก" ฉันพูด

“ ผลรวมแถวสำคัญ” เบย์เซียพูด

“ ฉันเห็นว่าเราอยู่ในสภาพอับจน” ฉันพูด "เราทั้งคู่ถูกต้องในข้อความทางคณิตศาสตร์ที่เราทำ แต่เราไม่เห็นด้วยกับวิธีที่เหมาะสมในการหาปริมาณความไม่แน่นอน"

"นั่นเป็นความจริง" น้องสาวของฉันพูด "ต้องการคุกกี้หรือไม่"


17
คำตอบที่ดี - มีเพียงจุดเดียวคุณพูดว่า "... แทนที่จะบอกว่าพารามิเตอร์มีค่าจริงหนึ่งค่าวิธีการแบบเบย์บอกว่าค่านั้นถูกเลือกจากการแจกแจงความน่าจะเป็นบางอย่าง ..... " นี่ไม่จริง Bayesian เหมาะกับการกระจายความน่าจะเป็นเพื่อแสดงความไม่แน่นอนเกี่ยวกับค่าจริงที่ไม่รู้จักและแน่นอน สิ่งนี้บอกว่าค่าใดเป็นไปได้เนื่องจากสิ่งที่เป็นที่รู้จักก่อนที่จะสังเกตข้อมูล น่าจะเป็นคำสั่งที่เกิดขึ้นจริงเป็นที่คือมูลค่าที่แท้จริงและสมมุติฐานหนึ่งบนพื้นฐานของข้อมูลที่ฉันθ 0 θ ฉันPr[θ0(θ,θ+dθ)|I]θ0θI
ความน่าจะเป็นทาง

1
... ต่อไป ... แต่มันสะดวกกว่าที่จะเขียนด้วยความเข้าใจในความหมายของคำว่า "เบื้องหลัง" ชัดเจนว่านี่อาจทำให้เกิดความสับสนมาก p(θ)
ความน่าจะเป็นทาง

16
ขออภัยที่จะฟื้นการโพสต์เก่าสุดนี้ แต่คำถามที่รวดเร็วในการโพสต์ของคุณในส่วนที่บ่อยนักวิพากษ์วิจารณ์วิธี Bayesian ที่คุณพูดว่า: "ถ้ามูลค่าที่แท้จริงคือการพูด 0.37 ถ้าเป็นแล้ววิธีการของคุณเริ่มต้น เมื่อเสร็จแล้วจะผิด 75% ของเวลา " คุณได้รับตัวเลขเหล่านั้นได้อย่างไร 0.37 สอดคล้องกับ 75% อย่างไร นี่เป็นเส้นโค้งความน่าจะเป็นบางประเภทหรือไม่? ขอบคุณ
BYS2

1
ภาพประกอบเจ๋ง! ช่วงความเชื่อมั่นและความน่าเชื่อถือของโมเดลชิปช็อคโกแลตจะถูกปรับอย่างไรหากเราได้รับอนุญาตให้ตัวอย่าง n คุกกี้จากขวด และเราสามารถให้คะแนนความแม่นยำของทั้งสองวิธีได้หรือไม่เมื่อเรารวบรวมข้อมูลบนความถี่สัมพัทธ์ ของขวดที่ส่งมอบ? ฉันจะเดาว่าวิธีการแบบเบย์จะทำให้การคาดการณ์ดีขึ้นเมื่อเราค่อนข้างแน่ใจเกี่ยวกับการกระจายก่อนหน้า (พูดหลังจากส่งมอบ ~ 30 ครั้ง) แต่ถ้า dbn ก่อนหน้านี้มีการเปลี่ยนแปลงอย่างฉับพลัน (พูดว่าผู้จัดส่งใหม่รับหน้าที่) ดังนั้นแนวทางของผู้ใช้บ่อยจะได้รับประโยชน์
RobertF

4
@ BYS2 เมื่อผู้เขียนกล่าวว่า"What if the true value is, say, 0.37? If it is, then your method, run start to finish, will be WRONG 75% of the time"พวกเขาเพียงแค่ให้ตัวอย่างตัวเลขที่พวกเขาทำขึ้น ในกรณีพิเศษนี้พวกเขาจะอ้างถึงการแจกแจงก่อนหน้าบางอย่างที่มีค่าต่ำมากที่ 0.37 โดยส่วนใหญ่มีความหนาแน่นของความน่าจะเป็นที่อื่น และเราสมมติว่าการกระจายตัวอย่างของเราจะทำงานได้ไม่ดีมากเมื่อค่าจริงของพารามิเตอร์เท่ากับ 0.37 ซึ่งคล้ายกับความน่าเชื่อถือของเบย์เซียในช่วงเวลาที่ล้มเหลวอย่างน่าสมเพชเมื่อไหก่อให้เกิดประเภท -B
Garrett

32

ความเข้าใจของฉันเป็นดังนี้:

พื้นหลัง

สมมติว่าคุณมีข้อมูลบางส่วนและคุณกำลังพยายามที่จะประเมิน\คุณมีกระบวนการผลิตข้อมูลที่อธิบายถึงวิธีถูกสร้างเงื่อนไขใน\ในคำอื่น ๆ ที่คุณรู้ว่าการกระจายของ (พูด,theta)xθxθxf(x|θ)

ปัญหาการอนุมาน

ปัญหาการอนุมานของคุณคือ: สิ่งที่มีค่าของจะได้รับที่เหมาะสมข้อมูลที่สังเกต ?θx

ช่วงความเชื่อมั่น

ช่วงความเชื่อมั่นเป็นคำตอบแบบคลาสสิกสำหรับปัญหาข้างต้น ในวิธีการนี้คุณคิดว่ามีจริงคงคุณค่าของ\ด้วยสมมติฐานนี้คุณใช้ dataเพื่อไปหาค่าประมาณ (พูด, ) เมื่อคุณมีค่าประมาณของคุณคุณต้องการประเมินว่ามูลค่าที่แท้จริงนั้นสัมพันธ์กับค่าประมาณของคุณอย่างไรθxθθ^

ขอให้สังเกตว่าภายใต้วิธีนี้มูลค่าที่แท้จริงไม่ใช่ตัวแปรสุ่ม มันเป็นปริมาณคงที่ แต่ไม่ทราบ ในทางตรงกันข้ามการประมาณการของคุณเป็นตัวแปรสุ่มเพราะมันขึ้นอยู่กับข้อมูลของคุณซึ่งถูกสร้างขึ้นจากกระบวนการผลิตข้อมูลของคุณ ดังนั้นคุณจะรู้ว่าคุณได้รับการประมาณการที่แตกต่างกันในแต่ละครั้งที่คุณเรียนซ้ำx

ความเข้าใจข้างต้นนำไปสู่วิธีการต่อไปนี้เพื่อประเมินว่าพารามิเตอร์ที่แท้จริงเกี่ยวข้องกับการประมาณการของคุณ กำหนดช่วงเวลาด้วยคุณสมบัติต่อไปนี้:I[lb(x),ub(x)]

P(θI)=0.95

ช่วงเวลาที่สร้างขึ้นเหมือนด้านบนคือสิ่งที่เรียกว่าช่วงความมั่นใจ เนื่องจากค่าจริงไม่เป็นที่รู้จัก แต่ได้รับการแก้ไขค่าจริงจะอยู่ในช่วงเวลาหรือนอกช่วงเวลา ช่วงเวลาความมั่นใจนั้นเป็นข้อความเกี่ยวกับโอกาสที่ช่วงเวลาที่เราได้รับจริงมีค่าพารามิเตอร์จริง ดังนั้นคำสั่งความน่าจะเป็นเกี่ยวกับช่วงเวลา (เช่นโอกาสที่ช่วงเวลาที่มีค่าจริงหรือไม่) มากกว่าเกี่ยวกับสถานที่ตั้งของค่าพารามิเตอร์ที่แท้จริง

ในกระบวนทัศน์นี้มันไม่มีความหมายที่จะพูดเกี่ยวกับความน่าจะเป็นที่ค่าจริงน้อยกว่าหรือมากกว่าค่าบางค่าเนื่องจากค่าจริงไม่ใช่ตัวแปรสุ่ม

ช่วงเวลาที่น่าเชื่อถือ

ในทางตรงกันข้ามกับวิธีการแบบคลาสสิกในวิธีการแบบเบย์เราคิดว่าค่าที่แท้จริงคือตัวแปรสุ่ม ดังนั้นเราจึงจับความไม่แน่นอนของเราเกี่ยวกับค่าพารามิเตอร์ที่แท้จริงโดยกำหนดให้มีการแจกแจงก่อนหน้าบนเวกเตอร์พารามิเตอร์จริง (พูด )f(θ)

การใช้ทฤษฎีบทเบย์เราสร้างการแจกแจงหลังสำหรับพารามิเตอร์เวกเตอร์โดยการผสมก่อนหน้าและข้อมูลที่เรามี (สั้น ๆ หลังคือ )f(θ|)f(θ)f(x|θ)

จากนั้นเราก็มาถึงจุดประมาณโดยใช้การกระจายหลัง (เช่นใช้ค่าเฉลี่ยของการกระจายหลัง) อย่างไรก็ตามเนื่องจากภายใต้กระบวนทัศน์นี้เวกเตอร์พารามิเตอร์จริงเป็นตัวแปรสุ่มเราจึงต้องการทราบขอบเขตของความไม่แน่นอนที่เรามีในการประเมินจุดของเรา ดังนั้นเราจึงสร้างช่วงเวลาดังต่อไปนี้:

P(l(θ)θub(θ))=0.95

ข้างต้นเป็นช่วงเวลาที่น่าเชื่อถือ

สรุป

ช่วงเวลาที่น่าเชื่อถือจับความไม่แน่นอนในปัจจุบันของเราในตำแหน่งของค่าพารามิเตอร์และสามารถตีความได้ว่าเป็นคำสั่งที่น่าจะเป็นเกี่ยวกับพารามิเตอร์

ในทางตรงกันข้ามช่วงความเชื่อมั่นจะจับความไม่แน่นอนเกี่ยวกับช่วงเวลาที่เราได้รับ (เช่นไม่ว่าจะมีค่าจริงหรือไม่ก็ตาม) ดังนั้นจึงไม่สามารถตีความได้ว่าเป็นคำสั่งที่น่าจะเป็นเกี่ยวกับค่าพารามิเตอร์ที่แท้จริง


2
ช่วงความมั่นใจ 95% ตามคำจำกัดความครอบคลุมค่าพารามิเตอร์จริงใน 95% ของเคสตามที่คุณระบุอย่างถูกต้อง ดังนั้นโอกาสที่ช่วงเวลาของคุณจะครอบคลุมค่าพารามิเตอร์ที่แท้จริงคือ 95% บางครั้งคุณสามารถพูดบางอย่างเกี่ยวกับโอกาสที่พารามิเตอร์มีขนาดใหญ่กว่าหรือเล็กกว่าขอบเขตใด ๆ โดยขึ้นอยู่กับสมมติฐานที่คุณทำเมื่อสร้างช่วงเวลา (มักเป็นการกระจายตัวตามปกติของคุณ คุณสามารถคำนวณ P (theta> ub) หรือ P (ub <theta) คำแถลงนั้นเกี่ยวกับขอบเขตที่แน่นอน แต่คุณสามารถทำได้
Joris Meys

9
Joris ฉันไม่เห็นด้วย ใช่สำหรับค่าใด ๆ ของพารามิเตอร์จะมี> 95% ความน่าจะเป็นที่ช่วงเวลาผลลัพธ์จะครอบคลุมค่าจริง นั่นไม่ได้หมายความว่าหลังจากทำการสังเกตและคำนวณช่วงเวลาแล้วยังมีความน่าจะเป็นตามเงื่อนไข 95% เนื่องจากข้อมูลที่ช่วงเวลานั้นครอบคลุมค่าจริง ดังที่ฉันได้กล่าวไว้ด้านล่างอย่างเป็นทางการมันจะเป็นที่ยอมรับได้อย่างสมบูรณ์แบบสำหรับช่วงความมั่นใจที่จะคาย [0, 1] 95% ของเวลาและชุดที่ว่างเปล่าอีก 5% โอกาสที่คุณได้เซตที่ว่างเปล่าเป็นช่วงเวลานั้นมีความน่าจะเป็น 95% ที่มูลค่าที่แท้จริงอยู่ภายใน!
Keith Winstein

@ Keith: ฉันเห็นจุดของคุณแม้ว่าชุดว่างไม่ได้เป็นช่วงเวลาตามคำจำกัดความ ความน่าจะเป็นของช่วงความมั่นใจนั้นไม่ได้เป็นไปตามเงื่อนไขของข้อมูลเช่นกัน ทุกช่วงความมั่นใจมาจากตัวอย่างสุ่มที่แตกต่างกันดังนั้นโอกาสที่ตัวอย่างของคุณจะถูกดึงจน 95% CI ที่ใช้ไม่ครอบคลุมค่าพารามิเตอร์ที่แท้จริงมีเพียง 5% โดยไม่คำนึงถึงข้อมูล
Joris Meys

1
Joris ฉันใช้ "data" เป็นคำพ้องสำหรับ "ตัวอย่าง" ดังนั้นฉันคิดว่าเราเห็นด้วย ประเด็นของฉันคือมันเป็นไปได้ที่จะอยู่ในสถานการณ์หลังจากที่คุณนำตัวอย่างที่คุณสามารถพิสูจน์ได้อย่างแน่นอนว่าช่วงเวลาของคุณไม่ถูกต้อง - มันไม่ครอบคลุมค่าที่แท้จริง นี่ไม่ได้หมายความว่าไม่ใช่ช่วงความมั่นใจ 95% ที่ถูกต้อง ดังนั้นคุณไม่สามารถพูดได้ว่าพารามิเตอร์ความมั่นใจ (95%) จะบอกอะไรคุณเกี่ยวกับความน่าจะเป็นของการครอบคลุมช่วงเวลาเฉพาะหลังจากที่คุณทำการทดลองเสร็จสิ้นและมีช่วงเวลาแล้ว มีเพียงความน่าจะเป็นด้านหลังที่ได้รับแจ้งจากก่อนหน้าเท่านั้นที่สามารถพูดได้
Keith Winstein

4
θ θθ θ θf(θ)Pr(θ is in the interval (θ,θ+dθ)|I)=f(θ)dθX

13

ฉันไม่เห็นด้วยกับคำตอบของศรีกันต์ในประเด็นพื้นฐานหนึ่งข้อ Srikant ระบุไว้นี้:

"ปัญหาการอนุมาน: ปัญหาการอนุมานของคุณคือ: ค่าใดของθที่สมเหตุสมผลเมื่อให้ข้อมูลที่สังเกตได้ x"

ในความเป็นจริงนี้เป็นปัญหา INFERENCE BAYESIAN ในสถิติแบบเบย์เราพยายามที่จะคำนวณ P (θ | x) เช่นความน่าจะเป็นของค่าพารามิเตอร์ที่ได้จากข้อมูลที่สังเกตได้ (ตัวอย่าง) CREDIBLE INTERVAL คือช่วงเวลาของθที่มีโอกาส 95% (หรืออื่น ๆ ) ของการบรรจุค่าที่แท้จริงของθจากสมมติฐานหลายประการที่เป็นพื้นฐานของปัญหา

ปัญหา INFREENCE INFERENCE คือ:

ข้อมูลที่สังเกตได้ x สมเหตุสมผลหรือไม่ที่ให้ค่าสมมติฐานของθ?

ในสถิติที่เกิดขึ้นบ่อยครั้งเราพยายามที่จะคำนวณ P (x | probability) เช่นความน่าจะเป็นในการสังเกตข้อมูล (ตัวอย่าง) ที่กำหนดค่าพารามิเตอร์ที่ตั้งสมมติฐาน INTERFAL ความมั่นใจ (อาจเรียกชื่อผิด) ถูกตีความว่า: หากการทดลองที่สร้างตัวอย่างสุ่ม x ถูกทำซ้ำหลายครั้ง 95% (หรืออื่น ๆ ) ของช่วงเวลาดังกล่าวที่สร้างขึ้นจากตัวอย่างสุ่มเหล่านั้นจะมีค่าที่แท้จริงของพารามิเตอร์

ยุ่งกับหัวของคุณ? นั่นเป็นปัญหาของสถิติที่ใช้บ่อยและสิ่งที่สำคัญคือสถิติแบบเบย์ดำเนินการอยู่

เมื่อ Sikrant ชี้ให้เห็นว่า P (θ | x) และ P (x | θ) มีความสัมพันธ์กันดังนี้:

P (θ | x) = P (θ) P (x | θ)

ที่ P (θ) คือความน่าจะเป็นก่อนหน้าของเรา P (x | θ) คือความน่าจะเป็นของข้อมูลตามเงื่อนไขก่อนหน้านี้และ P (θ | x) คือความน่าจะเป็นด้านหลัง P (θ) ก่อนหน้านี้มีลักษณะเฉพาะโดยเนื้อแท้ แต่นั่นคือราคาของความรู้เกี่ยวกับจักรวาล - ในแง่ที่ลึกซึ้งมาก

ส่วนอื่น ๆ ของคำตอบทั้งของ Sikrant และ Keith นั้นยอดเยี่ยม


ในทางเทคนิคคุณถูกต้อง แต่โปรดทราบว่าช่วงความมั่นใจให้ชุดของค่าพารามิเตอร์ที่สมมติฐานว่างเป็นจริง ดังนั้น "ข้อมูลที่สังเกตได้ x สมเหตุสมผลเนื่องจากสมมติฐานของเราเกี่ยวกับทีต้าหรือไม่" สามารถใช้ถ้อยคำอีกครั้งในฐานะ "ค่าที่แท้จริงของทีต้าจะเป็นสมมติฐานที่เข้ากันได้กับข้อมูลที่สังเกตได้ x" โปรดทราบว่าคำถามที่ใช้ถ้อยคำซ้ำไม่ได้แปลว่าทีต้ากำลังถูกสันนิษฐานว่าเป็นตัวแปรสุ่ม คำถามที่ถูกใช้ซ้ำนั้นใช้ประโยชน์จากความจริงที่ว่าเราทำการทดสอบสมมติฐานว่างโดยตรวจสอบว่าค่าที่ตั้งสมมติฐานนั้นอยู่ในช่วงความเชื่อมั่นหรือไม่

@svadali - ช่วงความเชื่อมั่นประเมินข้อมูลสำหรับสมมติฐานที่คงที่ ดังนั้นเมื่อเปลี่ยนส่วนที่ "คงที่" ของสมการถ้าคุณไม่คำนึงถึงความน่าจะเป็นของสมมติฐานก่อนที่จะสังเกตข้อมูลของคุณคุณจะต้องเกิดความไม่สอดคล้องกันและผลลัพธ์ที่ไม่ต่อเนื่องกัน ความน่าจะเป็นแบบมีเงื่อนไขไม่ "ถูก จำกัด " เมื่อเปลี่ยนเงื่อนไข (เช่นโดยการเปลี่ยนเงื่อนไขคุณสามารถเปลี่ยนความน่าจะเป็นแบบมีเงื่อนไขจาก 0 เป็น 1) ความน่าจะเป็นก่อนหน้านี้คำนึงถึงความเด็ดขาดนี้ การปรับสภาพ X ทำได้เพราะเรามั่นใจว่า X เกิดขึ้นแล้ว - เราสังเกต X!
ความน่าจะเป็นทางการที่

13

คำตอบที่ให้ไว้ก่อนหน้ามีประโยชน์และมีรายละเอียดมาก นี่คือเงิน $ 0.25 ของฉัน

Confidence interval (CI) เป็นแนวคิดที่อ้างอิงความหมายของความน่าจะเป็นแบบคลาสสิก (หรือที่เรียกว่า "Frequentist definition") ความน่าจะเป็นนั้นเป็นสัดส่วนและขึ้นอยู่กับระบบสัจพจน์ของ Kolmogrov (และอื่น ๆ )

ช่วงเวลาที่น่าเชื่อถือ (ความหนาแน่นหลังสูงสุด, HPD) สามารถพิจารณาได้ว่ามีรากฐานมาจากทฤษฎีการตัดสินใจบนพื้นฐานของผลงานของ Wald และ de Finetti (และอื่น ๆ อีกมากมาย)

ในขณะที่คนในหัวข้อนี้ทำงานได้อย่างยอดเยี่ยมในการให้ตัวอย่างและความแตกต่างของสมมติฐานในกรณีเบย์และกรณีที่เกิดขึ้นบ่อยครั้งฉันจะเน้นไปที่ประเด็นสำคัญสองสามข้อ

  1. CIs อยู่บนพื้นฐานของความจริงที่ว่าการอนุมานต้องทำซ้ำที่เป็นไปได้ทั้งหมดของการทดลองที่สามารถมองเห็นได้และไม่เพียง แต่ข้อมูลที่สังเกตได้ซึ่ง HPDs จะขึ้นอยู่กับข้อมูลทั้งหมดที่สังเกต (และข้อสมมติฐานก่อนหน้าของเรา)

  2. θ

  3. ในฐานะที่เป็น CIs ไม่ได้เงื่อนไขในข้อมูลที่สังเกตได้ (หรือที่เรียกว่า "หลักการตามเงื่อนไข" CP) จึงอาจมีตัวอย่างที่ขัดแย้งกันได้ ฟิชเชอร์เป็นผู้สนับสนุนคนสำคัญของซีพีและยังพบตัวอย่างขัดแย้งมากมายเมื่อสิ่งนี้ไม่ได้ถูกติดตาม (เช่นในกรณีของ CI) นี่คือเหตุผลที่เขาใช้ค่า p สำหรับการอนุมานซึ่งต่างจาก CI ในมุมมองของเขาค่า p- ขึ้นอยู่กับข้อมูลที่สังเกต (สามารถพูดได้มากเกี่ยวกับค่า p แต่ไม่ได้เน้นที่นี่) ตัวอย่างขัดแย้งที่มีชื่อเสียงมากสองตัวอย่างคือ: (4 และ 5)

  4. XiN(μ,σ2)i{1,,n}μn0.5σ2+0.0005σ2n=10000.001σ20.5σ2+0.0005σ20.001σ2n=1000nμσnn

  5. nn=2X1,X2U(θ1/2,θ+1/2)θX1θU(1/2,1/2)12(X1+X2)x¯θθc>0Probθ(c<=x¯θ<=c)=1α(99%)(x¯c,x¯+c)θx¯θθX1=0X2=1|X1X2|=1(X1,X2)θProb(|X1X2|=1)=0|X1X2||X1X2||X1X2|

  6. X2X1X2X1θX2X1θX2X1θการอนุมานแบบ Fiducial (เรียกอีกอย่างว่าความล้มเหลวที่ยิ่งใหญ่ที่สุดของเขา, cf Zabell, สถิติ Sci. 1992) แต่มันก็ไม่เป็นที่นิยมเนื่องจากขาดความรู้ทั่วไปและความยืดหยุ่น ฟิชเชอร์พยายามหาวิธีที่แตกต่างจากทั้งสถิติแบบดั้งเดิม (ของโรงเรียนเนย์แมน) และโรงเรียนแบบเบย์ (ดังนั้นชื่อดังของป่าเถื่อนที่มีชื่อเสียง: "ฟิชเชอร์ต้องการสร้างไข่เจียวแบบเบย์ (คือการใช้ CP) โดยไม่ทำลายไข่แบบเบย์") . ชาวบ้าน (ไม่มีหลักฐาน) พูดว่า: ฟิชเชอร์ในการโต้วาทีของเขาโจมตี Neyman (สำหรับข้อผิดพลาด Type I และ Type II และ CI) โดยการเรียกเขาว่าเป็นคนควบคุมคุณภาพมากกว่านักวิทยาศาสตร์เนื่องจากวิธีการของ Neyman ไม่ได้อยู่บนข้อมูลที่สังเกต ทำซ้ำที่เป็นไปได้ทั้งหมด

  7. นักสถิติยังต้องการใช้หลักการพอเพียง (SP) นอกเหนือจาก CP แต่ SP และ CP รวมกันบ่งบอกถึงหลักการความน่าจะเป็น (LP) (cf Birnbaum, JASA, 1962) เช่นกำหนด CP และ SP หนึ่งต้องละเว้นพื้นที่ตัวอย่างและดูที่ฟังก์ชันความน่าจะเป็นเท่านั้น ดังนั้นเราเพียงแค่ต้องดูข้อมูลที่ได้รับและไม่ใช่ที่พื้นที่ตัวอย่างทั้งหมด (การดูที่พื้นที่ตัวอย่างทั้งหมดนั้นคล้ายกับการสุ่มตัวอย่างซ้ำ ๆ ) สิ่งนี้นำไปสู่แนวคิดเช่น Observed Fisher Information (cf. Efron และ Hinkley, AS, 1978) ซึ่งวัดข้อมูลเกี่ยวกับข้อมูลจากมุมมองของผู้ใช้บ่อย จำนวนข้อมูลในข้อมูลเป็นแนวคิดแบบเบย์ (และเกี่ยวข้องกับ HPD) แทนที่จะเป็น CI

  8. Kiefer ทำงานพื้นฐานเกี่ยวกับ CI ในช่วงปลายทศวรรษ 1970 แต่ส่วนขยายของเขาไม่ได้รับความนิยม แหล่งอ้างอิงที่ดีคือ Berger ("สามารถ Fisher, Neyman และ Jeffreys เห็นด้วยเกี่ยวกับการทดสอบสมมติฐาน", Stat Sci, 2003)


สรุป:

(ตามที่ Srikant และคนอื่น ๆ ชี้ให้เห็น)
CIs ไม่สามารถตีความได้ว่าเป็นความน่าจะเป็นและพวกเขาไม่ได้บอกอะไรเกี่ยวกับพารามิเตอร์ที่ไม่ได้รับให้ข้อมูลที่สังเกตได้ CIs เป็นข้อความเกี่ยวกับการทดลองซ้ำ

HPDs เป็นช่วงเวลาที่น่าจะเป็นไปตามการแจกแจงหลังของพารามิเตอร์ที่ไม่รู้จักและมีการตีความความน่าจะเป็นไปตามข้อมูลที่ได้รับ

คุณสมบัติการเป็นประจำ (การสุ่มตัวอย่างซ้ำ) เป็นคุณสมบัติที่พึงประสงค์และ HPDs (ที่มีนักบวชที่เหมาะสม) และ CI ต่างก็มีคุณสมบัติเหล่านั้น เงื่อนไข HPDs กับข้อมูลที่ให้มาในการตอบคำถามเกี่ยวกับพารามิเตอร์ที่ไม่รู้จัก

(วัตถุประสงค์ไม่ใช่อัตนัย) Bayesians เห็นด้วยกับนักสถิติคลาสสิกว่ามีค่า TRUE เดียวของพารามิเตอร์ อย่างไรก็ตามพวกเขาทั้งคู่ต่างกันในวิธีที่พวกเขาอนุมานเกี่ยวกับพารามิเตอร์ที่แท้จริงนี้

HPDs แบบเบย์ทำให้เรามีวิธีปรับสภาพข้อมูลที่ดี แต่ถ้าพวกเขาไม่เห็นด้วยกับคุณสมบัติที่ใช้บ่อยของ CI พวกเขาก็ไม่ได้มีประโยชน์มาก (คล้ายคลึงกัน: คนที่ใช้ HPD (ก่อนหน้านี้) ถึงวาระเหมือนช่างไม้ที่ใส่ใจเพียงค้อนและลืมคนขับสกรู)

ในที่สุดฉันได้เห็นคนในหัวข้อนี้ (ความเห็นโดยดร. Joris: "... สมมติฐานเกี่ยวข้องกับการบอกกล่าวก่อนหน้านั่นคือการขาดความรู้เกี่ยวกับพารามิเตอร์ที่แท้จริง") พูดถึงการขาดความรู้เกี่ยวกับพารามิเตอร์ที่แท้จริง เทียบเท่ากับการใช้งานการกระจายก่อน ฉันไม่ทราบว่าฉันสามารถเห็นด้วยกับคำสั่ง (ดร. คี ธ เห็นด้วยกับฉัน) ตัวอย่างเช่นในกรณีที่โมเดลเชิงเส้นพื้นฐานการแจกแจงบางอย่างสามารถทำได้โดยใช้เครื่องแบบก่อนหน้า (ซึ่งบางคนเรียกว่าการกระจาย) แต่มันไม่ได้หมายความว่าการกระจายเครื่องแบบสามารถถือได้ว่าเป็นข้อมูลเบื้องต้นที่ต่ำ โดยทั่วไปไม่ใช่แบบไม่ให้ข้อมูล (วัตถุประสงค์) ก่อนหน้านี้ไม่ได้หมายความว่ามีข้อมูลเกี่ยวกับพารามิเตอร์ต่ำ



บันทึก:ประเด็นเหล่านี้ส่วนใหญ่จะขึ้นอยู่กับการบรรยายโดยหนึ่งใน Bayesians ที่มีชื่อเสียง ฉันยังเป็นนักเรียนอยู่และอาจเข้าใจผิดเขาไม่ทางใดก็ทางหนึ่ง โปรดยอมรับคำขอโทษล่วงหน้า


"ผู้ที่มีปัญหาจะสูญเสีย" การดูคำตอบที่ได้รับการโหวตมากที่สุดฉันจะถือว่าเรื่องนี้ขึ้นอยู่กับฟังก์ชั่นยูทิลิตี้ โดยสังหรณ์ใจก็อาจขึ้นอยู่กับความสามารถในการกำหนดหน้าที่ก่อน ...
Abel Molina

4
"ผู้ที่มีปัญหาจะสูญเสีย" ... * ตามเงื่อนไขในการมีความเหมาะสมก่อน * (ซึ่งโดยทั่วไปไม่ใช่เรื่องง่าย) ตัวอย่างที่สมบูรณ์แบบ: ผู้ติดการพนันมั่นใจว่า 99% โชคของพวกเขาจะเปลี่ยนไปในครั้งนี้ ผู้ที่รวมสิ่งนี้ก่อนหน้านี้ในการวิเคราะห์การตัดสินใจของพวกเขามีแนวโน้มที่จะไม่ทำได้ดีในระยะยาว
หน้าผา AB

1
ฉันไม่คิดว่าคุณควรย่อช่วงความเชื่อมั่นเป็นCIsในคำตอบเกี่ยวกับความแตกต่างระหว่างช่วงเวลาที่น่าเชื่อถือและช่วงความมั่นใจ
ฮิวจ์

10

สนุกกับการมีส่วนร่วมในปรัชญาเสมอ ฉันค่อนข้างชอบคำตอบของ Keith แต่ฉันจะบอกว่าเขารับตำแหน่ง "Mr forgetful Bayesia" ความครอบคลุมที่ไม่ดีเมื่อประเภท B และ C สามารถเกิดขึ้นได้หากเขาใช้การแจกแจงความน่าจะเป็นแบบเดียวกันทุกครั้งที่ทดลองใช้และปฏิเสธที่จะอัปเดตก่อนหน้า (เธอ)

คุณสามารถมองเห็นสิ่งนี้ได้อย่างชัดเจนสำหรับประเภทขวด A และขวด D พิมพ์คำว่า "การคาดการณ์ที่ชัดเจน" ดังนั้นให้พูด (สำหรับ 0-1 และ 2-3 ชิปตามลำดับ) ในขณะที่ขวด B และ C ประเภทโดยทั่วไปจะให้การกระจายของชิปที่สม่ำเสมอ ดังนั้นในการทำซ้ำการทดลองด้วย "jar จริง" บางอันที่คงที่ (หรือถ้าเราสุ่มตัวอย่างบิสกิตอื่น) การกระจายชิปที่สม่ำเสมอจะให้หลักฐานสำหรับขวดประเภท B หรือ C

KL(B||C)0.006KL(C||B)12×0.006=0.11

ทีนี้เกิดอะไรขึ้นกับช่วงเวลาที่น่าเชื่อถือเหล่านั้น? ตอนนี้เราได้รับความคุ้มครอง 100% ของ "B หรือ C" แล้ว! สิ่งที่เกี่ยวกับช่วงเวลาบ่อย? ความครอบคลุมจะไม่เปลี่ยนแปลงตามช่วงเวลาทั้งหมดที่มีทั้ง B และ C หรือไม่ดังนั้นจึงยังคงอยู่ภายใต้การวิพากษ์วิจารณ์ในการตอบสนองของ Keith - 59% และ 0% สำหรับ 3 และ 0 ชิปสังเกต

(0+99+99+59+99)/5=71.2(98+60+66+97)/4=80.3

อีกประเด็นหนึ่งที่ฉันต้องการเน้นคือชาวเบเซียนไม่ได้พูดว่า "พารามิเตอร์เป็นแบบสุ่ม" โดยการแจกแจงความน่าจะเป็น สำหรับ Bayesian (อย่างน้อยก็ดีสำหรับฉัน) การกระจายความน่าจะเป็นคือคำอธิบายของสิ่งที่รู้เกี่ยวกับพารามิเตอร์นั้น แนวคิดของ "การสุ่ม" ไม่ได้มีอยู่จริงในทฤษฎีเบย์เพียงความคิดของ "การรู้" และ "ไม่รู้" "รู้จัก" ไปสู่เงื่อนไขและ "ไม่ทราบ" เป็นสิ่งที่เราคำนวณความน่าจะเป็นสำหรับถ้าสนใจและ marginalize มากกว่าถ้ารำคาญ ดังนั้นช่วงเวลาที่น่าเชื่อถือจะอธิบายสิ่งที่รู้เกี่ยวกับพารามิเตอร์คงที่โดยเฉลี่ยถึงสิ่งที่ไม่รู้จัก ดังนั้นหากเราต้องเข้ารับตำแหน่งของบุคคลที่บรรจุโถคุกกี้และรู้ว่าเป็นประเภท A ช่วงความน่าเชื่อถือของพวกเขาจะเป็นเพียงแค่ [A] โดยไม่คำนึงถึงตัวอย่างและไม่ว่าจะมีตัวอย่างจำนวนเท่าใดก็ตาม และจะแม่นยำ 100%!

ช่วงความมั่นใจขึ้นอยู่กับ "การสุ่ม" หรือการเปลี่ยนแปลงที่มีอยู่ในตัวอย่างที่เป็นไปได้ที่แตกต่างกัน เช่นรูปแบบเดียวที่พวกเขาคำนึงถึงคือในตัวอย่าง ดังนั้นช่วงความมั่นใจจึงไม่เปลี่ยนแปลงสำหรับผู้ที่บรรจุโถคุกกี้และใหม่ว่าเป็นประเภท A. ดังนั้นหากคุณดึงบิสกิตที่มี 1 ชิปออกจากโถประเภท A ผู้ใช้ประจำจะยืนยันด้วยความมั่นใจ 70% ว่าประเภทนั้นคือ ไม่ใช่ A แม้ว่าพวกเขาจะรู้ว่าโถประเภท A! (ถ้าพวกเขารักษาอุดมการณ์และเพิกเฉยต่อสามัญสำนึก) หากต้องการดูว่าเป็นกรณีนี้โปรดทราบว่าไม่มีสิ่งใดในสถานการณ์นี้ที่มีการเปลี่ยนแปลงการกระจายตัวตัวอย่าง - เราได้นำมุมมองของบุคคลอื่นด้วยข้อมูลที่ไม่ใช่ "ข้อมูล" เกี่ยวกับพารามิเตอร์

ช่วงความเชื่อมั่นจะเปลี่ยนเฉพาะเมื่อข้อมูลมีการเปลี่ยนแปลงหรือรูปแบบ / การกระจายตัวอย่างเปลี่ยนแปลง ช่วงเวลาความน่าเชื่อถือสามารถเปลี่ยนแปลงได้หากนำข้อมูลอื่น ๆ ที่เกี่ยวข้องมาพิจารณา

โปรดทราบว่าพฤติกรรมที่บ้าคลั่งนี้ไม่ใช่สิ่งที่ผู้สนับสนุนจะมั่นใจได้ แต่มันแสดงให้เห็นถึงความอ่อนแอในปรัชญาพื้นฐานวิธีการในบางกรณี ช่วงความเชื่อมั่นทำงานได้ดีที่สุดเมื่อคุณไม่ทราบมากเกี่ยวกับพารามิเตอร์นอกเหนือจากข้อมูลที่มีอยู่ในชุดข้อมูล และยิ่งกว่านั้นช่วงเวลาความน่าเชื่อถือจะไม่สามารถปรับปรุงได้มากในช่วงความเชื่อมั่นเว้นแต่ว่ามีข้อมูลก่อนซึ่งช่วงความเชื่อมั่นไม่สามารถนำมาพิจารณาได้หรือการค้นหาสถิติที่เพียงพอและเสริมนั้นยาก


mmmm

m

ใช่ขีด จำกัด จากนั้นสำหรับตัวอย่างหนึ่งหรือสองตัวอย่าง CIs ไม่ได้มีความหมายอะไรเลยใช่ไหม ถ้าอย่างนั้นฉันจะมีตัวอย่างเป็นตันได้ไหม?
อะโวคาโด

3
@loganecolss - นั่นเป็นเหตุผลที่ฉันเป็น Bayesian
ความน่าจะเป็นทาง

2
@nazka - ประเภทของ ฉันจะบอกว่าเป็นการดีที่สุดที่จะใช้วิธีแบบเบย์โดยไม่คำนึงว่าคุณมีข้อมูลมากน้อยเพียงใด หากสิ่งนี้สามารถประมาณได้ดีโดยขั้นตอนที่ใช้บ่อยให้ใช้มัน Bayesian ไม่ใช่คำพ้องความหมายสำหรับช้า
ความน่าจะเป็นเชิง

6

ตามที่ฉันเข้าใจ: ช่วงเวลาที่น่าเชื่อถือคือคำสั่งของช่วงของค่าสำหรับสถิติความสนใจที่ยังคงมีเหตุผลเนื่องจากตัวอย่างข้อมูลที่เราสังเกตเห็นได้จริง ช่วงความเชื่อมั่นเป็นคำสั่งของความถี่ที่ค่าจริงตั้งอยู่ในช่วงความมั่นใจเมื่อการทดสอบซ้ำหลายครั้งในแต่ละครั้งที่มีตัวอย่างข้อมูลที่แตกต่างจากประชากรต้นแบบเดียวกัน

โดยทั่วไปคำถามที่เราต้องการตอบคือ "ค่าของสถิติที่สอดคล้องกับข้อมูลที่สังเกต" และช่วงเวลาที่น่าเชื่อถือให้คำตอบโดยตรงกับคำถามนั้น - ค่าจริงของสถิติอยู่ในช่วง 95% ที่น่าเชื่อถือด้วยความน่าจะเป็น 95 % ช่วงความมั่นใจไม่ได้ให้คำตอบโดยตรงกับคำถามนี้ มันไม่ถูกต้องที่จะยืนยันว่าความน่าจะเป็นที่ค่าจริงของสถิตินั้นอยู่ในช่วงความเชื่อมั่น 95% คือ 95% (เว้นแต่จะเกิดขึ้นตรงกับช่วงเวลาที่น่าเชื่อถือ) อย่างไรก็ตามนี่เป็นการตีความที่ผิดพลาดทั่วไปของช่วงความมั่นใจบ่อยๆเพราะเป็นการตีความที่จะเป็นคำตอบสำหรับคำถามโดยตรง

กระดาษโดย Jayne ที่ฉันกล่าวถึงในคำถามอื่นให้เป็นตัวอย่างที่ดีของเรื่องนี้ (ตัวอย่าง # 5) ถูกสร้างช่วงความเชื่อมั่นที่ถูกต้องสมบูรณ์แบบซึ่งตัวอย่างเฉพาะของข้อมูลที่เป็นไปตามกฎออกไปได้ของค่าจริงใด ๆ ของสถิติอยู่ในช่วงความมั่นใจ 95%! นี่เป็นเพียงปัญหาหากช่วงความเชื่อมั่นถูกตีความอย่างไม่ถูกต้องว่าเป็นสถานะของค่าที่เป็นไปได้ของสถิติบนพื้นฐานของตัวอย่างเฉพาะที่เราสังเกตเห็น

ในตอนท้ายของวันมันเป็นเรื่องของ "ม้าสำหรับหลักสูตร" และช่วงเวลาใดที่ดีที่สุดขึ้นอยู่กับคำถามที่คุณต้องการตอบเพียงแค่เลือกวิธีที่ตอบคำถามนั้นโดยตรง

ฉันสงสัยว่าช่วงความมั่นใจจะมีประโยชน์มากขึ้นเมื่อวิเคราะห์การทดลองที่ทำซ้ำ [desgined] (ซึ่งเป็นเพียงข้อสันนิษฐานเกี่ยวกับช่วงความเชื่อมั่น) และช่วงเวลาที่น่าเชื่อถือดีกว่าเมื่อวิเคราะห์ข้อมูลเชิงสังเกต แต่นั่นเป็นเพียงความเห็น งานของฉันเอง แต่จะไม่อธิบายว่าตัวเองเป็นผู้เชี่ยวชาญใน)


6
ปัญหาที่เกิดขึ้นกับช่วงความมั่นใจในการทดลองซ้ำนั่นคือเพื่อให้พวกเขาทำงานเงื่อนไขของการทดลองที่ทำซ้ำได้จะต้องคงเดิม (และใครจะเชื่อเช่นนั้น) ในขณะที่ช่วงเวลาของเบย์ (ถ้าใช้อย่างเหมาะสม) บน ข้อมูลที่สังเกตได้และทำให้มีค่าใช้จ่ายสำหรับการเปลี่ยนแปลงที่เกิดขึ้นในโลกแห่งความเป็นจริง (ผ่านข้อมูล) ฉันคิดว่ามันเป็นกฎการปรับอากาศของสถิติแบบเบย์ซึ่งทำให้ยากที่จะมีประสิทธิภาพสูงกว่า (ฉันคิดว่ามันเป็นไปไม่ได้: เพียงความเท่าเทียมกันเท่านั้นที่สามารถทำได้) และเครื่องจักรอัตโนมัติที่ได้มาซึ่งสิ่งนี้ทำให้มันดูลื่น
ความน่าจะเป็นที่เป็นไปได้

3

P(θCI)

ดังนั้นคุณสามารถพูดว่า 'หากคุณทำการทดสอบซ้ำหลายครั้งประมาณ 95% ของ CIs 95% จะครอบคลุมพารามิเตอร์จริง' แม้ว่าใน Bayesian คุณจะได้พูดว่า 'คุณค่าที่แท้จริงของสถิติอยู่ในช่วงเวลาที่น่าเชื่อถือ 95% และมีความน่าจะเป็น 95%' อย่างไรก็ตามความน่าจะเป็น 95% นี้ (ใน Bayesian) นั้นเป็นเพียงการประมาณการ (โปรดจำไว้ว่ามันขึ้นอยู่กับการกระจายเงื่อนไขที่ให้ข้อมูลเฉพาะนี้ไม่ใช่การกระจายตัวตัวอย่าง) เครื่องมือประมาณนี้ควรมีข้อผิดพลาดแบบสุ่มเนื่องจากตัวอย่างแบบสุ่ม

Bayesian พยายามหลีกเลี่ยงปัญหาข้อผิดพลาด Type I Bayesian พูดเสมอว่ามันไม่สมเหตุสมผลที่จะพูดถึงข้อผิดพลาดประเภทที่ 1 ใน Bayesian สิ่งนี้ไม่เป็นความจริงทั้งหมด นักสถิติต้องการวัดความเป็นไปได้หรือข้อผิดพลาดที่ 'ข้อมูลของคุณแนะนำให้คุณตัดสินใจ แต่ประชากรแนะนำเป็นอย่างอื่น' นี่คือสิ่งที่ Bayesian ไม่สามารถตอบได้ (รายละเอียดไม่ได้ระบุไว้ที่นี่) น่าเสียดายที่นักสถิติควรตอบคำถามสำคัญที่สุด นักสถิติไม่เพียง แต่แนะนำการตัดสินใจ นักสถิติควรที่จะสามารถระบุได้ว่าการตัดสินใจนั้นผิดพลาดมากแค่ไหน

ฉันต้องประดิษฐ์ตารางและคำศัพท์ต่อไปนี้เพื่ออธิบายแนวคิด หวังว่าสิ่งนี้จะช่วยอธิบายความแตกต่างของ Confidence Interval และ Credible Set

P(θ0|Datan)θ0P(θ0)P(Datan;θ)θ^P(θ^n;θ)nP(Datan|θ)P(Datan;θ)P(θ^n;θ)P(θ0|Datan)

ช่วงความเชื่อมั่นกับชุดที่เชื่อถือได้

The '???????' อธิบายว่าทำไมเราไม่สามารถประเมินความผิดพลาดประเภทที่ 1 (หรืออะไรทำนองนี้) ใน Bayesian

โปรดทราบว่าชุดที่น่าเชื่อถือนั้นสามารถใช้เพื่อประมาณช่วงความมั่นใจภายใต้สถานการณ์บางอย่าง อย่างไรก็ตามนี่เป็นเพียงการประมาณทางคณิตศาสตร์เท่านั้น การตีความควรดำเนินไปพร้อมกับผู้พบบ่อย การตีความแบบเบย์ในกรณีนี้ใช้ไม่ได้อีกต่อไป


P(x|θ)

ผมเห็นด้วยกับข้อสรุปที่ทำโดยDikran กระเป๋า หากคุณเป็นผู้ตรวจสอบ FDA คุณต้องการทราบถึงความเป็นไปได้ที่คุณจะอนุมัติใบสมัครยา แต่ยานั้นไม่มีประสิทธิภาพ นี่คือคำตอบที่ Bayesian ไม่สามารถให้ได้อย่างน้อยที่สุดก็ในแบบเบย์คลาสสิค / ทั่วไป


3

ความเชื่อมั่นทั่วไปและความสอดคล้องและภูมิภาคที่น่าเชื่อถือ http://dx.doi.org/10.6084/m9.figshare.1528163 พร้อมรหัสที่ http://dx.doi.org/10.6084/m9.figshare.1528187

แสดงคำอธิบายของช่วงเวลาที่น่าเชื่อถือและช่วงความเชื่อมั่นสำหรับการเลือกชุดพร้อมกับรหัส R ทั่วไปเพื่อคำนวณทั้งฟังก์ชั่นความน่าจะเป็นและข้อมูลที่สังเกตได้ นอกจากนี้ยังเสนอสถิติการทดสอบที่ให้ช่วงเวลาที่น่าเชื่อถือและมีความมั่นใจในขนาดที่เหมาะสมซึ่งสอดคล้องกัน

ในระยะสั้นและหลีกเลี่ยงสูตร คชกรรมช่วงเวลาที่น่าเชื่อถืออยู่บนพื้นฐานของความน่าจะเป็นของพารามิเตอร์ที่ได้รับข้อมูล มันรวบรวมพารามิเตอร์ที่มีโอกาสสูงในชุด / ช่วงเวลาที่น่าเชื่อถือ ช่วงเวลาที่น่าเชื่อถือ 95% มีพารามิเตอร์ที่รวมกันมีความน่าจะเป็น 0.95 ตามข้อมูล

frequentist ช่วงความเชื่อมั่นอยู่บนพื้นฐานของความน่าจะเป็นข้อมูลที่ได้รับพารามิเตอร์บางอย่าง สำหรับพารามิเตอร์แต่ละตัว (อาจมีไม่ จำกัด จำนวนมาก) อันดับแรกมันจะสร้างชุดของข้อมูลที่น่าจะถูกสังเกตได้จากพารามิเตอร์ จากนั้นตรวจสอบแต่ละพารามิเตอร์ว่าข้อมูลความน่าจะเป็นสูงที่เลือกมีข้อมูลที่สังเกตได้หรือไม่ หากข้อมูลความน่าจะเป็นสูงนั้นมีข้อมูลที่สังเกตได้พารามิเตอร์ที่เกี่ยวข้องจะถูกเพิ่มเข้าไปในช่วงความมั่นใจ ดังนั้นช่วงความมั่นใจคือการรวบรวมพารามิเตอร์ที่เราไม่สามารถแยกแยะความเป็นไปได้ที่พารามิเตอร์ได้สร้างข้อมูล สิ่งนี้ให้กฎเช่นนั้นหากนำไปใช้ซ้ำกับปัญหาที่คล้ายกันช่วงความมั่นใจ 95% จะมีค่าพารามิเตอร์จริงใน 95% ของกรณี

ชุดที่น่าเชื่อถือ 95% และชุดความมั่นใจ 95% สำหรับตัวอย่างจากการแจกแจงแบบทวินามลบ ชุดที่น่าเชื่อถือ 95% และชุดความเชื่อมั่น 95% สำหรับการแจกแจงแบบทวินามลบ


คำอธิบายของช่วงความมั่นใจไม่ถูกต้อง "95%" มาจากความน่าจะเป็นที่กลุ่มตัวอย่างจากประชากรจะสร้างช่วงเวลาที่มีค่าจริงของพารามิเตอร์
jlimahaverford

@jlimahaverford - คำอธิบายถูกต้องเช่นเดียวกับคุณ ในการสร้างลิงก์ไปยังสิ่งที่คุณอธิบายฉันได้เพิ่ม "นี่ให้กฎเช่นนั้นหากใช้ซ้ำกับปัญหาที่คล้ายกันช่วงเวลาที่น่าเชื่อถือ 95% จะมีค่าพารามิเตอร์จริงใน 95% ของกรณี"
user36160

1
ฉันไม่ได้พูดถึงคำอธิบายของคุณเกี่ยวกับช่วงเวลาที่น่าเชื่อถือฉันพูดถึงช่วงความมั่นใจ ตอนนี้ฉันสังเกตเห็นว่าในช่วงกลางย่อหน้าของคุณเกี่ยวกับช่วงความมั่นใจคุณเริ่มพูดถึงความน่าเชื่อถืออีกครั้งและฉันคิดว่านี่เป็นความผิดพลาด แนวคิดที่สำคัญคือนี่ "ถ้านี่คือค่าที่แท้จริงของพารามิเตอร์ความน่าจะเป็นที่ฉันจะวาดตัวอย่างสุดขั้วนี้หรือมากกว่านั้นคืออะไรถ้าคำตอบมากกว่า 5% มันอยู่ในช่วงความมั่นใจ"
jlimahaverford

@jlimahaverford - aggree และแก้ไข - ขอบคุณ
user36160

อืมฉันไม่เห็นว่าแก้ไขแล้ว
jlimahaverford

1

นี่เป็นความคิดเห็นเพิ่มเติม แต่ยาวเกินไป ในกระดาษต่อไปนี้: http://www.stat.uchicago.edu/~lekheng/courses/191f09/mumford-AMS.pdf Mumford มีความคิดเห็นที่น่าสนใจดังต่อไปนี้:

ในขณะที่การใช้งานที่น่าตื่นเต้นเหล่านี้ถูกสร้างขึ้นมาจากสถิตินักสถิติส่วนใหญ่นำโดย Sir RA Fisher กำลังผูกมือไว้ด้านหลังโดยยืนยันว่าสถิติไม่สามารถใช้ในสถานการณ์ที่สามารถทำซ้ำได้ทั้งหมด แต่เพียงใช้เท่านั้น ข้อมูลเชิงประจักษ์ นี่คือโรงเรียนที่เรียกว่า 'นักประพันธ์ประจำ' ซึ่งต่อสู้กับโรงเรียน Bayesian ซึ่งเชื่อว่าสามารถใช้นักบวชได้และใช้การอนุมานเชิงสถิติอย่างมาก วิธีการนี้ปฏิเสธว่าการอนุมานเชิงสถิติสามารถมีส่วนเกี่ยวข้องกับความคิดจริงได้เพราะสถานการณ์ในชีวิตจริงจะถูกฝังอยู่ในตัวแปรบริบทเสมอและไม่สามารถทำซ้ำได้ โชคดีที่โรงเรียน Bayesian ไม่ได้ตายไปทั้งหมดโดย DeFinetti, ET Jaynes คนอื่นต่อไป

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.