มีวิธีการใดที่ไม่ใช่แบบเบย์สำหรับการอนุมานเชิงทำนาย


22

ในการอนุมานแบบเบย์การกระจายการทำนายสำหรับข้อมูลในอนาคตนั้นได้มาจากการรวมเอาพารามิเตอร์ที่ไม่รู้จัก การบูรณาการการกระจายหลังของพารามิเตอร์เหล่านั้นจะช่วยให้การกระจายการคาดการณ์หลัง - การกระจายสำหรับข้อมูลในอนาคตเงื่อนไขตามที่สังเกตไว้แล้ว มีวิธีการใดที่ไม่ใช่แบบเบย์สำหรับการอนุมานเชิงคาดการณ์ที่มีการคำนึงถึงความไม่แน่นอนในการประมาณค่าพารามิเตอร์

ทุกคนรู้วิธีคำนวณช่วงเวลาการทำนายหลังจากการถดถอยเชิงเส้น แต่อะไรคือหลักการที่อยู่เบื้องหลังการคำนวณและวิธีการที่พวกเขาสามารถนำไปใช้ในสถานการณ์อื่น ๆ (เช่นการคำนวณช่วงเวลาการทำนายที่แน่นอนสำหรับการเปลี่ยนแปลงแบบเอ็กซ์โปเนนเชียล


6
ฉันคิดว่านี่เป็นคำถามที่ดีและฉันต้องการที่จะให้คำตอบบางส่วนอย่างน้อย แต่ฉันอาจจะไม่ได้รับเวลาที่จะทำมันเพื่อความยุติธรรมในขณะที่ ... ดังนั้นฉันจะติดรางวัลนี้ในตอนนี้ .
Glen_b -Reinstate Monica

3
@ DavidC.Norris ฉันไม่เห็นสาเหตุที่ใครจะต้องยืนยันว่ามีแหล่งที่มาของความไม่แน่นอนของพารามิเตอร์อื่น ๆ นอกเหนือจากนั้น (การอนุมานการคาดการณ์จะต้องคำนึงถึงทั้งที่และความแปรปรวนแบบสุ่มในกระบวนการเอง) ของตัวเองนั้นเป็นสิ่งที่ไม่น่าสนใจแม้ในตัวอย่างพื้นฐานที่เป็นธรรม - พยายามสร้างช่วงการทำนายเพื่อหาผลรวมของการทำนายจากปัวซองหรือการถดถอยแบบทวินามลบ สิ่งหนึ่งก็ไม่จำเป็นต้องเป็นแบบเบย์เพื่อสมมติว่ามีการแปรผันของพารามิเตอร์ข้ามหมวดหมู่ (เช่นผู้คนใช้แบบจำลองผสมสำหรับ)
Glen_b -Reinstate Monica

2
@ DavidC.Norris: ฉันถามเกี่ยวกับวิธีการที่ไม่ใช่แบบเบย์เพียงเพราะการคำนวณการแจกแจงการทำนายหลังถูกครอบคลุมในการแนะนำสถิติเบย์ทุกครั้งในขณะที่วิธีการทั่วไปสำหรับการคำนวณระยะการทำนายไม่เป็นที่รู้จักกันอย่างแพร่หลาย
Scortchi - Reinstate Monica

2
@EngrStudent การบูตสแตรปจะทำงานโดยการสุ่มข้อมูลต้นฉบับอีกครั้งและอยู่ในหมวดหมู่เดียวกันกับวิธีการทั่วไปอื่น ๆ ที่จัดการเฉพาะกับรูปแบบการสุ่มตัวอย่างซึ่งเป็นแหล่งที่มาของความไม่แน่นอน มันไม่ได้ขยายแนวคิดเรื่องความไม่แน่นอนออกไป
David C. Norris

3
@ DavidC.Norris: มันเป็นการสุ่มตัวอย่างการเปลี่ยนแปลงในฐานะที่มาของความไม่แน่นอน - มีผลกระทบต่อการคาดการณ์ของการสังเกตการณ์ในอนาคตมากกว่าการอนุมานเกี่ยวกับพารามิเตอร์ - ที่ฉันเกี่ยวข้องกับที่นี่มากกว่าวิธีการที่ไม่ใช่แบบเบย์เพื่อพิจารณาความไม่แน่นอนอื่น ๆ
Scortchi - Reinstate Monica

คำตอบ:


20

การอนุมานแบบไม่ใช่แบบเบย์ (นอกเหนือจากเคส SLR) เป็นข้อมูลล่าสุด ภายใต้ส่วนหัวของ "non-Bayesian" เราสามารถแบ่งวิธีการออกเป็นแบบ "คลาสสิค" บ่อยครั้งและวิธีการที่เป็นไปได้ "

การทำนายบ่อยคลาสสิก

αβ

ตอนนี้โดยทั่วไปฉันมีปัญหาเกี่ยวกับการนำเสนอและการสอน PI ของคลาสสิกในหลักสูตรสถิติส่วนใหญ่เนื่องจากแนวโน้มที่ครอบงำคือการตีความสิ่งเหล่านี้เป็นช่วงหลังการทำนายแบบเบย์ซึ่งพวกเขาไม่ได้ตัดสินใจอย่างแน่นอน โดยพื้นฐานแล้วพวกเขากำลังพูดถึงความน่าจะเป็นที่แตกต่างกัน! Bayesian's ไม่อ้างสิทธิ์ในการสุ่มตัวอย่างประสิทธิภาพของปริมาณของพวกเขา (มิฉะนั้นพวกเขาจะเป็นประจำ) ประการที่สอง Bayesian PI ได้ทำสิ่งที่คล้ายกันในจิตวิญญาณกับช่วงความอดทนแบบคลาสสิกมากกว่าการทำนายแบบคลาสสิก

สำหรับการอ้างอิง: ช่วงเวลาความอดทนต้องระบุด้วยความน่าจะเป็นสองอย่าง : ความมั่นใจและความครอบคลุม ความมั่นใจบอกเราว่าถูกต้องบ่อยแค่ไหนในตัวอย่างที่ทำซ้ำ ความครอบคลุมบอกเราถึงการวัดความน่าจะเป็นขั้นต่ำ ของช่วงเวลาภายใต้การแจกแจงที่แท้จริง (ตรงข้ามกับ PI ซึ่งให้การวัดความน่าจะเป็นที่คาดหวัง ... อีกครั้งภายใต้การสุ่มตัวอย่างซ้ำ) นี่คือสิ่งที่ Bayesian PI พยายามทำเช่นนั้น แต่ไม่มีการสุ่มตัวอย่างซ้ำ ๆ

ดังนั้นตรรกะพื้นฐานของ Stats 101 Simple Linear Regression คือการหาคุณสมบัติการสุ่มตัวอย่างซ้ำ ๆ ของ PI ภายใต้สมมติฐานของภาวะปกติ มันเป็นวิธีการแบบเกาส์สแบบบ่อยๆที่มักจะคิดว่าเป็น "คลาสสิก" และสอนในชั้นเรียนสถิติอินโทร สิ่งนี้ขึ้นอยู่กับความเรียบง่ายของการคำนวณที่เกิดขึ้น (ดูWikipediaสำหรับภาพรวมที่ดี)

การแจกแจงความน่าจะเป็นแบบ non-gaussian นั้นเป็นปัญหาโดยทั่วไปเพราะพวกมันสามารถขาดปริมาณที่สำคัญที่สามารถกลับด้านได้อย่างเรียบร้อยเพื่อให้ได้ช่วงเวลา ดังนั้นจึงไม่มีวิธี "แน่นอน" สำหรับการแจกแจงเหล่านี้บ่อยครั้งเนื่องจากคุณสมบัติของช่วงเวลาขึ้นอยู่กับพารามิเตอร์พื้นฐานที่แท้จริง

ยอมรับการไร้ความสามารถนี้อีกระดับของการทำนายเกิดขึ้น (และการอนุมานและการประมาณค่า) ด้วยวิธีการความน่าจะเป็น

การอนุมานตามความน่าจะเป็น

แนวทางตามความน่าจะเป็นเช่นแนวคิดทางสถิติที่ทันสมัยสามารถย้อนกลับไปหา Ronald Fisher ได้ แนวคิดพื้นฐานของโรงเรียนนี้คือยกเว้นกรณีพิเศษการอนุมานเชิงสถิติของเรานั้นมีเหตุผลที่อ่อนแอกว่าเมื่อเราจัดการกับการอนุมานจากการแจกแจงแบบปกติ (ซึ่งการประมาณพารามิเตอร์เป็นorthogonal ) ซึ่งเราสามารถสร้างความน่าจะเป็นที่แน่นอนได้ ในมุมมองของการอนุมานเราควรหลีกเลี่ยงข้อความที่เกี่ยวกับความน่าจะเป็นจริงยกเว้นในกรณีที่เป็นอย่างอื่นมิเช่นนั้นเราควรทำข้อความเกี่ยวกับความน่าจะเป็นและรับทราบว่าไม่มีใครรู้ถึงความน่าจะเป็นของข้อผิดพลาด

ดังนั้นเราจึงสามารถเห็นความน่าจะเป็นคล้ายกับความน่าจะเป็นแบบเบย์ แต่ไม่มีข้อกำหนดด้านความสามารถในการรวมระบบหรือความสับสนที่อาจเกิดขึ้นกับความน่าจะเป็นแบบประจำ มันตีความเป็นอัตนัยทั้งหมด ... แม้ว่าอัตราส่วนความน่าจะเป็นที่ 0.15 มักจะแนะนำสำหรับการอนุมานพารามิเตอร์เดียว

อย่างไรก็ตามมักจะไม่เห็นเอกสารที่ให้ "ช่วงเวลาความน่าจะเป็น" อย่างชัดเจน ทำไม? ปรากฏว่านี่เป็นเรื่องของสังคมวิทยาเป็นส่วนใหญ่เนื่องจากเราทุกคนต่างคุ้นเคยกับคำแถลงความเชื่อมั่นที่อิงกับความน่าจะเป็น สิ่งที่คุณเห็นบ่อย ๆ คือผู้เขียนที่อ้างถึงช่วงความเชื่อมั่น "โดยประมาณ" หรือ "เชิงเส้น" ของสิ่งนั้นและเช่นนั้น ช่วงเวลาเหล่านี้ส่วนใหญ่ได้มาจากวิธีความน่าจะเป็นที่ซึ่งเราพึ่งพาการกระจายตัวแบบไคสแควร์แบบ asymptotic ของอัตราส่วนความน่าจะเป็นในแบบเดียวกับที่เราขึ้นอยู่กับค่าปกติเชิงเส้นกำกับของตัวอย่าง

ด้วย "การแก้ไข" นี้เราสามารถสร้าง "ความเชื่อมั่น" 95% พื้นที่ที่มีความเชื่อมั่นได้เกือบเท่ากับตรรกะแบบเบย์

จาก CI ถึง PI ในกรอบความเป็นไปได้

ความสำเร็จและความง่ายในการใช้โอกาสที่กล่าวมาข้างต้นนำไปสู่ความคิดเกี่ยวกับการขยายไปสู่การทำนาย บทความสำรวจที่ดีมากเกี่ยวกับเรื่องนี้ได้รับที่นี่ (ฉันจะไม่ทำซ้ำความคุ้มครองที่ดีเยี่ยมของมัน) มันสามารถย้อนกลับไปหา David Hinkley ในช่วงปลายทศวรรษ 1970 (ดูJSTOR ) ซึ่งเป็นคนบัญญัติศัพท์ เขาใช้มันไปตลอดกาล " เพียร์สันปัญหาทำนายทวินาม " ฉันจะสรุปตรรกะพื้นฐาน

YYY

กฎพื้นฐานสำหรับการกำจัดพารามิเตอร์ "ความรำคาญ" เพื่อให้ได้โอกาสในการทำนายมีดังนี้:

  1. μ,σ
  2. หากพารามิเตอร์เป็นแบบสุ่ม (เช่นข้อมูลอื่น ๆ ที่ไม่มีการตรวจสอบหรือ "เอฟเฟ็กต์แบบสุ่ม") คุณต้องรวมพารามิเตอร์เหล่านั้นออก (เช่นเดียวกับวิธีการแบบเบย์)

ความแตกต่างระหว่างพารามิเตอร์แบบคงที่และแบบสุ่มนั้นไม่เหมือนกันกับการอนุมานโอกาส แต่มีการเชื่อมต่อกับโมเดลเอฟเฟกต์แบบผสมซึ่งดูเหมือนว่ากรอบแบบเบย์

หวังว่าสิ่งนี้จะตอบคำถามของคุณเกี่ยวกับการคาดการณ์ที่ไม่ใช่ "แบบเบย์" (และการอนุมานสำหรับเรื่องนั้น) เนื่องจากการเชื่อมโยงหลายมิติสามารถเปลี่ยนแปลงได้ฉันจะสร้างหนังสือ "ในทุกโอกาส: การสร้างแบบจำลองทางสถิติและการอนุมานโดยใช้ความน่าจะเป็น" ซึ่งกล่าวถึงกรอบความเป็นไปได้ในปัจจุบันที่ระดับความลึก การอนุมานและการทำนาย


อ้างอิง

  1. ช่วงทำนาย: วิธีการที่ไม่ใช่ตัวแปร วิกิพีเดีย เข้าถึง 9/13/2015
  2. Bjornstad, ม.ค. F. โอกาสในการทำนาย: รีวิว statist วิทย์ 5 (1990) หมายเลข 2, 242--254 ดอย: 10.1214 / ss / 1177012175 http://projecteuclid.org/euclid.ss/1177012175
  3. David Hinkley โอกาสที่จะเกิดการคาดการณ์ พงศาวดารของสถิติปีที่ 7, ฉบับที่ 4 (ก.ค. , 2522), หน้า 718-728 จัดพิมพ์โดย: สถาบันคณิตศาสตร์สถิติ URL ที่มีเสถียรภาพ: http://www.jstor.org/stable/2958920
  4. Yudi Pawitan ในทุกโอกาส: การสร้างแบบจำลองทางสถิติและการอนุมานโดยใช้ความน่าจะเป็น สำนักพิมพ์มหาวิทยาลัยออกซ์ฟอร์ด; 1 ฉบับ (30 สิงหาคม 2544) ISBN-10: 0198507658, ISBN-13: 978-0198507659 โดยเฉพาะตอนที่ 5.5-5.9, 10 และ 16

5

ฉันจะตอบคำถามของฉันโดยเฉพาะกับคำถาม "มีวิธีการใดที่ไม่ใช่แบบเบย์สำหรับการอนุมานเชิงคาดการณ์ที่จะนำมาพิจารณาความไม่แน่นอนในการประมาณค่าพารามิเตอร์" ผมจะจัดระเบียบคำตอบของฉันรอบขยายความหมายของความไม่แน่นอน

เราหวังว่าการวิเคราะห์ทางสถิติให้การสนับสนุนสำหรับหลายชนิดของการเรียกร้องรวมทั้งการคาดการณ์ แต่เรายังคงไม่แน่ใจเกี่ยวกับการเรียกร้องของเราและความไม่แน่นอนนี้เกิดขึ้นจากหลายแหล่ง สถิติของผู้มีสถานะเป็นประจำนั้นมีการจัดระเบียบเฉพาะเกี่ยวกับการจัดการกับส่วนที่ไม่แน่นอนของเราที่เกิดขึ้นจากการสุ่มตัวอย่างเท่านั้น การสุ่มตัวอย่างอาจเป็นสาเหตุหลักของความไม่แน่นอนในการทดลองภาคเกษตรซึ่งในอดีตเป็นแรงกระตุ้นให้เกิดการพัฒนาสถิติบ่อยครั้งมาก แต่ในแอปพลิเคชั่นปัจจุบันที่สำคัญที่สุดหลายกรณีไม่ได้เป็นเช่นนั้น ตอนนี้เรากังวลเกี่ยวกับความไม่แน่นอนอื่น ๆ ทุกชนิดเช่นการสะกดผิดรูปแบบและอคติในรูปแบบต่างๆซึ่งมีประเภทหลายร้อย (!) [1]

แซนเดอร์กรีนแลนด์มีบทความอภิปรายที่ยอดเยี่ยม [2] ซึ่งชี้ให้เห็นว่ามันมีความสำคัญเพียงใดที่จะต้องคำนึงถึงแหล่งที่มาของความไม่แน่นอนเหล่านี้และกำหนดการวิเคราะห์หลายอคติเพื่อให้บรรลุเป้าหมายนี้ เขาพัฒนาทฤษฎีทั้งหมดในแง่ของเบย์ซึ่งเป็นเรื่องธรรมชาติ ถ้าใครอยากจะส่งต่อการรักษาความไม่แน่นอนเกี่ยวกับพารามิเตอร์แบบจำลองที่สอดคล้องกันคนหนึ่งก็จะนำไปสู่การวางตัว (ส่วนตัว) ความน่าจะเป็นไปได้ที่จะวางตัว (อัตนัย) พารามิเตอร์; ณ จุดนี้คุณจะหลงทางไปสู่ ​​Bayesian Devil หรือเข้าสู่อาณาจักรแห่ง Bayesian (ขึ้นอยู่กับศาสนาของคุณ)

สำหรับคำถามของคุณ @Scortchi เกี่ยวกับวิธีการที่สามารถทำได้ด้วย "วิธีการที่ไม่ใช่แบบเบย์" มีการสาธิตวิธีแก้ปัญหาที่ไม่ใช่แบบเบย์ใน [3] แต่สำหรับใครก็ตามที่รู้เกี่ยวกับ Bayesianism มากพอที่จะเขียนคำถามของคุณการรักษาที่นั่นดูเหมือนจะเป็นความพยายามที่จะนำการคำนวณแบบเบย์ไปใช้กับผู้รอบรู้ ตามที่ผู้เขียนยอมรับ (ดูหน้า 4) ยิ่งคุณเข้าใกล้วิธีการขั้นสูงมากขึ้นจนถึงจุดสิ้นสุดของหนังสือมากเท่าไหร่ยิ่งมีวิธีการรวมที่คุณอธิบายในคำถามของคุณมากขึ้นเท่านั้น พวกเขาแนะนำว่าในที่สุดพวกเขาจาก Bayesianism ไม่เพียงวางตัวชัดเจนในพารามิเตอร์ของนักบวชก่อนที่จะประเมินพวกนักบวช

θ(α)αθ

  1. Chavalarias, David และ John PA Ioannidis “ การวิเคราะห์การทำแผนที่วิทยาศาสตร์มีลักษณะ 235 อคติในการวิจัยทางชีวการแพทย์” วารสารระบาดวิทยาทางคลินิก 63, ครั้งที่ 11 (พฤศจิกายน 2010): 1205–15 ดอย: 10.1016 / j.jclinepi.2009.12.011

  2. กรีนแลนด์, ซานเดอร์ “ การสร้างแบบจำลองหลายอคติสำหรับการวิเคราะห์ข้อมูลเชิงสังเกตการณ์ (พร้อมการอภิปราย)” วารสารสมาคมสถิติแห่งราชวงศ์: ชุด A (สถิติในสังคม) 168, ฉบับที่ 2 (มีนาคม 2548): 267–306 ดอย: 10.1111 / j.1467-985X.2004.00349.x

  3. Lash, Timothy L. , Matthew P. Fox และ Aliza K. Fink การใช้การวิเคราะห์ความลำเอียงเชิงปริมาณกับข้อมูลทางระบาดวิทยา สถิติสำหรับชีววิทยาและสุขภาพ New York, NY: สปริงเกอร์นิวยอร์ก 2009 http://link.springer.com/10.1007/978-0-387-87959-8


2
ขอบคุณ! ฟังดูน่าสนใจมาก แต่ฉันคิดว่ามันจะมีประโยชน์ถ้าคุณสามารถเพิ่มโครงร่างสั้น ๆ ของการวิเคราะห์อคติเชิงปริมาณ / เชิงปริมาณในการอนุมานเชิงคาดการณ์
Scortchi - Reinstate Monica

ฉันได้เพิ่มย่อหน้าเพื่อให้การเชื่อมต่อกับการทำนายชัดเจน ขอบคุณสำหรับคำขอของคุณสำหรับการชี้แจง @Scortchi
David C. Norris
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.