Bootstrap กับ Monte Carlo การประมาณข้อผิดพลาด


12

ฉันอ่านบทความการเผยแพร่ข้อผิดพลาดโดยวิธีมอนติคาร์โลในการคำนวณทางธรณีวิทยาแอนเดอร์สัน (1976)และมีบางสิ่งที่ฉันไม่เข้าใจ

พิจารณาข้อมูลที่วัดได้และโปรแกรมที่ประมวลผลและคืนค่าที่กำหนด ในบทความโปรแกรมนี้ใช้เพื่อให้ได้ค่าที่ดีที่สุดก่อนโดยใช้วิธีการของข้อมูล (เช่น: ){ A , B , C }{A±σA,B±σB,C±σC}{A,B,C}

จากนั้นผู้เขียนใช้วิธีมอนติคาร์โลเพื่อกำหนดความไม่แน่นอนให้กับค่าที่ดีที่สุดนี้โดยการเปลี่ยนแปลงพารามิเตอร์อินพุตภายในขอบเขตความไม่แน่นอน (กำหนดโดยการแจกแจงแบบเกาส์ด้วยวิธีการและค่าเบี่ยงเบนมาตรฐาน ) ก่อนป้อนเข้าโปรแกรม นี่คือตัวอย่างในรูปด้านล่าง:{ σ A , σ B , σ C }{A,B,C}{σA,σB,σC}

ป้อนคำอธิบายรูปภาพที่นี่

( ลิขสิทธิ์: ScienceDirect )

ซึ่งความไม่แน่นอนสามารถหาได้จากการแจกแจงครั้งสุดท้ายZ

จะเกิดอะไรขึ้นหากฉันใช้วิธีบูตสแตรปแทนวิธีนี้มอนติคาร์โล บางสิ่งเช่นนี้

ป้อนคำอธิบายรูปภาพที่นี่

นี่คือ: แทนที่จะเปลี่ยนข้อมูลภายในความไม่แน่นอนก่อนส่งไปยังโปรแกรมฉันสุ่มตัวอย่างด้วยการแทนที่จากพวกเขา

ความแตกต่างระหว่างสองวิธีนี้ในกรณีนี้คืออะไร? คำเตือนใดที่ฉันควรทราบก่อนใช้สิ่งใด ๆ


ฉันรู้คำถามนี้ว่าBootstrap, Monte Carloแต่มันก็ไม่ได้แก้ปัญหาข้อสงสัยของฉันตั้งแต่ในกรณีนี้ข้อมูลมีความไม่แน่นอนที่ได้รับมอบหมาย


เพียงเพื่อชี้แจง: "การเปลี่ยนแปลงแบบสุ่ม" ในวิธีการ MC ถูกสร้างขึ้นโดยนักวิจัยแบบสุ่ม? นั่นคือสัญญาณรบกวน / ข้อผิดพลาดถูกเพิ่มเข้ามาในข้อมูลอินพุตหรือไม่
shadowtalker

มันคือ "สร้างแบบสุ่ม" ขึ้นอยู่กับความไม่แน่นอนของข้อมูลที่วัดได้ (เช่น: s) และสมมติว่ามีการแจกแจงบางอย่างสำหรับข้อผิดพลาดเหล่านี้ (โดยปกติเสียน) ดังนั้นไม่ข้อผิดพลาดจะไม่ถูกเพิ่มเข้ามา ข้อมูลอินพุตมีข้อผิดพลาดเกี่ยวข้องที่กำหนดโดยกระบวนการวัด σ
กาเบรียล

ฉันไม่คิดว่าฉันเข้าใจ นั่นคือเสียงเทียม แต่ด้วยค่าเบี่ยงเบนมาตรฐานที่ประเมินจากข้อมูล
shadowtalker

ถ้าอย่างนั้นฉันก็อาจไม่เข้าใจว่า "เสียงรบกวนเทียม" คืออะไร (และสิ่งใดที่จะก่อให้เกิด "เสียงรบกวนที่ไม่ใช่เสียง") คุณเคยเห็นบทความหรือไม่ มันอธิบายสิ่งต่าง ๆ ได้ดีกว่าฉันอย่างมาก
Gabriel

เสียงรบกวนจากธรรมชาติ: ความแตกต่างแบบสุ่มในข้อมูลของฉัน เสียงรบกวนประดิษฐ์: ใช้ตัวสร้างตัวเลขสุ่มเพื่อดึงตัวเลขจากการแจกแจงความน่าจะเป็นและเพิ่มตัวเลขเหล่านั้นลงในข้อมูลของฉัน
shadowtalker

คำตอบ:


7

เท่าที่ฉันเข้าใจคำถามของคุณความแตกต่างระหว่างวิธีการ "มอนติคาร์โล" และวิธีบูตสแตรปเป็นหลักความแตกต่างระหว่างสถิติพารามิเตอร์และไม่ใช่พารามิเตอร์

ในเฟรมเวิร์กพาราเมทริกใครรู้วิธีที่ข้อมูลถูกสร้างขึ้นนั่นคือเนื่องจากพารามิเตอร์ของโมเดล ( , , & tc. ในคำอธิบายของคุณ) คุณสามารถสร้างการรับรู้ใหม่ของชุดข้อมูลดังกล่าว และจากการรับรู้ใหม่ของกระบวนการทางสถิติของคุณ (หรือ "เอาท์พุท") ดังนั้นจึงเป็นไปได้ที่จะอธิบายทั้งหมดและการกระจายความน่าจะเป็นของเอาต์พุตไม่ว่าจะโดยการคำนวณทางคณิตศาสตร์หรือโดยการทดลองของ Monte Carlo ที่ส่งคืนตัวอย่างขนาดโดยพลการจากการแจกแจงนี้ A σ A Zx1,,xNAσAZ

ในกรอบที่ไม่ใช่ตัวแปรหนึ่งไม่ต้องการที่จะทำให้สมมติฐานดังกล่าวบนข้อมูลและทำให้การใช้ข้อมูลและเฉพาะข้อมูลเพื่อประเมินการจัดจำหน่าย, Fbootstrap เป็นวิธีการที่การกระจายแบบไม่ทราบค่าถูกประมาณโดยการกระจายเชิงประจักษ์ทำโดยการตั้งค่าน้ำหนักความน่าจะเป็นในแต่ละจุดของตัวอย่าง (ในกรณีที่ง่ายที่สุดเมื่อข้อมูลคือ iid) นี้โดยใช้การกระจายเชิงประจักษ์แทนการกระจายจริงหนึ่งสามารถได้รับมาโดย Monte Carlo จำลองการกระจายประมาณของผลผลิตZF 1 / n F F ZFF^1/nF^FZ

ดังนั้นความแตกต่างที่สำคัญระหว่างวิธีการทั้งสองคือว่ามีใครทำให้สมมติฐานนี้เกี่ยวกับการกระจายของข้อมูล


2
เกือบสองปีต่อมาฉันรู้ว่านี่เป็นคำตอบที่ดีที่สุดเพราะมันระบุถึงความแตกต่างอย่างชัดเจนระหว่างวิธีการแบบพารามิเตอร์และแบบไม่อิงพารามิเตอร์ (ซึ่งฉันไม่รู้ตอนนั้น) ดังนั้นฉันจึงเปลี่ยนคำตอบที่ยอมรับได้ .
Gabriel

แต่สำหรับ paramrtric approach เราสามารถใช้พารามิเตอร์ bootstrap ได้
Tom Wenseleers

12

การเปลี่ยนแปลงแบบสุ่มในโมเดลมอนติคาร์โลของคุณนั้นแสดงด้วยเส้นโค้งรูประฆังและการคำนวณอาจถือว่า "ผิดพลาด" แบบกระจายหรือปกติ "กระจาย" อย่างน้อยคอมพิวเตอร์ของคุณจำเป็นต้องมีข้อสันนิษฐานบางอย่างเกี่ยวกับการกระจายเพื่อดึง "การเปลี่ยนแปลง" การบูตสแตรปไม่จำเป็นต้องตั้งสมมติฐานเช่นนี้ มันต้องใช้การสังเกตเป็นการสังเกตและหากความผิดพลาดของพวกเขาถูกกระจายแบบไม่สมมาตร

การบูตการดึงข้อมูลมาจากการสังเกตและจำเป็นต้องมีการสังเกตการณ์จริงจำนวนมาก หากคุณอ่านในหนังสือ C เฉลี่ยที่ 5 มีค่าเบี่ยงเบนมาตรฐานเท่ากับ 1 คุณสามารถตั้งค่า Monte Carlo Modell ได้แม้ว่าคุณจะไม่ได้สังเกต หากการสังเกตของคุณหายาก (คิดว่า: ดาราศาสตร์) คุณอาจตั้งค่า Monte Carlo Modell ด้วยการสังเกต 6 ครั้งและมีข้อสันนิษฐานบางอย่างเกี่ยวกับการกระจายของมัน แต่คุณจะไม่บู๊ตจากการสังเกต 6 ครั้ง

modells ผสมกับอินพุตบางอย่างจากข้อมูลที่สังเกตได้และข้อมูลบางส่วนจากข้อมูลจำลอง (พูดสมมุติ) เป็นไปได้

แก้ไข: ในการสนทนาต่อไปนี้ในความคิดเห็นโปสเตอร์ต้นฉบับพบว่ามีประโยชน์ต่อไปนี้:

"โปรแกรมต้นฉบับ" ไม่สนใจไม่ว่าจะได้รับค่าที่คุณคำนวณจากค่าเฉลี่ยและส่วนเบี่ยงเบนหรือที่เกิดขึ้นจริงของค่าเฉลี่ยและส่วนเบี่ยงเบนในกระบวนการทางธรรมชาติ


1
N

1
ฉันเรียนรู้ด้วยตนเองโดยใช้สถิติ / เครื่องจักรดังนั้นฉันจะไม่อ้างว่าความแตกต่างใด ๆ ที่ฉันกล่าวถึงเป็นเพียงสิ่งเดียว ฉันยังไม่แน่ใจว่า Bootstrapping ถือเป็นวิธี Monte Carlo หรือไม่ อัลกอริทึมทั้งสองจำลองสถานการณ์จำลองที่เหมือนจริงจำนวนมาก คุณสามารถดึงอินพุตจากสมมติฐานหรือจากการสังเกต สาขาของฉันคือยาและการตั้งสมมติฐานผิดในสาขานั้น ดังนั้นฉันจะพยายามสังเกตด้วยทุกครั้งที่มีจำนวนมากพอ มันอาจจะดีที่ในเขตใกล้ชิดกับฟิสิกส์หรือเคมี ...
เบอร์นาร์ด

1
... ว่าในสาขาที่ใกล้ชิดกับฟิสิกส์หรือเคมีสมมติฐานมีความน่าเชื่อถือมากกว่า ประเด็นที่ 2: ถ้าคุณไปโดยกลุ่มตัวอย่างที่มีขนาดใหญ่พอและการวนซ้ำฉันคิดว่าคุณจะพบว่าข้อมูลจริงไม่ได้ถูกเผยแพร่อย่างแท้จริงและสมมติฐานของคุณมักผิดเล็กน้อย แต่ฉันไม่สามารถอ้างความรู้ใด ๆ ได้ สำหรับจุดที่ 3: ฉันไม่ได้เข้าใจว่าคุณหมายถึงอะไรโดยการทิ้งข้อมูลที่มีค่าในวิธีบูตสแตรป "การกำหนดความไม่แน่นอน" เป็นข้อมูลที่มนุษย์สร้างขึ้นมาจากความเป็นจริง นี่คือความเชื่อของฉันตามสาขาของฉัน ในความเป็นจริงคุณจะไม่ค่อยมีทฤษฎีที่ดีและข้อมูลขนาดใหญ่
แบร์นฮาร์ด

1
σA,σB,σC

1
การสังเกตแต่ละครั้งเป็นค่าที่วัดได้และประกอบด้วยข้อผิดพลาดและความไม่แน่นอนในการวัดของตัวเองแล้ว "โปรแกรมต้นฉบับ" ไม่สนใจไม่ว่าจะได้รับค่าที่คุณคำนวณจากค่าเฉลี่ยและส่วนเบี่ยงเบนหรือที่เกิดขึ้นจริงของค่าเฉลี่ยและส่วนเบี่ยงเบนในกระบวนการทางธรรมชาติ แต่แน่นอนว่าเทคนิคการสุ่มตัวอย่างใหม่ทั้งหมดนั้นอาศัยข้อมูลขนาดใหญ่และคุณสามารถคำนวณตัวเลขโดยพลการหรือตัวเลขสุ่ม แต่โดยทั่วไปแล้วจะไม่ทำการสังเกตโดยพลการ ดังนั้นในกรณีที่คุณมีข้อสังเกตจำนวนมากฉันไม่เห็นว่าข้อมูลถูกทิ้งไปที่ไหน
Bernhard

1

หากฟังก์ชันที่เกี่ยวข้องกับเอาต์พุต Z ไปยังอินพุตนั้นเป็นเส้นตรงอย่างสมเหตุสมผล (เช่นภายในช่วงการเปลี่ยนแปลงของอินพุต) ความแปรปรวนของ Z คือการรวมกันของความแปรปรวนและความแปรปรวนร่วมของอินพุต รายละเอียดของการแจกแจงไม่สำคัญมากเกินไป ... ดังนั้นทั้งสองวิธีควรให้ผลลัพธ์ที่คล้ายกัน

ดู ภาคผนวก 1 ถึง GUM


จะเกิดอะไรขึ้นเมื่อฟังก์ชั่นไม่เชิงเส้นอย่างสมเหตุสมผล? ทั้งสองวิธีจะแตกต่างกันอย่างไร?
กาเบรียล

ในกรณีนี้คุณควรอ้างถึงคำตอบข้างต้นโดย Bernhard นั่นคือเพื่อให้ตรงกับที่คุณควรมีคำอธิบายที่เชื่อถือได้ของข้อมูล pdf สำหรับ Monte Carlo
ปาสกาล

0

Bootstrap หมายถึงการให้ข้อมูลพูดได้ด้วยตนเอง ด้วยวิธีการมอนติคาร์โลคุณสุ่มตัวอย่างสุ่มจำนวนมากจาก CDF ที่กำหนด (ปกติ; แกมม่า; เบต้า ... ) ผ่านการแจกแจงแบบเดียวกันและสร้าง PDF เชิงประจักษ์ (โดยที่ CDF นั้นต่อเนื่องและสามารถทำได้) คำอธิบายที่น่าสนใจเกี่ยวกับกระบวนการมอนติคาร์โลทั้งหมดได้รับการรายงานใน: Briggs A, Schulper M, Claxton K. แบบจำลองการตัดสินใจเพื่อการประเมินทางเศรษฐศาสตร์ด้านสุขภาพ Oxford: สำนักพิมพ์มหาวิทยาลัยออกซ์ฟอร์ด, 2006: 93-95

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.