คำถามเกี่ยวกับ bootstrap แบบพารามิเตอร์และไม่อิงพารามิเตอร์


14

ฉันกำลังอ่านบทเกี่ยวกับสถิติที่ใช้บ่อยจากหนังสือของเควินเมอร์ฟี่เรื่อง " การเรียนรู้ของเครื่องจักร - มุมมองที่น่าจะเป็น " ส่วนบน bootstrap อ่าน:

bootstrap เป็นเทคนิค Monte Carlo แบบง่าย ๆ เพื่อประมาณการกระจายตัวตัวอย่าง สิ่งนี้มีประโยชน์อย่างยิ่งในกรณีที่ตัวประมาณเป็นฟังก์ชันที่ซับซ้อนของพารามิเตอร์จริง

ความคิดนั้นง่าย ถ้าเรารู้พารามิเตอร์จริงเราสามารถสร้างจำนวนมาก (พูดS ) ชุดข้อมูลปลอมแต่ละขนาดNจากการกระจายจริงx_i ^ s \ ซิมพี (· | θ ^ *)สำหรับs = 1: S, i = 1: N จากนั้นเราสามารถคำนวณตัวประมาณของเราจากตัวอย่างแต่ละตัวอย่าง \ hat {\ theta ^ s} = f (x ^ s_ {1: N})และใช้การแจกแจงเชิงประจักษ์ของตัวอย่างผลลัพธ์เป็นค่าประมาณของการกระจายตัวตัวอย่าง เนื่องจากไม่ทราบ\ thetaแนวคิดของพารามิเตอร์บูตคือการสร้างตัวอย่างโดยใช้\ hat {\ theta} (D)แทน SN x s ฉันp(· | θ )s=1:S,i=1:N ^ θ s =f( x s 1 : N )θθSNxisp(·|θ)s=1:S,i=1:Nθs^=f(x1:Ns)θθ^(D)

อีกทางเลือกหนึ่งที่เรียกว่าbootstrap ที่ไม่ใช่พารามิเตอร์คือการสุ่มตัวอย่าง xis (พร้อมการแทนที่) จากข้อมูลต้นฉบับDแล้วคำนวณการแจกแจงที่เกิดขึ้นก่อนหน้านี้ วิธีการบางอย่างสำหรับเร่งความเร็ว bootstrap เมื่อนำไปใช้กับชุดข้อมูลขนาดใหญ่มีการกล่าวถึงใน (Kleiner et al. 2011)

  • 1 . ข้อความบอกว่า:

    ถ้าเรารู้พารามิเตอร์ที่แท้จริงθ ... เราสามารถคำนวณตัวประมาณของเราจากแต่ละตัวอย่างθs^ ...

        แต่ทำไมผมจะใช้ประมาณการของแต่ละตัวอย่างถ้าผมอยู่แล้วรู้ว่าพารามิเตอร์จริงθ ?

  • 2 . นอกจากนี้ความแตกต่างระหว่างการกระจายเชิงประจักษ์กับการกระจายตัวตัวอย่างคืออะไร

  • 3 . ในที่สุดฉันไม่เข้าใจความแตกต่างระหว่างbootstrap แบบพารามิเตอร์และแบบไม่พารามิเตอร์จากข้อความนี้ พวกเขาทั้งสองอนุมานจากชุดการสังเกตแต่ความแตกต่างคืออะไรกันแน่?DθD

คำตอบ:


14

คำตอบที่ Miura ให้ไว้นั้นไม่ถูกต้องทั้งหมดดังนั้นฉันจึงตอบคำถามเก่า ๆ นี้เพื่อลูกหลาน:

(2) สิ่งเหล่านี้แตกต่างกันมาก empirical cdf เป็นค่าประมาณของ CDF (การกระจาย) ซึ่งสร้างข้อมูล แม่นยำมันเป็น CDF ที่ไม่ต่อเนื่องซึ่งกำหนดความน่าจะเป็นให้กับแต่ละจุดข้อมูลที่สังเกตสำหรับแต่ละxเครื่องมือประมาณค่านี้มาบรรจบกับ cdf จริง:เกือบแน่นอนสำหรับแต่ละ (ในความเป็นจริงเหมือนกัน)F ( x ) = 11/nx F (x)F(x)=P(Xฉันx)xF^(x)=1ni=1nI(Xix)xF^(x)F(x)=P(Xix)x

การกระจายตัวตัวอย่างของสถิติแทนการกระจายตัวของสถิติที่คุณคาดว่าจะเห็นภายใต้การทดลองซ้ำ นั่นคือคุณดำเนินการทดสอบของคุณทันทีและเก็บข้อมูลX_n} เป็นหน้าที่ของข้อมูลของคุณ:X_n) ตอนนี้สมมติว่าคุณทำซ้ำการทดลองและเก็บข้อมูลX'_n} คำนวณ T บนตัวอย่างใหม่ให้X'_n}) ถ้าเราเก็บรวบรวม 100 ตัวอย่างเราจะมี 100 ประมาณการของTการสังเกตของเป็นการกระจายตัวตัวอย่างของX 1 , , X n T T = T ( X 1 , , X n ) X 1 , , X n T = T ( X 1 , , X n ) T T T E ( T ) V a r ( T )TX1,,XnTT=T(X1,,Xn)X1,,XnT=T(X1,,Xn)TTT. เป็นการกระจายที่แท้จริง ขณะที่จำนวนของการทดลองไปที่อินฟินิตี้ลู่เฉลี่ยในการและความแปรปรวนในการ(T)E(T)Var(T)

โดยทั่วไปแล้วเราจะไม่ทำการทดลองซ้ำเช่นนี้เราจะเห็นตัวอย่างหนึ่งของเท่านั้น การหาว่าความแปรปรวนของมาจากการสังเกตเพียงครั้งเดียวนั้นยากมากถ้าคุณไม่รู้ฟังก์ชันความน่าจะเป็นพื้นฐานของ a นิรนัย ร่วมมือเป็นวิธีที่จะประเมินว่าการกระจายการสุ่มตัวอย่างของโดยเทียมทำงาน "การทดลองใหม่" ที่จะคำนวณอินสแตนซ์ใหม่ของTตัวอย่างใหม่แต่ละตัวอย่างเป็นเพียงตัวอย่างจากข้อมูลต้นฉบับ สิ่งนี้ให้ข้อมูลมากกว่าที่คุณมีในข้อมูลดั้งเดิมนั้นลึกลับและยอดเยี่ยมมากT T T TTTTTT

(1) คุณถูกต้อง - คุณจะไม่ทำเช่นนี้ ผู้เขียนพยายามที่จะกระตุ้นการบูตพารามิเตอร์โดยอธิบายว่าเป็นการทำ "สิ่งที่คุณจะทำถ้าคุณรู้ว่าการกระจาย" แต่แทนที่ตัวประมาณที่ดีมากของฟังก์ชั่นการกระจาย - cdf เชิงประจักษ์

ตัวอย่างเช่นสมมติว่าคุณรู้ว่าสถิติการทดสอบของคุณถูกกระจายโดยปกติด้วยค่าเฉลี่ยศูนย์ความแปรปรวนหนึ่ง คุณจะประเมินการกระจายตัวตัวอย่างของอย่างไร ทีนี้, เมื่อคุณรู้ว่าการกระจาย, วิธีโง่และซ้ำซ้อนในการประมาณการกระจายตัวตัวอย่างคือการใช้ R เพื่อสร้างตัวแปรสุ่มปกติประมาณ 10,000 ตัวหรือมากกว่านั้น, จากนั้นใช้ค่าเฉลี่ยตัวอย่างและความแปรปรวนจากนั้นใช้ค่าเฉลี่ยของเรา ความแปรปรวนของการกระจายตัวอย่างของTT TTTT

หากเราไม่ทราบค่าพารามิเตอร์เบื้องต้นของแต่เรารู้ว่ามันกระจายตามปกติสิ่งที่เราสามารถทำได้คือสร้างตัวอย่าง 10,000 ตัวอย่างจาก cir เชิงประจักษ์ให้คำนวณบนแต่ละตัวแล้วใช้ค่าเฉลี่ยตัวอย่าง และความแปรปรวนของเหล่านี้ 10,000 s และใช้พวกเขาเป็นประมาณการมูลค่าที่คาดหวังและความแปรปรวนของเราTเนื่องจาก empirical cdf เป็นตัวประมาณที่ดีของ cdf จริงพารามิเตอร์ตัวอย่างควรมาบรรจบกับพารามิเตอร์จริง นี่คือพารามิเตอร์บูต: คุณวางโมเดลบนสถิติที่คุณต้องการประเมิน แบบจำลองถูกทำดัชนีโดยพารามิเตอร์เช่นซึ่งคุณประเมินจากการสุ่มตัวอย่างซ้ำจาก ecdfTTTT(μ,σ)

(3) bootstrap ที่ไม่ใช่พารามิเตอร์ไม่ได้กำหนดให้คุณต้องทราบก่อนว่าจะกระจายตามปกติ แต่คุณเพียงแค่ดึงตัวอย่างซ้ำจาก ecdf และคำนวณในแต่ละอัน หลังจากคุณดึงตัวอย่างประมาณ 10,000 ตัวอย่างและคำนวณ 10,000 s แล้วคุณสามารถพล็อตกราฟฮิสโตแกรมของค่าประมาณของคุณได้ นี่คือการมองเห็นการกระจายตัวตัวอย่างของTTTT. bootstrap ที่ไม่ใช่พารามิเตอร์จะไม่บอกคุณว่าการแจกแจงการสุ่มตัวอย่างเป็นเรื่องปกติหรือแกมม่าหรืออื่น ๆ แต่ช่วยให้คุณสามารถประเมินการกระจายตัวตัวอย่าง (โดยปกติ) ได้อย่างแม่นยำตามที่ต้องการ มันทำให้สมมติฐานน้อยลงและให้ข้อมูลน้อยกว่า bootstrap พารามิเตอร์ มันมีความแม่นยำน้อยกว่าเมื่อการสันนิษฐานว่าพารามิเตอร์เป็นจริง แต่แม่นยำยิ่งขึ้นเมื่อมันเป็นเท็จ สถานการณ์ใดที่คุณใช้ในแต่ละสถานการณ์ที่คุณพบนั้นขึ้นอยู่กับบริบททั้งหมด ผู้คนจำนวนมากยอมรับว่าคุ้นเคยกับ bootstrap nonparametric แต่บ่อยครั้งที่ข้อสันนิษฐานเกี่ยวกับพารามิเตอร์ที่อ่อนแอทำให้แบบจำลองที่ยากจะคล้อยตามคล้อยตามการประมาณซึ่งน่ารัก


1
ฉันสับสนเกี่ยวกับคำอธิบายของคุณเกี่ยวกับพารามิเตอร์บูต "สิ่งที่เราสามารถทำได้คือสร้างตัวอย่าง 10,000 ตัวอย่างจาก cdf เชิงประจักษ์" ความเข้าใจของฉันเกี่ยวกับพารามิเตอร์บูตคือว่าคุณต้องการตัวอย่างจากแบบจำลองที่คุณพอดีกับข้อมูล นี่คือสิ่งที่อ้างอิงต้นฉบับจากหนังสือ Murphy อธิบาย ฉันอาจจะเข้าใจผิด แต่การสุ่มตัวอย่างจาก CDF เชิงประจักษ์ของข้อมูลจะเป็นการสุ่มตัวอย่างจุดข้อมูลโดยตรงซึ่งจะเป็น bootstrap มาตรฐานใช่ไหม
user20160

@ user20160 คุณกำลังตีความคำตอบของ "แทน" ผิด: เขากำลังอธิบายถึง bootstrap ที่ไม่ใช่พารามิเตอร์ไม่ใช่ parametric
daknowles

4

ฉันซาบซึ้งในความพยายามของแขก 47 แต่ฉันไม่ค่อยเห็นด้วยกับคำตอบของเขาในบางประเด็น ฉันจะไม่ก่อให้เกิดความขัดแย้งโดยตรง แต่จะสะท้อนพวกเขาในคำตอบนี้

  1. ในหลายกรณีไม่ซ้ำซ้อนคำนวณθ sเมื่อเรารู้อยู่แล้วว่าพารามิเตอร์พื้นฐานจริงθ * แต่ก็ยังคงมีประโยชน์เมื่อเราต้องการที่จะดูที่ความถูกต้องและความแม่นยำของθ sในการประมาณθ * นอกจากนี้ย่อหน้าแรกในข้อความที่ยกมาของคุณจะช่วยให้คุณเข้าใจแนวคิดของ "พารามิเตอร์บูตสแตรป" ได้ง่ายขึ้นซึ่งฉันจะสัมผัสหลังจากนั้นไม่นานθ^sθθ^sθ

  2. แขก 47 ให้คำตอบที่ดี ไม่จำเป็นต้องทำอย่างละเอียดมากขึ้น

  3. ในความร่วมมือพาราสิ่งที่คุณมีเป็นข้อมูลที่สังเกตดีคุณมากับรูปแบบตัวแปรเพื่อให้พอดีกับข้อมูลและการใช้งานประมาณθ (ซึ่งเป็นฟังก์ชั่นของข้อมูลมิติ) สำหรับพารามิเตอร์จริงθ * จากนั้นคุณสร้างหลายพันชุดข้อมูลจากรูปแบบพารากับθและประมาณการθ sสำหรับรุ่นนี้ ในการบูตสแตรปแบบไม่ใช้พารามิเตอร์คุณใช้ D, ตัวอย่าง (เป็นพัน ๆ ครั้ง) โดยตรงจาก D โดยตรงแทนที่จะเป็นจากข้อมูลที่สร้างขึ้น θ^θθ^θ^s


2

ฉันไม่ชำนาญ แต่สำหรับสิ่งที่คุ้มค่า:

  1. เพราะคุณสนใจการกระจายตัวตัวอย่างดังที่กล่าวไว้ในประโยคแรกของใบเสนอราคาของคุณ

  2. การกระจายเชิงประจักษ์คือการกระจายตัวที่คุณเห็นในจำนวนตัวอย่างที่ จำกัด ของคุณ การกระจายตัวตัวอย่างคือสิ่งที่คุณเห็นเมื่อคุณนำตัวอย่างจำนวนอนันต์

ฉันไม่สามารถตอบได้ 3. ฉันมักจะเข้าใจสิ่งที่อธิบายไว้ที่นี่ในฐานะ bootstrap ที่ไม่ใช่พารามิเตอร์ว่า "bootstrap"

หากคุณยังไม่เข้าใจแนวคิดของการกระจายตัวตัวอย่างอย่างสมบูรณ์มีเธรดที่ดีมากที่นี่ซึ่งมีรหัส R ที่เป็นตัวอย่าง


5
ความแตกต่างระหว่างพารามิเตอร์ bootstrap และ nonparametric คืออดีตสร้างตัวอย่างของมันจากการกระจายของข้อมูล (สันนิษฐาน) โดยใช้ค่าพารามิเตอร์โดยประมาณในขณะที่หลังสร้างตัวอย่างของมันโดยการสุ่มตัวอย่างด้วยการแทนที่ด้วยข้อมูลที่สังเกตได้ - ไม่มีแบบจำลองพารามิเตอร์ .
jbowman

@jbowman - ที่ "ไม่ใช่ตัวแปร" บูตไม่ได้มีรูปแบบพื้นฐาน - เพียงแค่ว่ามันเป็นรูปแบบที่แตกต่างกันอย่างใดอย่างหนึ่งที่ใช้ในการกระตุ้นให้ประมาณการพารามิเตอร์
ความน่าจะเป็นทางการที่

@miura โปรดอย่าทำลายคำตอบของคุณ หากคุณต้องการให้ผู้ถามเลือกคำตอบอื่น ๆ ให้แสดงความคิดเห็นภายใต้คำถาม หากคุณต้องการลบคำตอบของคุณโปรดตั้งค่าสถานะและถามว่า
Glen_b -Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.