ทำไมไม่รายงานค่าเฉลี่ยของการกระจาย bootstrap?


29

เมื่อหนึ่ง bootstraps พารามิเตอร์เพื่อรับข้อผิดพลาดมาตรฐานที่เราได้รับการกระจายของพารามิเตอร์ ทำไมเราไม่ใช้ค่าเฉลี่ยของการแจกแจงนั้นเป็นผลลัพธ์หรือค่าประมาณสำหรับพารามิเตอร์ที่เราพยายามหา การกระจายไม่ควรประมาณค่าจริงหรือไม่ ดังนั้นเราจะได้ค่าประมาณที่ดี "ที่แท้จริง"? แต่เรารายงานพารามิเตอร์ดั้งเดิมที่เราได้รับจากตัวอย่างของเรา ทำไมถึงเป็นอย่างนั้น?

ขอบคุณ

คำตอบ:


24

เนื่องจากสถิติการบูตสแตรปเป็นสิ่งที่เป็นนามธรรมอีกประการหนึ่งที่อยู่ห่างจากพารามิเตอร์ประชากรของคุณ คุณมีพารามิเตอร์ประชากรของคุณสถิติตัวอย่างของคุณและเฉพาะในชั้นที่สามที่คุณมี bootstrap ค่าเฉลี่ย bootstrapped ไม่ใช่ค่าประมาณที่ดีกว่าสำหรับพารามิเตอร์ประชากรของคุณ มันเป็นเพียงแค่ประมาณการของการประมาณ

ในฐานะการกระจาย bootstrap ที่มี bootstrapped ชุดค่าผสมที่เป็นไปได้ทั้งหมดจะรวมศูนย์รอบ ๆ ตัวอย่างสถิติเหมือนกับศูนย์สถิติตัวอย่างรอบพารามิเตอร์ประชากรภายใต้เงื่อนไขเดียวกัน กระดาษนี้ที่นี่สรุปสิ่งเหล่านี้ขึ้นอย่างมากและเป็นหนึ่งในที่ง่ายที่สุดที่ฉันสามารถหา สำหรับการพิสูจน์อย่างละเอียดเพิ่มเติมโปรดดูที่เอกสารอ้างอิง ตัวอย่างที่น่าสังเกตคือEfron (1979)และSingh (1981)n

การกระจาย bootstrapped ของไปตามการกระจายของซึ่งทำให้มีประโยชน์ในการประมาณค่าความผิดพลาดมาตรฐานของการประมาณตัวอย่างในการสร้างช่วงความมั่นใจและในการประมาณ พารามิเตอร์ของความลำเอียง มันไม่ได้ทำให้มันเป็นตัวประมาณที่ดีกว่าสำหรับพารามิเตอร์ของประชากร มันเป็นเพียงทางเลือกที่ดีกว่าในการกระจายพาราเมตริกตามปกติสำหรับการกระจายของสถิติθB-θ^θ^-θ


13

มีกรณีอย่างน้อยหนึ่งที่ผู้คนจะใช้ค่าเฉลี่ยของการกระจายบูต: ห่อ (สั้นสำหรับบูตรวม )

แนวคิดพื้นฐานคือถ้าตัวประมาณค่าของคุณไวต่อการก่อกวนในข้อมูล (เช่นตัวประมาณค่ามีความแปรปรวนสูงและมีอคติต่ำ) คุณสามารถเฉลี่ยตัวอย่าง bootstrap จำนวนมากเพื่อลดจำนวนตัวอย่างที่เหมาะสม

หน้าฉันเชื่อมโยงไปยังชี้ให้เห็นว่าสิ่งนี้นำเสนอความลำเอียงในการประมาณของคุณซึ่งเป็นสาเหตุที่ค่าเฉลี่ยตัวอย่างมักจะสมเหตุสมผลมากกว่าการหาค่าเฉลี่ยตัวอย่างบูตของคุณ แต่ถ้าคุณมีบางอย่างเช่นต้นไม้ตัดสินใจหรือลักษณนามเพื่อนบ้านที่ใกล้เคียงที่สุดซึ่งสามารถเปลี่ยนแปลงอย่างรุนแรงเพื่อตอบสนองต่อการเปลี่ยนแปลงเล็กน้อยของข้อมูลดังนั้นอคตินี้อาจไม่น่าเป็นห่วงอย่างมาก


1
ฉันไม่แน่ใจว่าฉันเข้าใจคำถามของคุณ ฉันไม่ได้ใช้วลี "ความเอนเอียงของพารามิเตอร์" ฉันไม่แน่ใจว่าคุณหมายถึงอะไรโดยกับในบริบทนี้ Yθ
David J. Harris

ปกติฉันเห็นการบรรจุถุงที่ใช้เพื่อลดความแปรปรวนของการประมาณหนึ่งของการตอบสนอง (เช่นความไวต่อความผันผวนของข้อมูล) โมเดลที่มีถุงส่วนใหญ่ (เช่นต้นไม้) โดยทั่วไปจะไม่มีพารามิเตอร์ที่กำหนดไว้อย่างชัดเจนซึ่งจะเปรียบเทียบได้ง่ายในตัวอย่างบูตสแตรป
David J. Harris

ขอบคุณนั่นคือสิ่งที่ฉันคิดเช่นกัน สำหรับฉันการใส่ถุงดูเหมือนจะไม่สมเหตุสมผลสำหรับสิ่งอื่นใดนอกจากการตอบสนองโดยประมาณดังนั้นจึงมีข้อ จำกัด ในแง่นี้
Momo

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.