เทอมความแปรปรวนในการย่อยสลายอคติความแปรปรวนของการถดถอยเชิงเส้น


9

ใน 'องค์ประกอบของการเรียนรู้ทางสถิติ' นิพจน์สำหรับการสลายตัวของความแปรปรวนแบบอคติของแบบจำลองเชิงเส้นจะได้รับเป็น ที่เป็นฟังก์ชันเป้าหมายจริงคือความแปรปรวนของข้อผิดพลาดแบบสุ่มในโมเดลและเป็นประมาณการเชิงเส้นของ(x)

Err(x0)=σϵ2+E[f(x0)Ef^(x0)]2+||h(x0)||2σϵ2,
f(x0)σϵ2y=f(x)+ϵf^(x)f(x)

คำแปรปรวนทำให้ฉันหนักใจที่นี่เพราะสมการบอกเป็นนัยว่าความแปรปรวนจะเป็นศูนย์ถ้าเป้าหมายไม่มีเสียงนั่นคือแต่มันก็ไม่สมเหตุสมผลสำหรับฉันเพราะแม้จะมีสัญญาณรบกวนเป็นศูนย์ฉันยังสามารถรับตัวประมาณแตกต่างกันสำหรับชุดการฝึกอบรมที่แตกต่างกันซึ่งหมายถึงความแปรปรวนไม่ใช่ศูนย์σϵ2=0.f^(x0)

ตัวอย่างเช่นสมมติว่าฟังก์ชันเป้าหมายเป็นกำลังสองและข้อมูลการฝึกอบรมมีสองจุดตัวอย่างที่สุ่มจากกำลังสองนี้ ชัดเจนฉันจะได้เส้นตรงที่แตกต่างกันทุกครั้งที่ฉันสุ่มตัวอย่างสองคะแนนจากการสุ่มกำลังสอง - เป้าหมาย แล้วความแปรปรวนเป็นศูนย์ได้อย่างไรf(x0)

ใครช่วยให้ฉันรู้ว่ามีอะไรผิดปกติในความเข้าใจของฉันเกี่ยวกับการย่อยสลายความแปรปรวนแบบอคติ?

คำตอบ:


6

มีความฉลาดซ่อนเร้นอยู่เสมอในการรักษาความลำเอียงและความแปรปรวนและเป็นสิ่งสำคัญที่จะต้องให้ความสนใจอย่างระมัดระวังเมื่อทำการศึกษา หากคุณอ่านคำสองสามคำแรกของ ESL อีกครั้งในส่วนหนึ่งของบทนั้นผู้แต่งให้ความเคารพ

การอภิปรายเกี่ยวกับการประมาณอัตราความผิดพลาดอาจทำให้เกิดความสับสนเพราะเราต้องทำให้ชัดเจนว่าปริมาณใดถูกแก้ไขและเป็นแบบสุ่ม

ความละเอียดอ่อนเป็นสิ่งที่ได้รับการแก้ไขและสิ่งที่เป็นแบบสุ่ม

ในการรักษาแบบดั้งเดิมของการถดถอยเชิงเส้นข้อมูลจะถือว่าเป็นแบบคงที่และเป็นที่รู้จัก หากคุณทำตามข้อโต้แย้งใน ESL คุณจะพบว่าผู้เขียนกำลังทำข้อสมมติฐานนี้เช่นกัน ภายใต้สมมติฐานเหล่านี้ตัวอย่างของคุณไม่ได้เข้ามาเล่นเป็นเพียงแหล่งที่มาที่เหลืออยู่ของแบบแผนมาจากเงื่อนไขการจำหน่ายของได้รับXถ้ามันจะช่วยให้คุณอาจต้องการที่จะเปลี่ยนสัญกรณ์ในใจของคุณมีX)XyXErr(x0)Err(x0X)

นั่นไม่ได้เป็นการบอกว่าข้อกังวลของคุณนั้นไม่ถูกต้องแน่นอนว่าการเลือกข้อมูลการฝึกอบรมจะนำมาซึ่งการสุ่มในอัลกอริทึมแบบจำลองของเราและผู้ประกอบการที่ขยันหมั่นเพียรจะพยายามประเมินผลของการสุ่มนี้ต่อผลลัพธ์ของพวกเขา ในความเป็นจริงคุณสามารถเห็นได้อย่างชัดเจนว่าวิธีปฏิบัติทั่วไปของการทำ bootstrapping และการตรวจสอบความถูกต้องข้ามเป็นการรวมแหล่งที่มาของการสุ่มเข้าด้วยกันอย่างชัดเจน

เพื่อให้ได้นิพจน์ทางคณิตศาสตร์ที่ชัดเจนสำหรับอคติและความแปรปรวนของตัวแบบเชิงเส้นในบริบทของชุดข้อมูลการฝึกอบรมแบบสุ่มเราจะต้องตั้งสมมติฐานเกี่ยวกับโครงสร้างของการสุ่มในข้อมูลนี้จะเกี่ยวข้องกับสมมุติฐานบางอย่างเกี่ยวกับการกระจายของXสิ่งนี้สามารถทำได้ แต่ไม่ได้กลายเป็นส่วนหนึ่งของการเปิดเผยหลักของความคิดเหล่านี้XX


ขอบคุณมากสำหรับการล้างออกความจริงที่ว่าผู้เขียนได้สันนิษฐานได้รับการแก้ไขเพื่อให้ความคาดหวังของที่นี่คือ WRTไม่ได้Y) แต่เราสามารถเขียนซึ่งหมายความว่าการรักษา X เป็นการสุ่มเราจะได้รับ . มันจะยังคงเป็นศูนย์ถ้าเป็นศูนย์ ฉันมีข้อสงสัยที่คล้ายกันเกี่ยวกับสมการนี้คุณสามารถหาที่มาของฉันได้ที่โพสต์นี้: stats.stackexchange.com/questions/307110/ …XY|X(X,Y)E=EXEY|XVar(f^(x0))=EX[||h(x0)||2σϵ2]σϵ2
Abhinav Gupta

ฉันเดาว่ามีผู้เขียนสมมติว่ารูปแบบที่ระบุไว้อย่างถูกต้องคือรวมถึงทั้งหมดและเฉพาะที่เกี่ยวข้องกับการทำนายการเปลี่ยนแปลงที่ถูกต้อง ฉันต้องกลับไปที่หนังสือแทนที่จะใช้ความทรงจำของฉันเพื่อยืนยัน
Matthew Drury

ถ้าโดย 'ระบุไว้อย่างถูกต้อง' คุณหมายถึงว่าฟังก์ชั่นเป้าหมายนั้นเป็นเส้นตรงจากนั้นฉันเข้าใจว่าเสียงที่เป็นศูนย์จะบ่งบอกว่ามีอคติเป็นศูนย์ แต่ปรากฎว่าแม้ว่าฟังก์ชั่นเป้าหมายจะไม่เป็นเส้นตรงเราก็จะได้ค่าความแปรปรวนเท่าเดิม
Abhinav Gupta

1
เป็นจริง แต่ในกรณีนั้น "ระบุอย่างถูกต้อง" จะหมายความว่าคุณกำลังใช้การถดถอยเชิงเส้นเพื่อให้พอดีกับตัวแบบรวมถึงตัวทำนายที่ถูกต้อง ดังนั้นหากความสัมพันธ์ที่แท้จริงคือสมการกำลังสองคุณจะสมมุติว่าแบบจำลองของคุณมีเงื่อนไขกำลังสอง
Matthew Drury
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.