การย่อยสลายความแปรปรวนแบบอคติ: คำที่คาดการณ์ข้อผิดพลาดกำลังสองน้อยกว่าข้อผิดพลาดลดลง


9

Hastie และคณะ "องค์ประกอบของการเรียนรู้ทางสถิติ" (2009) พิจารณากระบวนการสร้างข้อมูล กับและvarepsilon}

Y=f(X)+ε
E(ε)=0Var(ε)=σε2

พวกเขานำเสนอการสลายตัวอคติ - แปรปรวนต่อไปนี้ของข้อผิดพลาดคาดการณ์กำลังสองที่จุด (หน้า 223 สูตร 7.9): ในของฉัน งานของตัวเองฉันไม่ได้ระบุแต่รับการคาดการณ์แบบสุ่มแทน (ถ้าเกี่ยวข้อง) คำถาม:ฉันกำลังมองหาคำว่า หรือแม่นยำยิ่งขึ้น x0

Err(x0)=E([yf^(x0)]2|X=x0)==σε2+Bias2(f^(x0))+Var(f^(x0))=Irreducible error+Bias2+Variance.
f^()y^
Bias2+Variance
Err(x0)Irreducible error.

3
คำถามที่นี่คืออะไร
Michael R. Chernick

1
@sntx ขอบคุณสำหรับความคิด แต่อย่างใดไม่ได้เสียงที่ถูกต้อง อาจเป็นข้อผิดพลาดในการสร้างแบบจำลอง (เช่นข้อผิดพลาดเนื่องจากแบบจำลองการสะกดผิดและการประมาณค่าแบบจำลองไม่ถูกต้อง) แต่ก็ไม่เหมาะสมถ้าไม่มีแบบจำลองการสร้างพยากรณ์ (เช่นการพยากรณ์โดยผู้เชี่ยวชาญ)
Richard Hardy

1
@ DeltaIV ที่ค่อนข้างดี อย่างไรก็ตามฉันคิดว่าคำนี้ถูกเรียกเก็บ ดูเหมือนว่าการคาดการณ์ไม่ดีและเราสามารถทำได้ดีกว่า แต่สมมติว่าเราทำดีที่สุดสำหรับข้อมูลที่กำหนด ดังนั้นเราจึงเลือกแบบจำลองที่ถูกต้อง (ไม่มี "แบบจำลองความลำเอียง") แต่ตัวอย่างมีขนาดเล็กเกินไปที่จะประมาณค่าสัมประสิทธิ์ได้อย่างสมบูรณ์แบบ การประมาณค่าความแปรปรวน ("ความแปรปรวนแบบจำลอง") จึงไม่สามารถลดลงได้จริงสำหรับขนาดตัวอย่างที่กำหนด - ในขณะที่คำว่า "ข้อผิดพลาดที่ลดได้" แสดงให้เห็นว่านี่ไม่ใช่กรณี ไม่ใช่ว่าฉันมั่นใจว่าเราจะสามารถสร้างคำที่ดีขึ้นได้ฉันยังคงต้องการต่อสู้เพื่อสิ่งนั้น
Richard Hardy

1
@ DeltaIV, ตกลงตอนนี้ฉันมีสัญชาตญาณที่รู้สึกลด ยังคงคำอาจทำให้เข้าใจผิดถ้าใช้โดยไม่มีคำอธิบายเพิ่มเติม (เช่นเดียวกับที่คุณต้องอธิบายให้ฉัน) คำแนะนำหลังของคุณนั้นแม่นยำซึ่งเป็นสิ่งที่ดีจริงๆ แต่อย่างที่คุณพูดมันค่อนข้างซับซ้อน
Richard Hardy

1
@ DeltaIV ฉันไม่ได้ตั้งใจที่จะเสียงเช่นนั้น นี่ไม่ใช่เรื่องส่วนตัว ข้อโต้แย้ง (หวังว่าจะเชื่อ) ของฉันอยู่เหนือความคิดเห็น แต่ขอบคุณที่มีการสนทนากับฉันมันช่วยได้
Richard Hardy

คำตอบ:


4

ผมเสนอข้อผิดพลาดซึ้งปรับปรุง นี่เป็นคำศัพท์ที่นำมาใช้ในวรรค 2.1.1 ของGareth, Witten, Hastie & Tibshirani, คำแนะนำเบื้องต้นเกี่ยวกับการเรียนรู้ทางสถิติหนังสือซึ่งโดยพื้นฐานแล้วจะทำให้ ESL + ห้องปฏิบัติการรหัส R ที่ยอดเยี่ยมง่าย (ยกเว้นข้อเท็จจริงที่ใช้attachแต่เดี๋ยวก่อนไม่มีใครสมบูรณ์แบบ) ฉันจะแสดงรายการด้านล่างเหตุผลข้อดีและข้อเสียของคำศัพท์นี้


แรกของทั้งหมดที่เราจะต้องจำได้ว่าเราไม่เพียง แต่ถือว่าจะมีค่าเฉลี่ย 0, แต่ยังเป็นอิสระของ (ดูวรรค 2.6.1 สูตร 2.29 ของ ESL 2 ครั้งฉบับที่ 12 วันการพิมพ์) แน่นอนϵXϵ ไม่สามารถประมาณได้จาก Xไม่ว่าชั้นเรียนสมมติฐานใด H(ตระกูลของแบบจำลอง) เราเลือกและตัวอย่างที่เราใช้ในการเรียนรู้สมมติฐานของเรานั้นใหญ่เพียงใด (ประเมินโมเดลของเรา) สิ่งนี้อธิบายว่าทำไมσϵ2 เรียกว่าข้อผิดพลาดลดลง

ดูเหมือนว่าเป็นธรรมชาติในการกำหนดส่วนที่เหลือของข้อผิดพลาด Err(x0)σϵ2ที่ผิดพลาดซึ้งปรับปรุง ตอนนี้คำศัพท์นี้อาจฟังดูค่อนข้างสับสน: ตามความเป็นจริงภายใต้สมมติฐานที่เราทำไว้สำหรับกระบวนการสร้างข้อมูลเราสามารถพิสูจน์ได้ว่า

f(x)=E[Y|X=x]

ดังนั้นความผิดพลาดที่ลดลงสามารถลดลงเป็นศูนย์ได้ถ้าหาก E[Y|X=x]H(สมมติว่าเรามีผู้ประเมินที่สอดคล้องกัน) ถ้าE[Y|X=x]Hเราไม่สามารถขับข้อผิดพลาดที่ลดได้ถึง 0 แม้จะอยู่ในขีด จำกัด ของขนาดตัวอย่างที่ไม่สิ้นสุด อย่างไรก็ตามยังคงเป็นเพียงส่วนหนึ่งของข้อผิดพลาดของเราซึ่งสามารถลดลงได้หากไม่ถูกกำจัดโดยการเปลี่ยนขนาดตัวอย่างแนะนำการทำให้เป็นปกติ (การหดตัว) ในตัวประมาณของเราเป็นต้นกล่าวอีกนัยหนึ่งคือเลือกอีกอันf^(x) ในรุ่นครอบครัวของเรา

โดยพื้นฐานแล้วออกซิเจนที่ลดลงนั้นไม่ได้หมายถึงความรู้สึกเป็นศูนย์ (yuck!) แต่ในแง่ของความผิดพลาดที่สามารถลดลงได้ถึงแม้ว่าจะไม่จำเป็นต้องมีขนาดเล็กก็ตาม นอกจากนี้โปรดทราบว่าโดยหลักการแล้วข้อผิดพลาดนี้สามารถลดลงเป็น 0 ได้โดยการขยายใหญ่ขึ้นH จนกว่าจะมี E[Y|X=x]. ในทางตรงกันข้าม,σϵ2 ไม่สามารถลดได้ไม่ว่าจะใหญ่เพียงใด H เป็นเพราะ ϵX.


หากเสียงรบกวนเป็นข้อผิดพลาดที่ลดลงไม่ได้ก็จะไม่สามารถลดลงได้ คุณต้องกระตุ้นสิ่งนี้ฉันไม่สามารถทำเพื่อตัวเองได้
คาร์ล

ใน 2.1.1 ตัวอย่างคือ "การทดสอบยาบางตัวในเลือด" ตัวอย่างแรกที่ฉันให้ด้านล่างเป็นอย่างนั้น ในการทดสอบนั้นข้อผิดพลาดที่ลดลงของการวัดที่เรียกว่าไม่มีอะไรเหมือนกัน ประกอบด้วยการนับเสียงรบกวนซึ่งโดยปกติจะลดลงโดยการนับ 10,000 เหตุการณ์ขึ้นไปข้อผิดพลาดของการปิเปตซึ่งเกือบจะเป็นการแจกแจงแบบเอ็กซ์โปเนนตัลและข้อผิดพลาดทางเทคนิคอื่น ๆ เพื่อลดข้อผิดพลาด "ลดลง" เหล่านี้ต่อไปฉันขอแนะนำให้ใช้ค่ามัธยฐานของสามหลอดนับสำหรับตัวอย่างแต่ละครั้ง คำที่ลดลงไม่ได้คือศัพท์แสงที่ไม่ดีลองอีกครั้ง
Carl

1
@ เดลตาขอบคุณสำหรับคำตอบ หนึ่งซับ "ข้อผิดพลาดที่ลดได้" อาจไม่ได้น่าเชื่อถือมาก แต่ให้บริบทและการอภิปรายมันดูดีมาก!
Richard Hardy

ฉันไม่คิดว่าจุดประสงค์ของการพัฒนาศัพท์แสงคือการทำให้ผู้คนสับสน หากคุณต้องการพูดข้อผิดพลาดเป็นอิสระจากnเมื่อเทียบกับข้อผิดพลาดที่เป็นหน้าที่ของ nพูดในสิ่งที่คุณหมายถึง
Carl

@DeltaV ฉันเชื่อว่าการลดทอนเป็นข้อสงสัยที่น่าสงสัยดูด้านล่าง
คาร์ล

0

ในระบบที่เกิดเหตุการณ์ทางกายภาพทั้งหมดได้รับการออกแบบอย่างเหมาะสมส่วนที่เหลือจะเป็นจุดรบกวน อย่างไรก็ตามโดยทั่วไปจะมีโครงสร้างในข้อผิดพลาดของแบบจำลองข้อมูลมากกว่าเสียงรบกวน ตัวอย่างเช่นการตั้งค่าแบบอคติและเสียงรบกวนอย่างเดียวไม่ได้อธิบายส่วนที่เหลือของเส้นโค้งเช่นโครงสร้างข้อมูลที่ไม่ถูกถอดรหัส จำนวนรวมของเศษส่วนที่ไม่ได้อธิบายคือ1R2ซึ่งอาจประกอบด้วยการบิดเบือนความจริงของฟิสิกส์รวมถึงอคติและเสียงรบกวนของโครงสร้างที่รู้จัก ถ้าโดยอคติเราหมายถึงเฉพาะข้อผิดพลาดในการประมาณค่าเฉลี่ยyโดย "irreducible error" เราหมายถึงสัญญาณรบกวนและโดยความแปรปรวนเราหมายถึงข้อผิดพลาดทางกายภาพของแบบจำลองจากนั้นผลรวมของอคติ (squared) และข้อผิดพลาดทางกายภาพของระบบไม่ใช่สิ่งพิเศษใด ๆ มันเป็นเพียงข้อผิดพลาดที่ไม่ใช่เสียงรบกวน . อาจมีการใช้การลงทะเบียนคำผิด (ยกกำลังสอง) สำหรับสิ่งนี้ในบริบทที่เฉพาะเจาะจงดูด้านล่าง หากคุณต้องการพูดข้อผิดพลาดเป็นอิสระจากnเมื่อเทียบกับข้อผิดพลาดที่เป็นหน้าที่ของ n, บอกว่า. IMHO ไม่ใช่ข้อผิดพลาดที่ไม่สามารถลดลงได้ดังนั้นคุณสมบัติของการลดความสามารถในการลดความเข้าใจผิดทำให้เกิดความสับสนมากกว่าที่มันจะส่องสว่าง

ทำไมฉันถึงไม่ชอบคำว่า "reducibility"? มันรสชาติของซ้ำซากตัวอ้างอิงในขณะที่ความจริงของ reducibility ฉันเห็นด้วยกับรัสเซล 2462ว่า"ฉันไม่เห็นเหตุผลใด ๆ ที่จะเชื่อว่าความจริงของการลดความจำเป็นมีเหตุผลซึ่งเป็นสิ่งที่จะต้องมีความหมายโดยบอกว่ามันเป็นเรื่องจริงในโลกที่เป็นไปได้ทั้งหมด ตรรกะจึงเป็นข้อบกพร่อง ... สมมติฐานที่น่าสงสัย "

ด้านล่างเป็นตัวอย่างของโครงสร้างที่เหลือเนื่องจากการสร้างแบบจำลองทางกายภาพที่ไม่สมบูรณ์ สิ่งนี้แสดงให้เห็นถึงสิ่งตกค้างจากสี่เหลี่ยมจัตุรัสที่น้อยที่สุดที่ปกติของการกระจายแกมม่าที่ปรับขนาดเช่นแกมม่าแปรปรวน (GV) ไปยังตัวอย่างพลาสมาเลือดของกัมมันตภาพรังสีของรังสีของไตที่ได้รับการกรองกัมมันตรังสี [ 1 ] โปรดทราบว่าข้อมูลเพิ่มเติมที่ถูกทิ้ง (n=36 สำหรับแต่ละเวลาตัวอย่าง) โมเดลที่ดีกว่าจะกลายเป็นเพื่อให้ reducibility deproves กับช่วงตัวอย่างเพิ่มเติม

ป้อนคำอธิบายรูปภาพที่นี่

เป็นที่น่าสังเกตว่าเมื่อหนึ่งหยดตัวอย่างแรกที่ห้านาทีฟิสิกส์จะดีขึ้นตามลำดับเมื่อมีการปล่อยตัวอย่างแรกออกไปจนถึง 60 นาที นี่แสดงให้เห็นว่าแม้ว่า GV จะเป็นตัวอย่างที่ดีสำหรับความเข้มข้นในพลาสมาของยา แต่ก็มีบางอย่างเกิดขึ้นในช่วงแรก

อันที่จริงถ้าหากใครเชื่อว่ามีการแจกแจงแกมม่าสองครั้งหนึ่งครั้งแรกการส่งยาไปทั่วและอีกครั้งสำหรับการล้างอวัยวะ 1%[ 2 ] ถัดไปเป็นตัวอย่างของการชักชวนนั้น

ป้อนคำอธิบายรูปภาพที่นี่

จากตัวอย่างหลังนั้นสำหรับรากที่สองของการนับเมื่อเทียบกับกราฟเวลา yการเบี่ยงเบนแกนเป็นส่วนเบี่ยงเบนมาตรฐานในแง่ของความผิดพลาดของเสียงปัวซอง กราฟดังกล่าวเป็นภาพที่ข้อผิดพลาดของความพอดีคือการลงทะเบียนภาพที่ผิดจากการบิดเบือนหรือแปรปรวน ในบริบทนั้นและเฉพาะบริบทนั้นการลงทะเบียนที่ไม่ถูกต้องคือความผิดพลาดของอคติและการสร้างแบบจำลองและข้อผิดพลาดทั้งหมดคือการลงทะเบียนที่ผิดพลาดรวมถึงข้อผิดพลาดทางเสียง


อันที่จริงนี่คือสิ่งที่การสลายตัวข้างต้นเป็นเรื่องเกี่ยวกับ แต่คำตอบของคุณน่าจะใช้เป็นความคิดเห็นได้ดีกว่าเพราะไม่ได้ตอบคำถามจริง หรือไม่
Richard Hardy

ขอบคุณ แต่คำตอบเพิ่งห่างจากหัวข้อ ฉันมีปัญหาในการค้นหาการเชื่อมต่อระหว่างคำถามจริง (ฉันจะโทรหาอย่างไรBias2+Variance) และทั้งหมดนี้ ...
ริชาร์ดฮาร์ดี

อีกครั้งคุณกำลังตอบคำถามอื่น คำตอบที่ถูกต้องสำหรับคำถามที่ผิดนั้นน่าเสียดายที่เป็นคำตอบที่ผิด (ข้อสังเกตสำหรับตัวเอง: บังเอิญฉันอธิบายเรื่องนี้กับนักศึกษาระดับปริญญาตรีของฉันเมื่อวานนี้) ฉันไม่ได้ถามว่าการแสดงออกมีความหมายอย่างไร (มันมีความหมายสำหรับคนที่อ่านหนังสือเรียน ESL และ / หรือทำงานในการเรียนรู้ด้วยเครื่องประยุกต์) ฉันกำลังขอคำศัพท์ที่เหมาะสม คำถามเป็นบวกไม่ใช่เชิงบรรทัดฐาน และมันค่อนข้างเรียบง่ายและเป็นรูปธรรมมาก
Richard Hardy

@ RichardHardy ถ้าไม่มีฟิสิกส์คำถามก็ยากที่จะเข้าใจ เปลี่ยนคำตอบของฉันดูการลงทะเบียนที่ไม่ถูกต้องด้านบน
Carl

1
คุณสามารถทำเช่นนั้นเพื่อประเมินกระบวนการใช่และนั่นคือส่วนข้อผิดพลาดที่ลดลงได้ แต่เมื่อคุณคาดการณ์เหตุการณ์ที่เป็นรูปธรรมซึ่งรวมถึงการโยนเหรียญไม่มีทางที่คุณจะสามารถลดข้อผิดพลาดที่เกี่ยวข้องกับการคาดเดาผลลัพธ์ของการพลิกเหรียญได้ นี่คือข้อผิดพลาดที่ลดลงไม่ได้เกี่ยวกับ ที่น่าสนใจ: ในโลกที่กำหนดอย่างหมดจดจะไม่มีข้อผิดพลาดลดไม่ได้ตามคำนิยามดังนั้นหากมุมมองของคุณในโลกที่กำหนดอย่างสมบูรณ์แล้วฉันอาจเข้าใจสิ่งที่คุณหมายถึง อย่างไรก็ตามโลกนั้นสุ่มใน "องค์ประกอบของการเรียนรู้ทางสถิติ" และโดยทั่วไปแล้วสถิติ
Richard Hardy
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.