คำอธิบายที่เข้าใจง่ายของการแลกเปลี่ยนความแปรปรวนอคติ

45

ฉันกำลังมองหาคำอธิบายที่เข้าใจง่ายของการแลกเปลี่ยนความเอนเอียงอคติทั้งโดยทั่วไปและโดยเฉพาะในบริบทของการถดถอยเชิงเส้น

regression variance bias

— NPE
แหล่งที่มา

1

: มีการอภิปรายอื่นที่เกี่ยวข้องกับหัวข้อเหล่านี้ที่นี่คือสิ่งที่ปัญหาไม่หดตัว-วิธีแก้

— gung - Reinstate Monica

scott.fortmann-roe.com/docs/BiasVariance.html

— Pinocchio

24

ลองนึกภาพข้อมูล 2D บางส่วน - สมมติว่าส่วนสูงกับน้ำหนักสำหรับนักเรียนที่โรงเรียนมัธยม - วางแผนบนแกนหนึ่งคู่

ทีนี้สมมติว่าคุณใส่เส้นตรงเข้าไป บรรทัดนี้ซึ่งแน่นอนแสดงถึงชุดของค่าที่คาดการณ์มีความแปรปรวนทางสถิติเป็นศูนย์ แต่อคตินั้นสูง (อาจ) - กล่าวคือมันไม่เหมาะกับข้อมูลที่ดีมาก

ถัดไปสมมติว่าคุณจำลองข้อมูลด้วยเส้นโค้งพหุนามระดับสูง คุณไม่พอใจกับความฟิตดังนั้นคุณจึงเพิ่มระดับพหุนามจนกว่าความพอดีจะดีขึ้น (และเพื่อความแม่นยำตามอำเภอใจ) ตอนนี้คุณมีสถานการณ์ที่มีอคติที่มีค่าเป็นศูนย์ แต่ความแปรปรวนนั้นสูงมาก

โปรดทราบว่าการแลกเปลี่ยนความแปรปรวนแบบอคตินั้นไม่ได้อธิบายความสัมพันธ์แบบสัดส่วน - นั่นคือถ้าคุณวางแผนอคติกับความแปรปรวนคุณไม่จำเป็นต้องเห็นเส้นตรงผ่านจุดกำเนิดด้วยความชัน -1 ในตัวอย่างเส้นโค้งพหุนามดังกล่าวข้างต้นการลดระดับจะเพิ่มความแปรปรวนน้อยกว่าการลดอคติ

การแลกเปลี่ยนอคติแปรปรวนยังฝังอยู่ในฟังก์ชันข้อผิดพลาดผลรวมของกำลังสอง ด้านล่างฉันได้เขียนใหม่ (แต่ไม่เปลี่ยนแปลง) รูปแบบปกติของสมการนี้เพื่อเน้นสิ่งนี้:

ข้อความแสดงแทน

ทางด้านขวามือมีสามคำด้วยกัน: ข้อแรกคือข้อผิดพลาดที่ลดลงไม่ได้ (ความแปรปรวนของข้อมูลเอง); สิ่งนี้อยู่เหนือการควบคุมของเราดังนั้นอย่าเพิกเฉย สองระยะคือตารางของอคติ ; และสามคือความแปรปรวน เป็นเรื่องง่ายที่จะเห็นว่าเมื่อใดคนหนึ่งขึ้นไปอีกคนหนึ่งก็ลงไป - พวกเขาไม่สามารถเปลี่ยนแปลงกันในทิศทางเดียวกัน อีกวิธีหนึ่งคุณสามารถคิดถึงการถดถอยอย่างน้อยกำลังสอง (โดยปริยาย) ในการค้นหาการผสมผสานที่ดีที่สุดของการตั้งค่าและความแปรปรวนจากแบบจำลองผู้สมัคร

— ดั๊ก
แหล่งที่มา

8

ฉันมีปัญหาในการเข้าใจสมการ ฉันไม่สามารถหาวิธีที่จะพิสูจน์ได้ แม้แต่การวิเคราะห์หน่วยขั้นพื้นฐานก็ยังระบุปัญหาได้ สมมติว่าวัดเป็นพาร์เซกและในดรัมเช่นและตัวประมาณ (นั่นคือจุดเล็ก ๆ เหนือหมายถึงอะไร?) ก็เป็นพาร์เซกด้วย จากนั้น lhs และคือพาร์เซกกำลังสอง ระยะกลางใน rhs เป็นตารางของความแตกต่างระหว่างพาร์เซก ( ) และพาร์เซกต่อ dram (เนื่องจากการหารโดย ); และเทอมสุดท้ายบน rhs คือพาร์เซกกำลังสองต่อ dram มันไม่ถูกต้องในการเพิ่มคำเหล่านี้เข้าด้วยกัน!

y

$y$

x

$x$

f

$f$

f

$f$

σ^{2}

$\sigma^2$

f (x)

$f(x)$

x

$x$

— whuber

สมการของดี (ตัวอักษรกรีกตัวน้อยในตัวเศษไม่ใช่ 'x' แต่ 'คัปปา') ลองสิ่งนี้: เริ่มต้นด้วยสูตรสำหรับ SSE ที่คุณพอใจและเพียงไม่กี่ขั้นตอนคุณก็จะเข้าสู่สูตรข้างต้น

— doug

'คัปปา' ในบริบทนี้คืออะไร

ฉันเป็น noob คุณช่วยฉันได้อย่างหยั่งรู้ดูว่าทำไมในส่วนแรกของคำตอบของคุณคุณบอกว่าการใส่พหุนามพหุนามทำให้ความแปรปรวนเพิ่มขึ้น?

— Rohit Banga

3

ตัวอย่างที่ง่ายกว่า: y = a + b x + e (rror) ถ้าฉันพอดีกับค่าคงที่นี้ bias = b x และ variance = var (e) + ความแปรปรวนของค่าประมาณของฉันประมาณค่าจริง ถ้าฉันเพิ่มคำ b * x ลงในแบบจำลองความเอนเอียงจะเป็นศูนย์ทุกแห่ง แต่ตอนนี้ความแปรปรวนรวมถึงผลของความคลาดเคลื่อนของการประมาณขของฉันเช่นเดียวกับ a และความแปรปรวนของ e ดังนั้นจะสูงกว่าในครั้งแรก กรณี. มีการแลกเปลี่ยนระหว่างอคติที่ลดลงซึ่งได้รับโดยการเพิ่มคำลงในแบบจำลองที่ควรจะอยู่ที่นั่นและความแปรปรวนที่เพิ่มขึ้นที่ได้รับโดยต้องประเมินเงื่อนไขเหล่านั้นและอาจเพิ่มคำที่ไม่เกี่ยวข้อง

— jbowman

25

สมมติว่าคุณกำลังพิจารณาประกันสุขภาพที่ร้ายแรงและมีความเป็นไปได้ 1% ที่จะป่วยซึ่งจะมีค่าใช้จ่าย 1 ล้านดอลลาร์ ค่าใช้จ่ายที่คาดหวังจากการเจ็บป่วยจึงเท่ากับ 10,000 ดอลลาร์ บริษัท ประกันที่ต้องการทำกำไรจะคิดเงิน 15,000 บาทจากกรมธรรม์

การซื้อนโยบายจะให้ค่าใช้จ่ายที่คาดหวังให้กับคุณ 15,000 ซึ่งมีความแปรปรวนเป็น 0 แต่สามารถคิดว่าลำเอียงเพราะมันเป็น 5,000 มากกว่าค่าใช้จ่ายจริงที่คาดหวังจากการเจ็บป่วย

การไม่ซื้อนโยบายให้ค่าใช้จ่ายที่คาดหวัง 10,000 ซึ่งไม่เอนเอียงเนื่องจากเท่ากับค่าใช้จ่ายจริงที่คาดหวังจากการเจ็บป่วย แต่มีความแปรปรวนสูงมาก การแลกเปลี่ยนที่นี่อยู่ระหว่างวิธีการที่ผิดปกติ แต่ไม่เคยมากและวิธีการที่ถูกต้องโดยเฉลี่ย แต่เป็นตัวแปรมากขึ้น

— CDX
แหล่งที่มา

15

ผมขอแนะนำให้มีลักษณะที่แน่นอนคาลเทค ML โดยยาเซอร์อาบูมอสตาฟาบรรยาย 8 (อคติแปรปรวน tradeoff) นี่คือโครงร่าง:

สมมติว่าคุณกำลังพยายามเรียนรู้ฟังก์ชันไซน์:

ชุดฝึกอบรมของเราประกอบด้วยจุดข้อมูลเพียง 2 จุด

ลองทำด้วยสองรุ่นและ : $h_0(x)=b$ $h_1(x)=ax+b$

สำหรับเมื่อเราลองชุดฝึกอบรมที่แตกต่างกันหลายชุด (เช่นเราเลือกจุดข้อมูล 2 จุดซ้ำ ๆ และทำการเรียนรู้ในชุดเหล่านั้น) เราจะได้รับ (กราฟซ้ายแสดงถึงโมเดลที่เรียนรู้ทั้งหมด ความแปรปรวน (พื้นที่สีเทา): $h_0(x)=b$

สำหรับเมื่อเราลองชุดฝึกอบรมต่างๆเราได้รับ: $h_1(x)=ax+b$

หากเราเปรียบเทียบแบบจำลองที่เรียนรู้กับและเราจะเห็นได้ว่าให้แบบจำลองที่ง่ายกว่าดังนั้นความแปรปรวนที่ต่ำกว่าเมื่อเราพิจารณาแบบจำลองทั้งหมดที่เรียนรู้ด้วยแต่แบบจำลองที่ดีที่สุด g (เป็นสีแดงบนกราฟ) ด้วยนั้นดีกว่าโมเดลที่ดีที่สุดที่เรียนรู้ g ด้วยดังนั้นอคติที่ต่ำกว่าด้วย : $h_0$ $h_1$ $h_0$ $h_1$ $h_0$ $h_1$ $h_0$ $h_1$

หากคุณดูวิวัฒนาการของฟังก์ชั่นราคาเทียบกับขนาดของชุดฝึกอบรม (ตัวเลขจากCoursera - การเรียนรู้ของเครื่องโดย Andrew Ng ):

อคติสูง:

ป้อนคำอธิบายรูปภาพที่นี่

ความแปรปรวนสูง:

ป้อนคำอธิบายรูปภาพที่นี่

— Franck Dernoncourt
แหล่งที่มา

+1 มีความละเอียดมาก ใช้เป็นตัวอย่างที่เราได้วาดตัวอย่างที่แตกต่างกันหลายแต่ละคนมี 2 จุดเพื่อให้เราได้รับการฝึกฝนหลายรุ่นแต่ละคนมีการประมาณการที่แตกต่างกันรูปแบบพารามิเตอร์ใช่มั้ย? และสำหรับอินพุตที่เจาะจงแตกต่างกันให้การทำนายที่แตกต่างกันดังนั้นค่าเป้าหมายที่คาดการณ์เป็นตัวแปรสุ่มที่แปรเปลี่ยนตามการประมาณพารามิเตอร์โมเดล . และมีอคติและความแปรปรวนในรูปของคุณจะถูกคำนวณสำหรับแต่ละ 's ทำนายใช่มั้ย? ฉันถูกไหม?

h_{1}

$h_1$

D_{i}

$D_i$

({\hat{a}}_{i}, {\hat{b}}_{i})

$(\hat a_i,\hat b_i)$

x_{0}

$x_0$

({\hat{a}}_{i}, {\hat{b}}_{i})

$(\hat a_i,\hat b_i)$

{\hat{y}}_{0}

$\hat y_0$

{\hat{y}}_{0}

$\hat y_0$

(\hat{a}, \hat{b})

$(\hat a,\hat b)$

x

$x$

\hat{y}

$\hat y$

— อะโวคาโด

ฟังก์ชันไซน์ของคุณกลับด้าน XP

— Diego

1

นี่คือความสับสน b / c ที่คุณดูเหมือนจะหมายถึงแปลงที่ไม่ได้มี (อาจจะเป็น "ข้อความ ALT")

— gung - Reinstate Monica

@ gung คงที่แล้วขอบคุณที่ชี้ให้เห็น ImageShack ปิดตัวลงบัญชีใช้งานฟรีและภาพลบ และการแลกเปลี่ยนสแต็คล้มเหลวในการใช้มาตรการที่เหมาะสม ที่เกี่ยวข้อง: แบนรูปภาพ ImageShack เพราะพวกเขากำลังนำ URL เก่ามาใช้เพื่อการโฆษณา (โปรดสนับสนุนการห้าม) วิธีที่ง่ายที่สุดสำหรับฉันในการดาวน์โหลดคำถามและคำตอบทั้งหมดในไซต์ Stack Exchange ทั้งหมดคืออะไร (ฉันดีใจที่มีการสำรองข้อมูลโปรดผลักดัน StackExchange เพื่อมอบเครื่องมือที่ดีกว่าในการสำรองเนื้อหา)

— Franck Dernoncourt

ขอบคุณสำหรับการแชร์ลิงก์วิดีโอมันอธิบายได้ดีว่าฉันกำลังมองหาอะไรตอนนี้สามารถเข้าใจคำตอบของคุณได้แล้ว

— Espoir Murhabazi

12

ฉันมักจะนึกถึงภาพสองภาพนี้:

ก่อนความหมายของอคติและความแปรปรวน:

ลองนึกภาพจุดศูนย์กลางของบริเวณรอบดวงตาของกระทิงแดงคือค่าเฉลี่ยที่แท้จริงของตัวแปรสุ่มเป้าหมายของเราซึ่งเรากำลังพยายามทำนายและพื้นที่สีแดงหมายถึงการกระจายความแปรปรวนของตัวแปรนี้ ทุกครั้งที่เราทำการสังเกตชุดตัวอย่างและทำนายค่าของตัวแปรนี้เราจะพล็อตจุดสีน้ำเงิน เราคาดการณ์ได้อย่างถูกต้องหากจุดสีฟ้าตกอยู่ภายในบริเวณสีแดง กล่าวอีกนัยหนึ่งคือความลำเอียงเป็นการวัดว่าจุดสีน้ำเงินที่ทำนายไว้ออกมาจากบริเวณสีแดงที่แท้จริงนั้นอยู่ไกลแค่ไหนโดยสัญชาตญาณนี่เป็นข้อผิดพลาด ความแปรปรวนคือการทำนายของเรา

ตอนนี้การแลกเปลี่ยนที่นี่คือ:

เมื่อเราพยายามลดหนึ่งในพารามิเตอร์นี้ (ไม่ว่าจะเป็นอคติหรือความแปรปรวน) พารามิเตอร์อื่นจะเพิ่มขึ้น แต่มีจุดที่น่าสนใจอยู่ระหว่างความเอนเอียงแบบไม่เอนเอียงและความแปรปรวนแบบไม่ให้น้อยซึ่งทำให้เกิดข้อผิดพลาดการทำนายน้อยที่สุดในระยะยาว

ภาพเหล่านี้จะนำมาจากhttp://scott.fortmann-roe.com/docs/BiasVariance.html ชำระเงินคำอธิบายพร้อมการถดถอยเชิงเส้นและเพื่อนบ้านใกล้เคียง K-K สำหรับรายละเอียดเพิ่มเติม

— Thamme Gowda
แหล่งที่มา

รูปแรกดูเหมือนความแม่นยำและความแม่นยำมากกว่าหรือไม่

— KingBoomie

0

นี่คือคำอธิบายที่ง่ายมาก ลองนึกภาพคุณมีพล็อตการกระจายของคะแนน {x_i, y_i} ซึ่งถูกสุ่มตัวอย่างจากการแจกแจงบางอย่าง คุณต้องการที่จะพอดีกับบางรุ่น คุณสามารถเลือกเส้นโค้งเชิงเส้นหรือเส้นโค้งพหุนามลำดับที่สูงขึ้นหรืออย่างอื่น สิ่งที่คุณเลือกจะนำไปใช้ในการทำนายค่า y ใหม่สำหรับชุด {x_i} คะแนน มาเรียกชุดตรวจสอบความถูกต้องเหล่านี้กัน สมมติว่าคุณรู้ค่า {y_i} ที่แท้จริงของพวกมันแล้วและเราใช้สิ่งเหล่านี้เพื่อทดสอบแบบจำลอง

ค่าที่คาดการณ์จะแตกต่างจากค่าจริง เราสามารถวัดคุณสมบัติของความแตกต่างได้ ลองพิจารณาจุดตรวจสอบจุดเดียว เรียกว่า x_v แล้วเลือกรุ่นบางรุ่น มาสร้างชุดการทำนายสำหรับจุดตรวจสอบจุดเดียวโดยใช้ตัวอย่างสุ่มที่แตกต่างกัน 100 ตัวอย่างเพื่อฝึกฝนแบบจำลอง ดังนั้นเราจะได้ค่า 100 y ความแตกต่างระหว่างค่าเฉลี่ยของค่าเหล่านั้นและค่าจริงเรียกว่าอคติ ความแปรปรวนของการแจกแจงคือความแปรปรวน

ขึ้นอยู่กับรุ่นที่เราใช้เราสามารถแลกเปลี่ยนระหว่างสองสิ่งนี้ ลองพิจารณาสองสุดขั้ว รูปแบบความแปรปรวนต่ำสุดคือรูปแบบหนึ่งที่ละเว้นข้อมูลทั้งหมด สมมุติว่าเราคาดการณ์ 42 สำหรับทุก ๆ x แบบจำลองนั้นมีความแปรปรวนของศูนย์ในตัวอย่างการฝึกอบรมที่แตกต่างกันทุกจุด อย่างไรก็ตามมันลำเอียงอย่างชัดเจน อคติคือ 42-y_v

หนึ่งในสุดโต่งอื่น ๆ เราสามารถเลือกแบบจำลองที่มีให้เลือกมากที่สุด ตัวอย่างเช่นพอดีกับพหุนาม 100 องศาถึง 100 จุดข้อมูล หรือสอดแทรกเชิงเส้นตรงระหว่างเพื่อนบ้านที่ใกล้ที่สุด สิ่งนี้มีอคติต่ำ ทำไม? เพราะสำหรับตัวอย่างแบบสุ่มใด ๆ จุดที่อยู่ใกล้เคียงกับ x_v จะผันผวนอย่างกว้างขวาง แต่พวกมันจะทำการประมาณค่าที่สูงขึ้นได้บ่อยเท่าที่พวกมันจะทำการแทรกต่ำ ดังนั้นโดยเฉลี่ยในตัวอย่างพวกเขาจะยกเลิกและความเอนเอียงจะต่ำมากเว้นแต่ว่าเส้นโค้งที่แท้จริงมีการเปลี่ยนแปลงความถี่สูงมากมาย

รุ่นที่มีน้ำหนักเกินเหล่านี้จะมีความแปรปรวนจำนวนมากในกลุ่มตัวอย่างแบบสุ่มเนื่องจากไม่ได้ทำให้ข้อมูลราบรื่น แบบจำลองการแก้ไขเพียงแค่ใช้จุดข้อมูลสองจุดเพื่อทำนายจุดกึ่งกลางและสิ่งเหล่านี้จึงสร้างเสียงรบกวนมาก

โปรดทราบว่าอคตินั้นวัดที่จุดเดียว ไม่สำคัญว่ามันจะเป็นบวกหรือลบ มันยังคงมีอคติกับ x ใด ๆ อคติเฉลี่ยมากกว่าค่า x ทั้งหมดอาจมีขนาดเล็ก แต่นั่นก็ไม่ได้ทำให้มันไม่เอนเอียง

อีกตัวอย่างหนึ่ง สมมติว่าคุณกำลังพยายามทำนายอุณหภูมิที่ชุดของสถานที่ในสหรัฐอเมริกาในบางช่วงเวลา สมมติว่าคุณมี 10,000 คะแนนการฝึก อีกครั้งคุณจะได้รูปแบบความแปรปรวนต่ำโดยทำสิ่งที่ง่ายโดยเพียงแค่คืนค่าเฉลี่ย แต่สิ่งนี้จะมีอคติต่ำในรัฐฟลอริดาและมีอคติสูงในรัฐอลาสก้า คุณน่าจะดีกว่านี้ถ้าคุณใช้ค่าเฉลี่ยสำหรับแต่ละรัฐ แต่ถึงอย่างนั้นคุณก็จะรู้สึกลำเอียงในฤดูหนาวและต่ำในฤดูร้อน ดังนั้นตอนนี้คุณรวมเดือนในแบบจำลองของคุณ แต่คุณจะยังคงมีอคติต่ำใน Death Valley และที่สูงบน Mt Shasta ดังนั้นตอนนี้คุณไปที่ระดับรหัสไปรษณีย์ที่ละเอียด แต่ในที่สุดถ้าคุณทำเช่นนี้เพื่อลดอคติคุณหมดจุดข้อมูล อาจเป็นรหัสไปรษณีย์และเดือนที่ระบุคุณมีจุดข้อมูลเพียงจุดเดียว เห็นได้ชัดว่านี่จะสร้างความแปรปรวนมากมาย ดังนั้นคุณจะเห็นว่าการมีแบบจำลองที่ซับซ้อนมากขึ้นจะช่วยลดความเอนเอียงลงโดยมีค่าความแปรปรวน

ดังนั้นคุณจะเห็นว่ามีการแลกเปลี่ยน แบบจำลองที่นุ่มนวลมีความแปรปรวนต่ำกว่าในตัวอย่างการฝึกอบรม แต่ไม่จับรูปร่างที่แท้จริงของเส้นโค้งเช่นกัน แบบจำลองที่มีความลื่นน้อยกว่าสามารถจับโค้งได้ดีกว่า อยู่ตรงกลางเป็นรุ่น Goldilocks ที่ทำให้การแลกเปลี่ยนที่ยอมรับได้ระหว่างทั้งสอง

— Dave31415
แหล่งที่มา

0

ลองคิดดูว่างานสร้างแบบจำลองสามารถทำซ้ำสำหรับชุดข้อมูลการฝึกอบรมที่แตกต่างกันหรือไม่เช่นเราฝึกโมเดลใหม่สำหรับชุดข้อมูลที่แตกต่างกันทุกครั้ง (แสดงในรูปด้านล่าง) หากเราแก้ไขจุดข้อมูลทดสอบและประเมินการทำนายแบบจำลองในจุดนี้การคาดการณ์จะเปลี่ยนแปลงเนื่องจากการสุ่มในกระบวนการสร้างแบบจำลอง จากตัวเลขด้านล่างสำหรับสถานการณ์นี้ P_1, P_2, …, P_n เป็นการคาดการณ์ที่แตกต่างกันและการสุ่มด้วย

ให้ค่าเฉลี่ยของการทำนายเป็น -

Bias Error เกิดจากความแตกต่างระหว่างค่าเฉลี่ยของการทำนายเหล่านี้กับค่าที่ถูกต้อง

ข้อผิดพลาดความแปรปรวนคืออะไร แต่ความแปรปรวนในการทำนายเหล่านี้คือการทำนายเหล่านี้มีความหลากหลายอย่างไร

นี่คือสัญชาตญาณที่อยู่เบื้องหลังอคติและความแปรปรวนผิดพลาด

สำหรับคำอธิบายโดยละเอียดไปที่สัญชาตญาณที่ถูกต้องหลังการแลกเปลี่ยนความแปรปรวนอคติ

— Pradeep Bansal
แหล่งที่มา