คำอธิบายที่เข้าใจง่ายของการแลกเปลี่ยนความแปรปรวนอคติ


45

ฉันกำลังมองหาคำอธิบายที่เข้าใจง่ายของการแลกเปลี่ยนความเอนเอียงอคติทั้งโดยทั่วไปและโดยเฉพาะในบริบทของการถดถอยเชิงเส้น


1
: มีการอภิปรายอื่นที่เกี่ยวข้องกับหัวข้อเหล่านี้ที่นี่คือสิ่งที่ปัญหาไม่หดตัว-วิธีแก้
gung - Reinstate Monica

คำตอบ:


24

ลองนึกภาพข้อมูล 2D บางส่วน - สมมติว่าส่วนสูงกับน้ำหนักสำหรับนักเรียนที่โรงเรียนมัธยม - วางแผนบนแกนหนึ่งคู่

ทีนี้สมมติว่าคุณใส่เส้นตรงเข้าไป บรรทัดนี้ซึ่งแน่นอนแสดงถึงชุดของค่าที่คาดการณ์มีความแปรปรวนทางสถิติเป็นศูนย์ แต่อคตินั้นสูง (อาจ) - กล่าวคือมันไม่เหมาะกับข้อมูลที่ดีมาก

ถัดไปสมมติว่าคุณจำลองข้อมูลด้วยเส้นโค้งพหุนามระดับสูง คุณไม่พอใจกับความฟิตดังนั้นคุณจึงเพิ่มระดับพหุนามจนกว่าความพอดีจะดีขึ้น (และเพื่อความแม่นยำตามอำเภอใจ) ตอนนี้คุณมีสถานการณ์ที่มีอคติที่มีค่าเป็นศูนย์ แต่ความแปรปรวนนั้นสูงมาก

โปรดทราบว่าการแลกเปลี่ยนความแปรปรวนแบบอคตินั้นไม่ได้อธิบายความสัมพันธ์แบบสัดส่วน - นั่นคือถ้าคุณวางแผนอคติกับความแปรปรวนคุณไม่จำเป็นต้องเห็นเส้นตรงผ่านจุดกำเนิดด้วยความชัน -1 ในตัวอย่างเส้นโค้งพหุนามดังกล่าวข้างต้นการลดระดับจะเพิ่มความแปรปรวนน้อยกว่าการลดอคติ

การแลกเปลี่ยนอคติแปรปรวนยังฝังอยู่ในฟังก์ชันข้อผิดพลาดผลรวมของกำลังสอง ด้านล่างฉันได้เขียนใหม่ (แต่ไม่เปลี่ยนแปลง) รูปแบบปกติของสมการนี้เพื่อเน้นสิ่งนี้:

ข้อความแสดงแทน

ทางด้านขวามือมีสามคำด้วยกัน: ข้อแรกคือข้อผิดพลาดที่ลดลงไม่ได้ (ความแปรปรวนของข้อมูลเอง); สิ่งนี้อยู่เหนือการควบคุมของเราดังนั้นอย่าเพิกเฉย สองระยะคือตารางของอคติ ; และสามคือความแปรปรวน เป็นเรื่องง่ายที่จะเห็นว่าเมื่อใดคนหนึ่งขึ้นไปอีกคนหนึ่งก็ลงไป - พวกเขาไม่สามารถเปลี่ยนแปลงกันในทิศทางเดียวกัน อีกวิธีหนึ่งคุณสามารถคิดถึงการถดถอยอย่างน้อยกำลังสอง (โดยปริยาย) ในการค้นหาการผสมผสานที่ดีที่สุดของการตั้งค่าและความแปรปรวนจากแบบจำลองผู้สมัคร


8
ฉันมีปัญหาในการเข้าใจสมการ ฉันไม่สามารถหาวิธีที่จะพิสูจน์ได้ แม้แต่การวิเคราะห์หน่วยขั้นพื้นฐานก็ยังระบุปัญหาได้ สมมติว่าวัดเป็นพาร์เซกและในดรัมเช่นและตัวประมาณ (นั่นคือจุดเล็ก ๆ เหนือหมายถึงอะไร?) ก็เป็นพาร์เซกด้วย จากนั้น lhs และคือพาร์เซกกำลังสอง ระยะกลางใน rhs เป็นตารางของความแตกต่างระหว่างพาร์เซก ( ) และพาร์เซกต่อ dram (เนื่องจากการหารโดย ); และเทอมสุดท้ายบน rhs คือพาร์เซกกำลังสองต่อ dram มันไม่ถูกต้องในการเพิ่มคำเหล่านี้เข้าด้วยกัน! x f f σ 2 f ( x ) xyxffσ2f(x)x
whuber

สมการของดี (ตัวอักษรกรีกตัวน้อยในตัวเศษไม่ใช่ 'x' แต่ 'คัปปา') ลองสิ่งนี้: เริ่มต้นด้วยสูตรสำหรับ SSE ที่คุณพอใจและเพียงไม่กี่ขั้นตอนคุณก็จะเข้าสู่สูตรข้างต้น
doug

'คัปปา' ในบริบทนี้คืออะไร

ฉันเป็น noob คุณช่วยฉันได้อย่างหยั่งรู้ดูว่าทำไมในส่วนแรกของคำตอบของคุณคุณบอกว่าการใส่พหุนามพหุนามทำให้ความแปรปรวนเพิ่มขึ้น?
Rohit Banga

3
ตัวอย่างที่ง่ายกว่า: y = a + b x + e (rror) ถ้าฉันพอดีกับค่าคงที่นี้ bias = b x และ variance = var (e) + ความแปรปรวนของค่าประมาณของฉันประมาณค่าจริง ถ้าฉันเพิ่มคำ b * x ลงในแบบจำลองความเอนเอียงจะเป็นศูนย์ทุกแห่ง แต่ตอนนี้ความแปรปรวนรวมถึงผลของความคลาดเคลื่อนของการประมาณขของฉันเช่นเดียวกับ a และความแปรปรวนของ e ดังนั้นจะสูงกว่าในครั้งแรก กรณี. มีการแลกเปลี่ยนระหว่างอคติที่ลดลงซึ่งได้รับโดยการเพิ่มคำลงในแบบจำลองที่ควรจะอยู่ที่นั่นและความแปรปรวนที่เพิ่มขึ้นที่ได้รับโดยต้องประเมินเงื่อนไขเหล่านั้นและอาจเพิ่มคำที่ไม่เกี่ยวข้อง
jbowman

25

สมมติว่าคุณกำลังพิจารณาประกันสุขภาพที่ร้ายแรงและมีความเป็นไปได้ 1% ที่จะป่วยซึ่งจะมีค่าใช้จ่าย 1 ล้านดอลลาร์ ค่าใช้จ่ายที่คาดหวังจากการเจ็บป่วยจึงเท่ากับ 10,000 ดอลลาร์ บริษัท ประกันที่ต้องการทำกำไรจะคิดเงิน 15,000 บาทจากกรมธรรม์

การซื้อนโยบายจะให้ค่าใช้จ่ายที่คาดหวังให้กับคุณ 15,000 ซึ่งมีความแปรปรวนเป็น 0 แต่สามารถคิดว่าลำเอียงเพราะมันเป็น 5,000 มากกว่าค่าใช้จ่ายจริงที่คาดหวังจากการเจ็บป่วย

การไม่ซื้อนโยบายให้ค่าใช้จ่ายที่คาดหวัง 10,000 ซึ่งไม่เอนเอียงเนื่องจากเท่ากับค่าใช้จ่ายจริงที่คาดหวังจากการเจ็บป่วย แต่มีความแปรปรวนสูงมาก การแลกเปลี่ยนที่นี่อยู่ระหว่างวิธีการที่ผิดปกติ แต่ไม่เคยมากและวิธีการที่ถูกต้องโดยเฉลี่ย แต่เป็นตัวแปรมากขึ้น


15

ผมขอแนะนำให้มีลักษณะที่แน่นอนคาลเทค ML โดยยาเซอร์อาบูมอสตาฟาบรรยาย 8 (อคติแปรปรวน tradeoff) นี่คือโครงร่าง:

สมมติว่าคุณกำลังพยายามเรียนรู้ฟังก์ชันไซน์:

ข้อความแสดงแทน

ชุดฝึกอบรมของเราประกอบด้วยจุดข้อมูลเพียง 2 จุด

ลองทำด้วยสองรุ่นและ :h0(x)=bh1(x)=ax+b

สำหรับเมื่อเราลองชุดฝึกอบรมที่แตกต่างกันหลายชุด (เช่นเราเลือกจุดข้อมูล 2 จุดซ้ำ ๆ และทำการเรียนรู้ในชุดเหล่านั้น) เราจะได้รับ (กราฟซ้ายแสดงถึงโมเดลที่เรียนรู้ทั้งหมด ความแปรปรวน (พื้นที่สีเทา):h0(x)=b

ป้อนคำอธิบายรูปภาพที่นี่

สำหรับเมื่อเราลองชุดฝึกอบรมต่างๆเราได้รับ:h1(x)=ax+b

ป้อนคำอธิบายรูปภาพที่นี่

หากเราเปรียบเทียบแบบจำลองที่เรียนรู้กับและเราจะเห็นได้ว่าให้แบบจำลองที่ง่ายกว่าดังนั้นความแปรปรวนที่ต่ำกว่าเมื่อเราพิจารณาแบบจำลองทั้งหมดที่เรียนรู้ด้วยแต่แบบจำลองที่ดีที่สุด g (เป็นสีแดงบนกราฟ) ด้วยนั้นดีกว่าโมเดลที่ดีที่สุดที่เรียนรู้ g ด้วยดังนั้นอคติที่ต่ำกว่าด้วย :h0h1h0h1h0h1h0h1

ป้อนคำอธิบายรูปภาพที่นี่


หากคุณดูวิวัฒนาการของฟังก์ชั่นราคาเทียบกับขนาดของชุดฝึกอบรม (ตัวเลขจากCoursera - การเรียนรู้ของเครื่องโดย Andrew Ng ):

อคติสูง:

ป้อนคำอธิบายรูปภาพที่นี่

ความแปรปรวนสูง:

ป้อนคำอธิบายรูปภาพที่นี่


+1 มีความละเอียดมาก ใช้เป็นตัวอย่างที่เราได้วาดตัวอย่างที่แตกต่างกันหลายแต่ละคนมี 2 จุดเพื่อให้เราได้รับการฝึกฝนหลายรุ่นแต่ละคนมีการประมาณการที่แตกต่างกันรูปแบบพารามิเตอร์ใช่มั้ย? และสำหรับอินพุตที่เจาะจงแตกต่างกันให้การทำนายที่แตกต่างกันดังนั้นค่าเป้าหมายที่คาดการณ์เป็นตัวแปรสุ่มที่แปรเปลี่ยนตามการประมาณพารามิเตอร์โมเดล . และมีอคติและความแปรปรวนในรูปของคุณจะถูกคำนวณสำหรับแต่ละ 's ทำนายใช่มั้ย? ฉันถูกไหม? D ฉัน ( ฉัน , ฉัน ) x 0 ( ฉัน , ฉัน ) Y 0 Y 0 ( , ) x Yh1Di(a^i,b^i)x0(a^i,b^i)y^0y^0(a^,b^)xy^
อะโวคาโด

ฟังก์ชันไซน์ของคุณกลับด้าน XP
Diego

1
นี่คือความสับสน b / c ที่คุณดูเหมือนจะหมายถึงแปลงที่ไม่ได้มี (อาจจะเป็น "ข้อความ ALT")
gung - Reinstate Monica

@ gung คงที่แล้วขอบคุณที่ชี้ให้เห็น ImageShack ปิดตัวลงบัญชีใช้งานฟรีและภาพลบ และการแลกเปลี่ยนสแต็คล้มเหลวในการใช้มาตรการที่เหมาะสม ที่เกี่ยวข้อง: แบนรูปภาพ ImageShack เพราะพวกเขากำลังนำ URL เก่ามาใช้เพื่อการโฆษณา (โปรดสนับสนุนการห้าม) วิธีที่ง่ายที่สุดสำหรับฉันในการดาวน์โหลดคำถามและคำตอบทั้งหมดในไซต์ Stack Exchange ทั้งหมดคืออะไร (ฉันดีใจที่มีการสำรองข้อมูลโปรดผลักดัน StackExchange เพื่อมอบเครื่องมือที่ดีกว่าในการสำรองเนื้อหา)
Franck Dernoncourt

ขอบคุณสำหรับการแชร์ลิงก์วิดีโอมันอธิบายได้ดีว่าฉันกำลังมองหาอะไรตอนนี้สามารถเข้าใจคำตอบของคุณได้แล้ว
Espoir Murhabazi

12

ฉันมักจะนึกถึงภาพสองภาพนี้:

ก่อนความหมายของอคติและความแปรปรวน:

ทำความเข้าใจเรื่องอคติและความแปรปรวน

ลองนึกภาพจุดศูนย์กลางของบริเวณรอบดวงตาของกระทิงแดงคือค่าเฉลี่ยที่แท้จริงของตัวแปรสุ่มเป้าหมายของเราซึ่งเรากำลังพยายามทำนายและพื้นที่สีแดงหมายถึงการกระจายความแปรปรวนของตัวแปรนี้ ทุกครั้งที่เราทำการสังเกตชุดตัวอย่างและทำนายค่าของตัวแปรนี้เราจะพล็อตจุดสีน้ำเงิน เราคาดการณ์ได้อย่างถูกต้องหากจุดสีฟ้าตกอยู่ภายในบริเวณสีแดง กล่าวอีกนัยหนึ่งคือความลำเอียงเป็นการวัดว่าจุดสีน้ำเงินที่ทำนายไว้ออกมาจากบริเวณสีแดงที่แท้จริงนั้นอยู่ไกลแค่ไหนโดยสัญชาตญาณนี่เป็นข้อผิดพลาด ความแปรปรวนคือการทำนายของเรา

ตอนนี้การแลกเปลี่ยนที่นี่คือ:

การแลกเปลี่ยนระหว่างอคติและความแปรปรวน

เมื่อเราพยายามลดหนึ่งในพารามิเตอร์นี้ (ไม่ว่าจะเป็นอคติหรือความแปรปรวน) พารามิเตอร์อื่นจะเพิ่มขึ้น แต่มีจุดที่น่าสนใจอยู่ระหว่างความเอนเอียงแบบไม่เอนเอียงและความแปรปรวนแบบไม่ให้น้อยซึ่งทำให้เกิดข้อผิดพลาดการทำนายน้อยที่สุดในระยะยาว

ภาพเหล่านี้จะนำมาจากhttp://scott.fortmann-roe.com/docs/BiasVariance.html ชำระเงินคำอธิบายพร้อมการถดถอยเชิงเส้นและเพื่อนบ้านใกล้เคียง K-K สำหรับรายละเอียดเพิ่มเติม


รูปแรกดูเหมือนความแม่นยำและความแม่นยำมากกว่าหรือไม่
KingBoomie

0

นี่คือคำอธิบายที่ง่ายมาก ลองนึกภาพคุณมีพล็อตการกระจายของคะแนน {x_i, y_i} ซึ่งถูกสุ่มตัวอย่างจากการแจกแจงบางอย่าง คุณต้องการที่จะพอดีกับบางรุ่น คุณสามารถเลือกเส้นโค้งเชิงเส้นหรือเส้นโค้งพหุนามลำดับที่สูงขึ้นหรืออย่างอื่น สิ่งที่คุณเลือกจะนำไปใช้ในการทำนายค่า y ใหม่สำหรับชุด {x_i} คะแนน มาเรียกชุดตรวจสอบความถูกต้องเหล่านี้กัน สมมติว่าคุณรู้ค่า {y_i} ที่แท้จริงของพวกมันแล้วและเราใช้สิ่งเหล่านี้เพื่อทดสอบแบบจำลอง

ค่าที่คาดการณ์จะแตกต่างจากค่าจริง เราสามารถวัดคุณสมบัติของความแตกต่างได้ ลองพิจารณาจุดตรวจสอบจุดเดียว เรียกว่า x_v แล้วเลือกรุ่นบางรุ่น มาสร้างชุดการทำนายสำหรับจุดตรวจสอบจุดเดียวโดยใช้ตัวอย่างสุ่มที่แตกต่างกัน 100 ตัวอย่างเพื่อฝึกฝนแบบจำลอง ดังนั้นเราจะได้ค่า 100 y ความแตกต่างระหว่างค่าเฉลี่ยของค่าเหล่านั้นและค่าจริงเรียกว่าอคติ ความแปรปรวนของการแจกแจงคือความแปรปรวน

ขึ้นอยู่กับรุ่นที่เราใช้เราสามารถแลกเปลี่ยนระหว่างสองสิ่งนี้ ลองพิจารณาสองสุดขั้ว รูปแบบความแปรปรวนต่ำสุดคือรูปแบบหนึ่งที่ละเว้นข้อมูลทั้งหมด สมมุติว่าเราคาดการณ์ 42 สำหรับทุก ๆ x แบบจำลองนั้นมีความแปรปรวนของศูนย์ในตัวอย่างการฝึกอบรมที่แตกต่างกันทุกจุด อย่างไรก็ตามมันลำเอียงอย่างชัดเจน อคติคือ 42-y_v

หนึ่งในสุดโต่งอื่น ๆ เราสามารถเลือกแบบจำลองที่มีให้เลือกมากที่สุด ตัวอย่างเช่นพอดีกับพหุนาม 100 องศาถึง 100 จุดข้อมูล หรือสอดแทรกเชิงเส้นตรงระหว่างเพื่อนบ้านที่ใกล้ที่สุด สิ่งนี้มีอคติต่ำ ทำไม? เพราะสำหรับตัวอย่างแบบสุ่มใด ๆ จุดที่อยู่ใกล้เคียงกับ x_v จะผันผวนอย่างกว้างขวาง แต่พวกมันจะทำการประมาณค่าที่สูงขึ้นได้บ่อยเท่าที่พวกมันจะทำการแทรกต่ำ ดังนั้นโดยเฉลี่ยในตัวอย่างพวกเขาจะยกเลิกและความเอนเอียงจะต่ำมากเว้นแต่ว่าเส้นโค้งที่แท้จริงมีการเปลี่ยนแปลงความถี่สูงมากมาย

รุ่นที่มีน้ำหนักเกินเหล่านี้จะมีความแปรปรวนจำนวนมากในกลุ่มตัวอย่างแบบสุ่มเนื่องจากไม่ได้ทำให้ข้อมูลราบรื่น แบบจำลองการแก้ไขเพียงแค่ใช้จุดข้อมูลสองจุดเพื่อทำนายจุดกึ่งกลางและสิ่งเหล่านี้จึงสร้างเสียงรบกวนมาก

โปรดทราบว่าอคตินั้นวัดที่จุดเดียว ไม่สำคัญว่ามันจะเป็นบวกหรือลบ มันยังคงมีอคติกับ x ใด ๆ อคติเฉลี่ยมากกว่าค่า x ทั้งหมดอาจมีขนาดเล็ก แต่นั่นก็ไม่ได้ทำให้มันไม่เอนเอียง

อีกตัวอย่างหนึ่ง สมมติว่าคุณกำลังพยายามทำนายอุณหภูมิที่ชุดของสถานที่ในสหรัฐอเมริกาในบางช่วงเวลา สมมติว่าคุณมี 10,000 คะแนนการฝึก อีกครั้งคุณจะได้รูปแบบความแปรปรวนต่ำโดยทำสิ่งที่ง่ายโดยเพียงแค่คืนค่าเฉลี่ย แต่สิ่งนี้จะมีอคติต่ำในรัฐฟลอริดาและมีอคติสูงในรัฐอลาสก้า คุณน่าจะดีกว่านี้ถ้าคุณใช้ค่าเฉลี่ยสำหรับแต่ละรัฐ แต่ถึงอย่างนั้นคุณก็จะรู้สึกลำเอียงในฤดูหนาวและต่ำในฤดูร้อน ดังนั้นตอนนี้คุณรวมเดือนในแบบจำลองของคุณ แต่คุณจะยังคงมีอคติต่ำใน Death Valley และที่สูงบน Mt Shasta ดังนั้นตอนนี้คุณไปที่ระดับรหัสไปรษณีย์ที่ละเอียด แต่ในที่สุดถ้าคุณทำเช่นนี้เพื่อลดอคติคุณหมดจุดข้อมูล อาจเป็นรหัสไปรษณีย์และเดือนที่ระบุคุณมีจุดข้อมูลเพียงจุดเดียว เห็นได้ชัดว่านี่จะสร้างความแปรปรวนมากมาย ดังนั้นคุณจะเห็นว่าการมีแบบจำลองที่ซับซ้อนมากขึ้นจะช่วยลดความเอนเอียงลงโดยมีค่าความแปรปรวน

ดังนั้นคุณจะเห็นว่ามีการแลกเปลี่ยน แบบจำลองที่นุ่มนวลมีความแปรปรวนต่ำกว่าในตัวอย่างการฝึกอบรม แต่ไม่จับรูปร่างที่แท้จริงของเส้นโค้งเช่นกัน แบบจำลองที่มีความลื่นน้อยกว่าสามารถจับโค้งได้ดีกว่า อยู่ตรงกลางเป็นรุ่น Goldilocks ที่ทำให้การแลกเปลี่ยนที่ยอมรับได้ระหว่างทั้งสอง


0

ลองคิดดูว่างานสร้างแบบจำลองสามารถทำซ้ำสำหรับชุดข้อมูลการฝึกอบรมที่แตกต่างกันหรือไม่เช่นเราฝึกโมเดลใหม่สำหรับชุดข้อมูลที่แตกต่างกันทุกครั้ง (แสดงในรูปด้านล่าง) หากเราแก้ไขจุดข้อมูลทดสอบและประเมินการทำนายแบบจำลองในจุดนี้การคาดการณ์จะเปลี่ยนแปลงเนื่องจากการสุ่มในกระบวนการสร้างแบบจำลอง จากตัวเลขด้านล่างสำหรับสถานการณ์นี้ P_1, P_2, …, P_n เป็นการคาดการณ์ที่แตกต่างกันและการสุ่มด้วย ป้อนคำอธิบายรูปภาพที่นี่

ให้ค่าเฉลี่ยของการทำนายเป็น -

ป้อนคำอธิบายรูปภาพที่นี่

Bias Error เกิดจากความแตกต่างระหว่างค่าเฉลี่ยของการทำนายเหล่านี้กับค่าที่ถูกต้อง ป้อนคำอธิบายรูปภาพที่นี่

ข้อผิดพลาดความแปรปรวนคืออะไร แต่ความแปรปรวนในการทำนายเหล่านี้คือการทำนายเหล่านี้มีความหลากหลายอย่างไร ป้อนคำอธิบายรูปภาพที่นี่

นี่คือสัญชาตญาณที่อยู่เบื้องหลังอคติและความแปรปรวนผิดพลาด

สำหรับคำอธิบายโดยละเอียดไปที่สัญชาตญาณที่ถูกต้องหลังการแลกเปลี่ยนความแปรปรวนอคติ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.