ฉันกำลังมองหาคำอธิบายที่เข้าใจง่ายของการแลกเปลี่ยนความเอนเอียงอคติทั้งโดยทั่วไปและโดยเฉพาะในบริบทของการถดถอยเชิงเส้น
ฉันกำลังมองหาคำอธิบายที่เข้าใจง่ายของการแลกเปลี่ยนความเอนเอียงอคติทั้งโดยทั่วไปและโดยเฉพาะในบริบทของการถดถอยเชิงเส้น
คำตอบ:
ลองนึกภาพข้อมูล 2D บางส่วน - สมมติว่าส่วนสูงกับน้ำหนักสำหรับนักเรียนที่โรงเรียนมัธยม - วางแผนบนแกนหนึ่งคู่
ทีนี้สมมติว่าคุณใส่เส้นตรงเข้าไป บรรทัดนี้ซึ่งแน่นอนแสดงถึงชุดของค่าที่คาดการณ์มีความแปรปรวนทางสถิติเป็นศูนย์ แต่อคตินั้นสูง (อาจ) - กล่าวคือมันไม่เหมาะกับข้อมูลที่ดีมาก
ถัดไปสมมติว่าคุณจำลองข้อมูลด้วยเส้นโค้งพหุนามระดับสูง คุณไม่พอใจกับความฟิตดังนั้นคุณจึงเพิ่มระดับพหุนามจนกว่าความพอดีจะดีขึ้น (และเพื่อความแม่นยำตามอำเภอใจ) ตอนนี้คุณมีสถานการณ์ที่มีอคติที่มีค่าเป็นศูนย์ แต่ความแปรปรวนนั้นสูงมาก
โปรดทราบว่าการแลกเปลี่ยนความแปรปรวนแบบอคตินั้นไม่ได้อธิบายความสัมพันธ์แบบสัดส่วน - นั่นคือถ้าคุณวางแผนอคติกับความแปรปรวนคุณไม่จำเป็นต้องเห็นเส้นตรงผ่านจุดกำเนิดด้วยความชัน -1 ในตัวอย่างเส้นโค้งพหุนามดังกล่าวข้างต้นการลดระดับจะเพิ่มความแปรปรวนน้อยกว่าการลดอคติ
การแลกเปลี่ยนอคติแปรปรวนยังฝังอยู่ในฟังก์ชันข้อผิดพลาดผลรวมของกำลังสอง ด้านล่างฉันได้เขียนใหม่ (แต่ไม่เปลี่ยนแปลง) รูปแบบปกติของสมการนี้เพื่อเน้นสิ่งนี้:
ทางด้านขวามือมีสามคำด้วยกัน: ข้อแรกคือข้อผิดพลาดที่ลดลงไม่ได้ (ความแปรปรวนของข้อมูลเอง); สิ่งนี้อยู่เหนือการควบคุมของเราดังนั้นอย่าเพิกเฉย สองระยะคือตารางของอคติ ; และสามคือความแปรปรวน เป็นเรื่องง่ายที่จะเห็นว่าเมื่อใดคนหนึ่งขึ้นไปอีกคนหนึ่งก็ลงไป - พวกเขาไม่สามารถเปลี่ยนแปลงกันในทิศทางเดียวกัน อีกวิธีหนึ่งคุณสามารถคิดถึงการถดถอยอย่างน้อยกำลังสอง (โดยปริยาย) ในการค้นหาการผสมผสานที่ดีที่สุดของการตั้งค่าและความแปรปรวนจากแบบจำลองผู้สมัคร
สมมติว่าคุณกำลังพิจารณาประกันสุขภาพที่ร้ายแรงและมีความเป็นไปได้ 1% ที่จะป่วยซึ่งจะมีค่าใช้จ่าย 1 ล้านดอลลาร์ ค่าใช้จ่ายที่คาดหวังจากการเจ็บป่วยจึงเท่ากับ 10,000 ดอลลาร์ บริษัท ประกันที่ต้องการทำกำไรจะคิดเงิน 15,000 บาทจากกรมธรรม์
การซื้อนโยบายจะให้ค่าใช้จ่ายที่คาดหวังให้กับคุณ 15,000 ซึ่งมีความแปรปรวนเป็น 0 แต่สามารถคิดว่าลำเอียงเพราะมันเป็น 5,000 มากกว่าค่าใช้จ่ายจริงที่คาดหวังจากการเจ็บป่วย
การไม่ซื้อนโยบายให้ค่าใช้จ่ายที่คาดหวัง 10,000 ซึ่งไม่เอนเอียงเนื่องจากเท่ากับค่าใช้จ่ายจริงที่คาดหวังจากการเจ็บป่วย แต่มีความแปรปรวนสูงมาก การแลกเปลี่ยนที่นี่อยู่ระหว่างวิธีการที่ผิดปกติ แต่ไม่เคยมากและวิธีการที่ถูกต้องโดยเฉลี่ย แต่เป็นตัวแปรมากขึ้น
ผมขอแนะนำให้มีลักษณะที่แน่นอนคาลเทค ML โดยยาเซอร์อาบูมอสตาฟาบรรยาย 8 (อคติแปรปรวน tradeoff) นี่คือโครงร่าง:
สมมติว่าคุณกำลังพยายามเรียนรู้ฟังก์ชันไซน์:
ชุดฝึกอบรมของเราประกอบด้วยจุดข้อมูลเพียง 2 จุด
ลองทำด้วยสองรุ่นและ :
สำหรับเมื่อเราลองชุดฝึกอบรมที่แตกต่างกันหลายชุด (เช่นเราเลือกจุดข้อมูล 2 จุดซ้ำ ๆ และทำการเรียนรู้ในชุดเหล่านั้น) เราจะได้รับ (กราฟซ้ายแสดงถึงโมเดลที่เรียนรู้ทั้งหมด ความแปรปรวน (พื้นที่สีเทา):
สำหรับเมื่อเราลองชุดฝึกอบรมต่างๆเราได้รับ:
หากเราเปรียบเทียบแบบจำลองที่เรียนรู้กับและเราจะเห็นได้ว่าให้แบบจำลองที่ง่ายกว่าดังนั้นความแปรปรวนที่ต่ำกว่าเมื่อเราพิจารณาแบบจำลองทั้งหมดที่เรียนรู้ด้วยแต่แบบจำลองที่ดีที่สุด g (เป็นสีแดงบนกราฟ) ด้วยนั้นดีกว่าโมเดลที่ดีที่สุดที่เรียนรู้ g ด้วยดังนั้นอคติที่ต่ำกว่าด้วย :
หากคุณดูวิวัฒนาการของฟังก์ชั่นราคาเทียบกับขนาดของชุดฝึกอบรม (ตัวเลขจากCoursera - การเรียนรู้ของเครื่องโดย Andrew Ng ):
อคติสูง:
ความแปรปรวนสูง:
ฉันมักจะนึกถึงภาพสองภาพนี้:
ก่อนความหมายของอคติและความแปรปรวน:
ลองนึกภาพจุดศูนย์กลางของบริเวณรอบดวงตาของกระทิงแดงคือค่าเฉลี่ยที่แท้จริงของตัวแปรสุ่มเป้าหมายของเราซึ่งเรากำลังพยายามทำนายและพื้นที่สีแดงหมายถึงการกระจายความแปรปรวนของตัวแปรนี้ ทุกครั้งที่เราทำการสังเกตชุดตัวอย่างและทำนายค่าของตัวแปรนี้เราจะพล็อตจุดสีน้ำเงิน เราคาดการณ์ได้อย่างถูกต้องหากจุดสีฟ้าตกอยู่ภายในบริเวณสีแดง กล่าวอีกนัยหนึ่งคือความลำเอียงเป็นการวัดว่าจุดสีน้ำเงินที่ทำนายไว้ออกมาจากบริเวณสีแดงที่แท้จริงนั้นอยู่ไกลแค่ไหนโดยสัญชาตญาณนี่เป็นข้อผิดพลาด ความแปรปรวนคือการทำนายของเรา
ตอนนี้การแลกเปลี่ยนที่นี่คือ:
เมื่อเราพยายามลดหนึ่งในพารามิเตอร์นี้ (ไม่ว่าจะเป็นอคติหรือความแปรปรวน) พารามิเตอร์อื่นจะเพิ่มขึ้น แต่มีจุดที่น่าสนใจอยู่ระหว่างความเอนเอียงแบบไม่เอนเอียงและความแปรปรวนแบบไม่ให้น้อยซึ่งทำให้เกิดข้อผิดพลาดการทำนายน้อยที่สุดในระยะยาว
ภาพเหล่านี้จะนำมาจากhttp://scott.fortmann-roe.com/docs/BiasVariance.html ชำระเงินคำอธิบายพร้อมการถดถอยเชิงเส้นและเพื่อนบ้านใกล้เคียง K-K สำหรับรายละเอียดเพิ่มเติม
นี่คือคำอธิบายที่ง่ายมาก ลองนึกภาพคุณมีพล็อตการกระจายของคะแนน {x_i, y_i} ซึ่งถูกสุ่มตัวอย่างจากการแจกแจงบางอย่าง คุณต้องการที่จะพอดีกับบางรุ่น คุณสามารถเลือกเส้นโค้งเชิงเส้นหรือเส้นโค้งพหุนามลำดับที่สูงขึ้นหรืออย่างอื่น สิ่งที่คุณเลือกจะนำไปใช้ในการทำนายค่า y ใหม่สำหรับชุด {x_i} คะแนน มาเรียกชุดตรวจสอบความถูกต้องเหล่านี้กัน สมมติว่าคุณรู้ค่า {y_i} ที่แท้จริงของพวกมันแล้วและเราใช้สิ่งเหล่านี้เพื่อทดสอบแบบจำลอง
ค่าที่คาดการณ์จะแตกต่างจากค่าจริง เราสามารถวัดคุณสมบัติของความแตกต่างได้ ลองพิจารณาจุดตรวจสอบจุดเดียว เรียกว่า x_v แล้วเลือกรุ่นบางรุ่น มาสร้างชุดการทำนายสำหรับจุดตรวจสอบจุดเดียวโดยใช้ตัวอย่างสุ่มที่แตกต่างกัน 100 ตัวอย่างเพื่อฝึกฝนแบบจำลอง ดังนั้นเราจะได้ค่า 100 y ความแตกต่างระหว่างค่าเฉลี่ยของค่าเหล่านั้นและค่าจริงเรียกว่าอคติ ความแปรปรวนของการแจกแจงคือความแปรปรวน
ขึ้นอยู่กับรุ่นที่เราใช้เราสามารถแลกเปลี่ยนระหว่างสองสิ่งนี้ ลองพิจารณาสองสุดขั้ว รูปแบบความแปรปรวนต่ำสุดคือรูปแบบหนึ่งที่ละเว้นข้อมูลทั้งหมด สมมุติว่าเราคาดการณ์ 42 สำหรับทุก ๆ x แบบจำลองนั้นมีความแปรปรวนของศูนย์ในตัวอย่างการฝึกอบรมที่แตกต่างกันทุกจุด อย่างไรก็ตามมันลำเอียงอย่างชัดเจน อคติคือ 42-y_v
หนึ่งในสุดโต่งอื่น ๆ เราสามารถเลือกแบบจำลองที่มีให้เลือกมากที่สุด ตัวอย่างเช่นพอดีกับพหุนาม 100 องศาถึง 100 จุดข้อมูล หรือสอดแทรกเชิงเส้นตรงระหว่างเพื่อนบ้านที่ใกล้ที่สุด สิ่งนี้มีอคติต่ำ ทำไม? เพราะสำหรับตัวอย่างแบบสุ่มใด ๆ จุดที่อยู่ใกล้เคียงกับ x_v จะผันผวนอย่างกว้างขวาง แต่พวกมันจะทำการประมาณค่าที่สูงขึ้นได้บ่อยเท่าที่พวกมันจะทำการแทรกต่ำ ดังนั้นโดยเฉลี่ยในตัวอย่างพวกเขาจะยกเลิกและความเอนเอียงจะต่ำมากเว้นแต่ว่าเส้นโค้งที่แท้จริงมีการเปลี่ยนแปลงความถี่สูงมากมาย
รุ่นที่มีน้ำหนักเกินเหล่านี้จะมีความแปรปรวนจำนวนมากในกลุ่มตัวอย่างแบบสุ่มเนื่องจากไม่ได้ทำให้ข้อมูลราบรื่น แบบจำลองการแก้ไขเพียงแค่ใช้จุดข้อมูลสองจุดเพื่อทำนายจุดกึ่งกลางและสิ่งเหล่านี้จึงสร้างเสียงรบกวนมาก
โปรดทราบว่าอคตินั้นวัดที่จุดเดียว ไม่สำคัญว่ามันจะเป็นบวกหรือลบ มันยังคงมีอคติกับ x ใด ๆ อคติเฉลี่ยมากกว่าค่า x ทั้งหมดอาจมีขนาดเล็ก แต่นั่นก็ไม่ได้ทำให้มันไม่เอนเอียง
อีกตัวอย่างหนึ่ง สมมติว่าคุณกำลังพยายามทำนายอุณหภูมิที่ชุดของสถานที่ในสหรัฐอเมริกาในบางช่วงเวลา สมมติว่าคุณมี 10,000 คะแนนการฝึก อีกครั้งคุณจะได้รูปแบบความแปรปรวนต่ำโดยทำสิ่งที่ง่ายโดยเพียงแค่คืนค่าเฉลี่ย แต่สิ่งนี้จะมีอคติต่ำในรัฐฟลอริดาและมีอคติสูงในรัฐอลาสก้า คุณน่าจะดีกว่านี้ถ้าคุณใช้ค่าเฉลี่ยสำหรับแต่ละรัฐ แต่ถึงอย่างนั้นคุณก็จะรู้สึกลำเอียงในฤดูหนาวและต่ำในฤดูร้อน ดังนั้นตอนนี้คุณรวมเดือนในแบบจำลองของคุณ แต่คุณจะยังคงมีอคติต่ำใน Death Valley และที่สูงบน Mt Shasta ดังนั้นตอนนี้คุณไปที่ระดับรหัสไปรษณีย์ที่ละเอียด แต่ในที่สุดถ้าคุณทำเช่นนี้เพื่อลดอคติคุณหมดจุดข้อมูล อาจเป็นรหัสไปรษณีย์และเดือนที่ระบุคุณมีจุดข้อมูลเพียงจุดเดียว เห็นได้ชัดว่านี่จะสร้างความแปรปรวนมากมาย ดังนั้นคุณจะเห็นว่าการมีแบบจำลองที่ซับซ้อนมากขึ้นจะช่วยลดความเอนเอียงลงโดยมีค่าความแปรปรวน
ดังนั้นคุณจะเห็นว่ามีการแลกเปลี่ยน แบบจำลองที่นุ่มนวลมีความแปรปรวนต่ำกว่าในตัวอย่างการฝึกอบรม แต่ไม่จับรูปร่างที่แท้จริงของเส้นโค้งเช่นกัน แบบจำลองที่มีความลื่นน้อยกว่าสามารถจับโค้งได้ดีกว่า อยู่ตรงกลางเป็นรุ่น Goldilocks ที่ทำให้การแลกเปลี่ยนที่ยอมรับได้ระหว่างทั้งสอง
ลองคิดดูว่างานสร้างแบบจำลองสามารถทำซ้ำสำหรับชุดข้อมูลการฝึกอบรมที่แตกต่างกันหรือไม่เช่นเราฝึกโมเดลใหม่สำหรับชุดข้อมูลที่แตกต่างกันทุกครั้ง (แสดงในรูปด้านล่าง) หากเราแก้ไขจุดข้อมูลทดสอบและประเมินการทำนายแบบจำลองในจุดนี้การคาดการณ์จะเปลี่ยนแปลงเนื่องจากการสุ่มในกระบวนการสร้างแบบจำลอง จากตัวเลขด้านล่างสำหรับสถานการณ์นี้ P_1, P_2, …, P_n เป็นการคาดการณ์ที่แตกต่างกันและการสุ่มด้วย
ให้ค่าเฉลี่ยของการทำนายเป็น -
Bias Error เกิดจากความแตกต่างระหว่างค่าเฉลี่ยของการทำนายเหล่านี้กับค่าที่ถูกต้อง
ข้อผิดพลาดความแปรปรวนคืออะไร แต่ความแปรปรวนในการทำนายเหล่านี้คือการทำนายเหล่านี้มีความหลากหลายอย่างไร
นี่คือสัญชาตญาณที่อยู่เบื้องหลังอคติและความแปรปรวนผิดพลาด
สำหรับคำอธิบายโดยละเอียดไปที่สัญชาตญาณที่ถูกต้องหลังการแลกเปลี่ยนความแปรปรวนอคติ