ฉันพยายามเข้าใจแนวคิดเรื่องความเอนเอียงในบริบทของการวิเคราะห์การถดถอยเชิงเส้น
นิยามทางคณิตศาสตร์ของอคติคืออะไร?
ลำเอียงคืออะไรและทำไม / อย่างไร?
ตัวอย่างที่แสดง?
ฉันพยายามเข้าใจแนวคิดเรื่องความเอนเอียงในบริบทของการวิเคราะห์การถดถอยเชิงเส้น
นิยามทางคณิตศาสตร์ของอคติคืออะไร?
ลำเอียงคืออะไรและทำไม / อย่างไร?
ตัวอย่างที่แสดง?
คำตอบ:
Bias คือความแตกต่างระหว่างมูลค่าที่คาดหวังของตัวประมาณและมูลค่าที่แท้จริงที่ประมาณไว้ ตัวอย่างค่าเฉลี่ยตัวอย่างสำหรับตัวอย่างสุ่มอย่างง่าย (SRS) เป็นตัวประมาณค่าเฉลี่ยของค่าเฉลี่ยของประชากรเพราะถ้าคุณหาค่าเฉลี่ยของ SRS ที่เป็นไปได้ทั้งหมดแล้วหาค่าเฉลี่ยของค่าเฉลี่ยคุณจะได้ค่าเฉลี่ยประชากร (สำหรับ จำกัด ประชากรนี่เป็นแค่พีชคณิตเพื่อแสดงสิ่งนี้) แต่ถ้าเราใช้กลไกการสุ่มตัวอย่างที่เกี่ยวข้องกับค่าดังนั้นค่าเฉลี่ยอาจกลายเป็นแบบอคติลองนึกถึงตัวอย่างการโทรด้วยตัวเลขสุ่มที่ถามคำถามเกี่ยวกับรายได้
นอกจากนี้ยังมีตัวประมาณบางอย่างที่ลำเอียงตามธรรมชาติ ค่าเฉลี่ยที่ถูกตัดจะมีอคติสำหรับประชากร / การกระจายที่เบ้ ความแปรปรวนมาตรฐานคือเป็นกลางสำหรับ SRS ถ้าอย่างใดอย่างหนึ่งที่มีประชากรเฉลี่ยจะใช้กับตัวหารหรือค่าเฉลี่ยของกลุ่มตัวอย่างจะใช้กับตัวหารn - 1
นี่คือตัวอย่างง่ายๆโดยใช้ R เราสร้างกลุ่มตัวอย่างจากปกติที่มีค่าเฉลี่ย 0 และส่วนเบี่ยงเบนมาตรฐาน 1 จากนั้นคำนวณค่าเฉลี่ยความแปรปรวนและค่าเบี่ยงเบนมาตรฐานจากตัวอย่าง ขอให้สังเกตว่าใกล้ค่าเฉลี่ยและความแปรปรวนเป็นค่าจริง (ข้อผิดพลาดการสุ่มตัวอย่างหมายความว่าพวกเขาจะไม่แน่นอน) ตอนนี้เปรียบเทียบ SD เฉลี่ยมันเป็นตัวประมาณลำเอียง (แม้ว่าจะไม่ลำเอียงอย่างมหาศาล)
> tmp.data <- matrix( rnorm(10*1000000), ncol=10 )
> mean( apply(tmp.data, 1, mean) )
[1] 0.0001561002
> mean( apply(tmp.data, 1, var) )
[1] 1.000109
> mean( apply(tmp.data, 1, sd) )
[1] 0.9727121
ในการถดถอยเราสามารถประมาณค่าความเอนเอียงของความลาดชันได้ด้วยการถดถอยแบบขั้นตอน ตัวแปรมีแนวโน้มที่จะถูกเก็บไว้ในการถดถอยแบบขั้นตอนหากความชันโดยประมาณนั้นเพิ่มขึ้นจาก 0 และมีแนวโน้มที่จะลดลงถ้าใกล้ถึง 0 ดังนั้นนี่คือการสุ่มตัวอย่างแบบเอนเอียงและความลาดชันในแบบจำลองสุดท้ายจะมีแนวโน้มเพิ่มขึ้น จาก 0 มากกว่าความชันที่แท้จริง เทคนิคเช่นบ่วงบาศและสันเขาการถดถอยแบบไบอัสลาดไปทาง 0 เพื่อตอบโต้อคติการเลือกห่างจาก 0
อคติหมายความว่าค่าที่คาดหวังของตัวประมาณค่าไม่เท่ากับพารามิเตอร์ประชากร
โดยสังเขปในการวิเคราะห์การถดถอยนี่หมายความว่าการประมาณค่าพารามิเตอร์ใดค่าหนึ่งสูงหรือต่ำเกินไป อย่างไรก็ตามการประมาณการถดถอยกำลังสองน้อยที่สุดคือสีน้ำเงินซึ่งย่อมาจากตัวประมาณค่าแบบไม่เอนเอียงเชิงเส้นที่ดีที่สุด ในรูปแบบอื่น ๆ ของการถดถอยการประมาณค่าพารามิเตอร์อาจจะลำเอียง นี่อาจเป็นความคิดที่ดีเพราะมักจะมีการแลกเปลี่ยนระหว่างอคติและความแปรปรวน ตัวอย่างเช่นการถดถอยของริดจ์บางครั้งใช้เพื่อลดความแปรปรวนของการประมาณค่าเมื่อมีความเป็นคู่
ตัวอย่างง่ายๆอาจแสดงให้เห็นถึงสิ่งนี้ได้ดีกว่าแม้ว่าจะไม่ได้อยู่ในบริบทการถดถอย สมมติว่าคุณมีน้ำหนัก 150 ปอนด์ (ตรวจสอบในเครื่องชั่งที่มีคุณอยู่ในตะกร้าใบเดียวและกองน้ำหนักในตะกร้าใบอื่น) ตอนนี้คุณมีเครื่องชั่งน้ำหนักสองเครื่อง คุณชั่งน้ำหนักตัวเอง 5 ครั้งในแต่ละครั้ง
สเกล 1 ให้น้ำหนักของ 152, 151, 151.5, 150.5 และ 152
สเกล 2 ให้น้ำหนัก 145, 155, 154, 146 และ 150
สเกล 1 นั้นมีอคติ แต่มีความแปรปรวนต่ำกว่า น้ำหนักเฉลี่ยไม่ใช่น้ำหนักที่แท้จริงของคุณ สเกล 2 นั้นไม่เอนเอียง (ค่าเฉลี่ยคือ 150) แต่มีความแปรปรวนสูงกว่ามาก
ระดับไหนดีกว่า? ขึ้นอยู่กับสิ่งที่คุณต้องการให้เครื่องชั่งทำ
ในการวิเคราะห์การถดถอยเชิงเส้นอคติหมายถึงข้อผิดพลาดที่แนะนำโดยการประมาณปัญหาในชีวิตจริงซึ่งอาจมีความซับซ้อนโดยแบบจำลองที่ง่ายกว่ามาก ในแง่ง่ายคุณถือว่าเป็นโมเดลเชิงเส้นอย่างง่ายเช่น y * = (a *) x + b * ซึ่งในชีวิตจริงปัญหาทางธุรกิจอาจเป็น y = ax ^ 3 + bx ^ 2 + c
อาจกล่าวได้ว่าการทดสอบ MSE ที่คาดหวัง (ข้อผิดพลาดกำลังสองเฉลี่ย) จากปัญหาการถดถอยสามารถแยกย่อยได้ดังต่อไปนี้ E (y0 - f * (x0)) ^ 2 = Var (f * (x0)) + [Bias (f * (x0))] ^ 2 + Var (e)
f * -> รูปแบบการทำงานที่สันนิษฐานว่าสำหรับตัวแบบการถดถอยเชิงเส้น y0 -> ค่าการตอบสนองดั้งเดิมที่บันทึกในข้อมูลทดสอบ x0 -> ค่าตัวทำนายแบบดั้งเดิมที่บันทึกไว้ในข้อมูลการทดสอบ e -> ข้อผิดพลาดลดลงดังนั้นเป้าหมายคือการเลือกวิธีที่ดีที่สุด บรรลุความแปรปรวนต่ำและอคติต่ำ
หมายเหตุ: ข้อมูลเบื้องต้นเกี่ยวกับการเรียนรู้ทางสถิติโดย Trevor Hastie & Robert Tibshirani มีข้อมูลเชิงลึกที่ดีเกี่ยวกับหัวข้อนี้