“ ความลำเอียง” คืออะไร?


21

ฉันพยายามเข้าใจแนวคิดเรื่องความเอนเอียงในบริบทของการวิเคราะห์การถดถอยเชิงเส้น

  • นิยามทางคณิตศาสตร์ของอคติคืออะไร?

  • ลำเอียงคืออะไรและทำไม / อย่างไร?

  • ตัวอย่างที่แสดง?

คำตอบ:


28

Bias คือความแตกต่างระหว่างมูลค่าที่คาดหวังของตัวประมาณและมูลค่าที่แท้จริงที่ประมาณไว้ ตัวอย่างค่าเฉลี่ยตัวอย่างสำหรับตัวอย่างสุ่มอย่างง่าย (SRS) เป็นตัวประมาณค่าเฉลี่ยของค่าเฉลี่ยของประชากรเพราะถ้าคุณหาค่าเฉลี่ยของ SRS ที่เป็นไปได้ทั้งหมดแล้วหาค่าเฉลี่ยของค่าเฉลี่ยคุณจะได้ค่าเฉลี่ยประชากร (สำหรับ จำกัด ประชากรนี่เป็นแค่พีชคณิตเพื่อแสดงสิ่งนี้) แต่ถ้าเราใช้กลไกการสุ่มตัวอย่างที่เกี่ยวข้องกับค่าดังนั้นค่าเฉลี่ยอาจกลายเป็นแบบอคติลองนึกถึงตัวอย่างการโทรด้วยตัวเลขสุ่มที่ถามคำถามเกี่ยวกับรายได้

นอกจากนี้ยังมีตัวประมาณบางอย่างที่ลำเอียงตามธรรมชาติ ค่าเฉลี่ยที่ถูกตัดจะมีอคติสำหรับประชากร / การกระจายที่เบ้ ความแปรปรวนมาตรฐานคือเป็นกลางสำหรับ SRS ถ้าอย่างใดอย่างหนึ่งที่มีประชากรเฉลี่ยจะใช้กับตัวหารหรือค่าเฉลี่ยของกลุ่มตัวอย่างจะใช้กับตัวหารn - 1 nn-1

นี่คือตัวอย่างง่ายๆโดยใช้ R เราสร้างกลุ่มตัวอย่างจากปกติที่มีค่าเฉลี่ย 0 และส่วนเบี่ยงเบนมาตรฐาน 1 จากนั้นคำนวณค่าเฉลี่ยความแปรปรวนและค่าเบี่ยงเบนมาตรฐานจากตัวอย่าง ขอให้สังเกตว่าใกล้ค่าเฉลี่ยและความแปรปรวนเป็นค่าจริง (ข้อผิดพลาดการสุ่มตัวอย่างหมายความว่าพวกเขาจะไม่แน่นอน) ตอนนี้เปรียบเทียบ SD เฉลี่ยมันเป็นตัวประมาณลำเอียง (แม้ว่าจะไม่ลำเอียงอย่างมหาศาล)

> tmp.data <- matrix( rnorm(10*1000000), ncol=10 )
> mean( apply(tmp.data, 1, mean) )
[1] 0.0001561002
> mean( apply(tmp.data, 1, var) )
[1] 1.000109
> mean( apply(tmp.data, 1, sd) )
[1] 0.9727121

ในการถดถอยเราสามารถประมาณค่าความเอนเอียงของความลาดชันได้ด้วยการถดถอยแบบขั้นตอน ตัวแปรมีแนวโน้มที่จะถูกเก็บไว้ในการถดถอยแบบขั้นตอนหากความชันโดยประมาณนั้นเพิ่มขึ้นจาก 0 และมีแนวโน้มที่จะลดลงถ้าใกล้ถึง 0 ดังนั้นนี่คือการสุ่มตัวอย่างแบบเอนเอียงและความลาดชันในแบบจำลองสุดท้ายจะมีแนวโน้มเพิ่มขึ้น จาก 0 มากกว่าความชันที่แท้จริง เทคนิคเช่นบ่วงบาศและสันเขาการถดถอยแบบไบอัสลาดไปทาง 0 เพื่อตอบโต้อคติการเลือกห่างจาก 0



@cardinal Simple Random Sample
whuber

@whuber: ว้าว ในขณะที่ตัวย่อทำให้รู้สึกฉันไม่จำได้เจอมันในการตั้งค่าที่เป็นทางการมากขึ้น มีฟิลด์ย่อยหรือพื้นที่ที่ใช้ซึ่งเป็นจุดเริ่มต้น "มาตรฐาน" หรือไม่?
พระคาร์ดินัล


(+1) @ การแก้ไขของ whuber มีประโยชน์ในการชี้แจงคำตอบนี้
พระคาร์ดินัล

7

อคติหมายความว่าค่าที่คาดหวังของตัวประมาณค่าไม่เท่ากับพารามิเตอร์ประชากร

โดยสังเขปในการวิเคราะห์การถดถอยนี่หมายความว่าการประมาณค่าพารามิเตอร์ใดค่าหนึ่งสูงหรือต่ำเกินไป อย่างไรก็ตามการประมาณการถดถอยกำลังสองน้อยที่สุดคือสีน้ำเงินซึ่งย่อมาจากตัวประมาณค่าแบบไม่เอนเอียงเชิงเส้นที่ดีที่สุด ในรูปแบบอื่น ๆ ของการถดถอยการประมาณค่าพารามิเตอร์อาจจะลำเอียง นี่อาจเป็นความคิดที่ดีเพราะมักจะมีการแลกเปลี่ยนระหว่างอคติและความแปรปรวน ตัวอย่างเช่นการถดถอยของริดจ์บางครั้งใช้เพื่อลดความแปรปรวนของการประมาณค่าเมื่อมีความเป็นคู่

ตัวอย่างง่ายๆอาจแสดงให้เห็นถึงสิ่งนี้ได้ดีกว่าแม้ว่าจะไม่ได้อยู่ในบริบทการถดถอย สมมติว่าคุณมีน้ำหนัก 150 ปอนด์ (ตรวจสอบในเครื่องชั่งที่มีคุณอยู่ในตะกร้าใบเดียวและกองน้ำหนักในตะกร้าใบอื่น) ตอนนี้คุณมีเครื่องชั่งน้ำหนักสองเครื่อง คุณชั่งน้ำหนักตัวเอง 5 ครั้งในแต่ละครั้ง

สเกล 1 ให้น้ำหนักของ 152, 151, 151.5, 150.5 และ 152

สเกล 2 ให้น้ำหนัก 145, 155, 154, 146 และ 150

สเกล 1 นั้นมีอคติ แต่มีความแปรปรวนต่ำกว่า น้ำหนักเฉลี่ยไม่ใช่น้ำหนักที่แท้จริงของคุณ สเกล 2 นั้นไม่เอนเอียง (ค่าเฉลี่ยคือ 150) แต่มีความแปรปรวนสูงกว่ามาก

ระดับไหนดีกว่า? ขึ้นอยู่กับสิ่งที่คุณต้องการให้เครื่องชั่งทำ


1
แม้ว่าคำจำกัดความของอคตินั้นถูกต้องแล้ว แต่ฉันก็กลัวว่าตัวอย่างจะทำให้สับสนด้วยความไม่ถูกต้อง อคติเป็นทรัพย์สินของเป็นขั้นตอนทางสถิติ (ประมาณการ) ในขณะที่ความถูกต้องเป็นทรัพย์สินของเป็นกระบวนการวัด (-1)
whuber

1
@whuber: ใช่ฉันเห็นด้วยกับที่ และฉันก็ยังคิดว่าถึงอย่างนั้นมันก็จำเป็นที่จะต้องสร้างความแตกต่างระหว่างความคาดหวังทางคณิตศาสตร์และค่าเฉลี่ยตัวอย่างขณะที่มันเกี่ยวข้องกับอคติ
พระคาร์ดินัล

1
ไม่ฉันไม่ได้พยายามพูดอะไรเกี่ยวกับ "ความไม่ถูกต้อง" (ซึ่งยากแก่การนิยาม) แต่เกี่ยวกับ "ความแปรปรวน" สเกลหนึ่งไม่มีอคติส่วนสเกลอื่นมีความแปรปรวนต่ำ ฉันไม่ได้ใช้คำว่า "ถูกต้อง" หรือ "แม่นยำ" เครื่องชั่งที่มีแนวโน้มที่จะประเมินน้ำหนักของคุณสูงเกินไป (หรือต่ำเกินไป) จะลำเอียง
Peter Flom - Reinstate Monica

1
แต่ความรู้สึกของ "อคติ" นี้เป็นเพียงคำพ้องความหมายที่ไม่ถูกต้อง มันไม่เหมือนกับคำจำกัดความที่คุณให้ไว้ในบรรทัดแรก ยิ่งกว่านั้นเมื่อ @ cardinal ชี้ให้เห็นตัวอย่างก็จำกัดความคาดหวังไว้ด้วยค่าเฉลี่ยของตัวอย่างเฉพาะ
whuber

3
ฉันเห็นด้วยกับ @whuber ที่นี่ ในแง่ของความลำเอียงที่เหมาะสมที่ OP ถามมันไม่ใช่เครื่องชั่งที่เอนเอียงหรือไม่เอนเอียง แต่เป็นการประเมินน้ำหนักของคุณที่คุณได้รับจากการวัด
พระคาร์ดินัล

0

ในการวิเคราะห์การถดถอยเชิงเส้นอคติหมายถึงข้อผิดพลาดที่แนะนำโดยการประมาณปัญหาในชีวิตจริงซึ่งอาจมีความซับซ้อนโดยแบบจำลองที่ง่ายกว่ามาก ในแง่ง่ายคุณถือว่าเป็นโมเดลเชิงเส้นอย่างง่ายเช่น y * = (a *) x + b * ซึ่งในชีวิตจริงปัญหาทางธุรกิจอาจเป็น y = ax ^ 3 + bx ^ 2 + c

อาจกล่าวได้ว่าการทดสอบ MSE ที่คาดหวัง (ข้อผิดพลาดกำลังสองเฉลี่ย) จากปัญหาการถดถอยสามารถแยกย่อยได้ดังต่อไปนี้ E (y0 - f * (x0)) ^ 2 = Var (f * (x0)) + [Bias (f * (x0))] ^ 2 + Var (e)

f * -> รูปแบบการทำงานที่สันนิษฐานว่าสำหรับตัวแบบการถดถอยเชิงเส้น y0 -> ค่าการตอบสนองดั้งเดิมที่บันทึกในข้อมูลทดสอบ x0 -> ค่าตัวทำนายแบบดั้งเดิมที่บันทึกไว้ในข้อมูลการทดสอบ e -> ข้อผิดพลาดลดลงดังนั้นเป้าหมายคือการเลือกวิธีที่ดีที่สุด บรรลุความแปรปรวนต่ำและอคติต่ำ

หมายเหตุ: ข้อมูลเบื้องต้นเกี่ยวกับการเรียนรู้ทางสถิติโดย Trevor Hastie & Robert Tibshirani มีข้อมูลเชิงลึกที่ดีเกี่ยวกับหัวข้อนี้


3
สิ่งนี้มักถูกอ้างถึงโดยบางอย่างเช่น "ข้อผิดพลาดของข้อมูลจำเพาะผิดพลาดของโมเดล" เพื่อไม่ให้สับสนกับคำจำกัดความมาตรฐานของอคติที่ให้ในคำตอบที่ยอมรับ มิฉะนั้นก็จะเป็นไปไม่ได้ที่จะทำให้ความรู้สึกของ (ที่ถูกต้อง) ยืนยันว่า OLS เป็นเป็นกลางประมาณการของค่าสัมประสิทธิ์ของ regressors ที่
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.