ปล่อยค่าผิดปกติตาม“ 2.5 เท่า RMSE”


13

ในKahneman และ Deaton (2010)ผู้แต่งเขียนสิ่งต่อไปนี้:

การถดถอยนี้อธิบายถึง 37% ของความแปรปรวนพร้อมกับรูทข้อผิดพลาดกำลังสองเฉลี่ย (RMSE) เท่ากับ 0.67852 ในการกำจัดค่าผิดปกติและรายงานรายได้ที่ไม่น่าเชื่อถือเราได้ลดการสังเกตซึ่งค่าสัมบูรณ์ของความแตกต่างระหว่างรายได้จากบันทึกและการคาดการณ์เกิน 2.5 เท่าของ RMSE

นี่คือการปฏิบัติทั่วไปหรือไม่ สัญชาตญาณที่อยู่เบื้องหลังการทำเช่นนั้นคืออะไร? ดูเหมือนจะค่อนข้างแปลกที่จะกำหนดค่าผิดปกติโดยยึดตามแบบจำลองซึ่งอาจไม่ได้ระบุอย่างชัดเจนตั้งแต่แรก การกำหนดค่าผิดปกติไม่ควรอยู่บนพื้นฐานทางทฤษฎีสำหรับสิ่งที่มีค่าที่น่าเชื่อถือมากกว่าแบบจำลองของคุณทำนายค่าจริงได้ดีเพียงใด


: Daniel Kahneman, Angus Deaton (2010): รายได้สูงช่วยปรับปรุงการประเมินชีวิต แต่ไม่ใช่ความเป็นอยู่ที่ดีทางอารมณ์ การดำเนินการของ National Academy of Sciences ก.ย. 2010, 107 (38) 16489-16493; DOI: 10.1073 / pnas.1011492107


1
เมื่อคุณได้ให้ใบเสนอราคาจากกระดาษมักจะให้การอ้างอิงที่มีเป็นจำนวนหน้า
เบ็น - คืนสถานะโมนิก้า

7
ฉันไม่สามารถพูดได้ว่านี่เป็น 'การปฏิบัติทั่วไป' แต่ฉันหวังว่าจะไม่ การลบ 'ค่าผิดปกติ' โดยอัตโนมัติถือเป็นความคิดที่ไม่ดี บางทีรูปแบบหรือเกณฑ์การลบของคุณอาจไม่ดีบางทีอาจมีสิ่งใหม่ ๆ เกิดขึ้น (การเริ่มต้นของการชะลอตัวความเป็นไปได้ใหม่ที่ตื่นขึ้นมา) ที่คุณไม่ควรมองข้าม // มันแตกต่างกันถ้าคุณสามารถติดตามค่าที่น่าสงสัยกับข้อผิดพลาดในการป้อนข้อมูลหรือความล้มเหลวของอุปกรณ์หรือถ้าค่านั้นง่ายกว่าการทำชาร์ตที่ไร้สาระ (ชายร่างสูง 16'2 "ชายร่างสูง / 61 ชั่วโมง SFO-ORD) แต่ไม่ใช่เพราะมันไม่เหมาะกับแบบจำลองฉันรู้ว่าการเริ่มต้นทำงานมันพังแบบนั้น
รูซเซต

7
ความถูกต้องทางสถิติของวิธีการนี้สะท้อนให้เห็นจากจำนวนทศนิยมที่ไร้สาระที่รายงานสำหรับ RMSE
Frans Rodenburg

สิ่งนี้ให้ความรู้สึกเหมือนเป็นคำตอบที่คาดเดายาก / ยากสำหรับคำถามที่ฉันถามเมื่อไม่กี่เดือนที่ผ่านมา: stats.stackexchange.com/questions/390051/…
Adrian

คำตอบ:


30

เหตุผลในการทิ้งข้อมูลนี้มีการระบุไว้ในคำกล่าวอ้างถึง: เพื่อ "กำจัดค่าผิดปกติและรายงานรายได้ที่ไม่น่าเชื่อถือ" ความจริงที่ว่าพวกเขาอ้างถึงสิ่งเหล่านี้ทั้งสองร่วมกันหมายความว่าพวกเขายอมรับว่าอย่างน้อยบางส่วนของค่าผิดปกติของพวกเขาไม่ได้เป็นค่าที่ไม่น่าเชื่อและในกรณีใด ๆ พวกเขาไม่ให้เหตุผลว่าทำไมค่าที่มี "รายได้ค่านิยม โดยการทำเช่นนี้พวกเขาจะลบจุดข้อมูลอย่างมีประสิทธิภาพเนื่องจากส่วนที่เหลือสูงกว่าที่คาดไว้ในตัวแบบการถดถอย ดังที่ฉันได้กล่าวไว้ในคำตอบอื่นที่นี่นี่เท่ากับความต้องการความเป็นจริงเพื่อให้สอดคล้องกับสมมติฐานของคุณและไม่สนใจบางส่วนของความเป็นจริงที่ไม่สอดคล้องกับสมมติฐานเหล่านั้น

ไม่ว่าจะเป็นการปฏิบัติทั่วไปหรือไม่ก็ตามมันเป็นการปฏิบัติที่แย่มาก. มันเกิดขึ้นเพราะจุดข้อมูลที่อยู่ห่างไกลนั้นยากที่จะจัดการและนักวิเคราะห์ไม่เต็มใจที่จะสร้างแบบจำลองอย่างถูกต้อง (เช่นโดยใช้แบบจำลองที่ช่วยให้ความสามารถสูงขึ้นในแง่ของข้อผิดพลาด) ดังนั้นพวกเขาจึงลบส่วนของความเป็นจริง สอดคล้องกับความสามารถในการสร้างแบบจำลองทางสถิติ การปฏิบัตินี้ไม่เป็นที่พึงพอใจทางสถิติและนำไปสู่การอ้างถึงความแปรปรวนประมาทและความผิดปกติในระบบที่มีการประมาท ผู้เขียนรายงานนี้รายงานว่าพวกเขาลดลง 3.22% ของข้อมูลเนื่องจากการลบค่าผิดปกติเหล่านี้ (หน้า 16490) เนื่องจากจุดข้อมูลเหล่านี้ส่วนใหญ่จะเป็นรายได้ที่สูงมากทำให้เกิดข้อสงสัยอย่างมากเกี่ยวกับความสามารถในการสรุปที่แข็งแกร่งเกี่ยวกับผลกระทบของรายได้สูง (ซึ่งเป็นเป้าหมายของกระดาษของพวกเขา)


วิธีที่คุณกล้าวิพากษ์วิจารณ์Daniel Kahneman! มันเป็นประเด็นที่ดีมาก +1
ทิม

11
Kahneman เป็นนักจิตวิทยาที่ดีมากซึ่งหนังสือของฉันมีความสุขและพบว่าเป็นประโยชน์ พวกเขาแต่ละคนสามารถได้รับรางวัลโนเบลห้าสิบรางวัล - มันจะไม่เปลี่ยนความจริงที่ว่าการกำจัด "ค่าผิดปกติ" เป็นการปฏิบัติทางสถิติที่เลวร้าย
เบ็น - คืนสถานะโมนิก้า

3
ตามธรรมชาติฉันเห็นด้วยกับคุณ ฉันไม่คิดว่าจำเป็นต้องพูด
Nick Cox

1
@NickCox คุณหมายถึง"โนเบลอนุสรณ์รางวัล" : ฉันแน่ใจว่าคุณรู้ว่าโนเบลไม่ได้เป็นที่ยอมรับและไม่มีส่วนเกี่ยวข้องกับเขาเลย เห็นได้ชัดว่าชื่ออย่างเป็นทางการคือ "The Sveriges Riksbank Prize ด้านเศรษฐศาสตร์วิทยาศาสตร์ในความทรงจำของอัลเฟรดโนเบล"
อะมีบาพูดว่า Reinstate Monica

1
คุณแน่ใจฉันรู้และคุณถูกต้องแน่นอน EJMR ที่เชื่อถือได้เสมอเมื่อดำเนินการโพสต์นี้เกี่ยวกับฉัน "ไม่เขาจะไม่ชนะรางวัลโนเบล" ซึ่งหมายถึงรางวัลนั้น
Nick Cox
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.