การถดถอยของตัวต่อปริศนา


9

ในบท "ถดถอยไปสู่ค่าเฉลี่ย" ของ "การคิดเร็วและช้า" โดย Daniel Kahneman มีการแจกตัวอย่างและผู้อ่านจะต้องคาดการณ์ยอดขายของร้านค้าแต่ละแห่งที่กำหนดยอดขายโดยรวมและยอดขายจากปีที่แล้ว . เช่น (ตัวอย่างหนังสือมี 4 ร้านฉันใช้ 2 ที่นี่เพื่อความเรียบง่าย):

Store    2011    2012
1        100      ?
2        500      ?
Total    600     660

การคาดการณ์ที่ไร้เดียงสาจะอยู่ที่ 110 และ 550 สำหรับร้านค้า 1 และ 2 และ 10% สำหรับแต่ละร้าน อย่างไรก็ตามผู้เขียนอ้างว่าวิธีการที่ไร้เดียงสานี้ผิด มีโอกาสมากที่ร้านค้าที่มีประสิทธิภาพต่ำกว่าจะเพิ่มขึ้นมากกว่า 10% และร้านค้าที่มีประสิทธิภาพดีกว่าจะเพิ่มขึ้น (หรือลดลง) น้อยกว่า 10% ดังนั้นการคาดการณ์ที่ 115 (เพิ่มขึ้น 15%) และ 535 (เพิ่มขึ้น 7%) อาจจะ "ถูกต้อง" มากกว่าการคาดการณ์ที่ไร้เดียงสา

สิ่งที่ฉันไม่เข้าใจคือวิธีที่เราสามารถสรุปได้ว่ายอดขาย 100 ร้านค้า 1 เป็นร้านที่มีประสิทธิภาพต่ำกว่านั้นหรือไม่ บางทีอาจเป็นเพราะความแตกต่างของสถานที่ชุดเวลาที่แท้จริงของร้าน 1 และ 2 คือ 10 และ 550 และร้านค้า 1 มีปีที่ยอดเยี่ยมในปี 2554 และร้านค้า 2 มีปีที่เลวร้ายในปี 2554 การคาดการณ์การลดลงสำหรับร้านค้า 1 และเพิ่มขึ้นสำหรับร้านค้า 2

ฉันรู้ว่าไม่มีการให้ข้อมูลอนุกรมเวลาในตัวอย่างดั้งเดิม แต่ฉันรู้สึกว่า "การถดถอยของค่าเฉลี่ย" หมายถึงค่าเฉลี่ยตัดขวางดังนั้นข้อมูลอนุกรมเวลาจึงไม่สำคัญ ฉันเข้าใจผิดอะไร

คำตอบ:


8

ฉันบังเอิญอ่านหนังสือเล่มนั้น คุณคัดลอกข้อมูลสำคัญไม่เพียงพอ มันบอกว่า "ร้านค้าทั้งหมดมีขนาดและการเลือกสินค้าคล้ายคลึงกัน แต่ยอดขายของพวกเขาแตกต่างกันเนื่องจากสถานที่การแข่งขันและปัจจัยแบบสุ่ม" นั่นคือกุญแจสำคัญโดยเฉพาะอย่างยิ่งบิตสุดท้าย ปัจจัยสุ่มมีความจำเป็นสำหรับการถดถอยถึงค่าเฉลี่ยที่จะเกิดขึ้น (หากยอดขายเพิ่มขึ้นด้วยจำนวนคงที่จากนั้นกำไร 10% ที่กระจายไปทั่วร้านค้าจะเท่ากัน)


2
คุณกำลังบอกว่าการสันนิษฐานว่า "ร้านค้าทั้งหมดคล้ายคลึงกัน" หมายความว่าซีรีส์เวลาของร้านนั้นเหมือนกันหรือไม่? มิฉะนั้นร้านค้าที่เหมือนกันสองแห่งยังคงมีวิธีการที่แตกต่างกันมากเนื่องจากสถานที่ตั้ง

1
ฉันยอมรับว่ามันไม่ได้เป็นถ้อยคำที่ยิ่งใหญ่ที่สุดของปัญหา แต่มันชัดเจนกว่าสิ่งที่คุณมีในคำถามดั้งเดิมของคุณ
Peter Flom

2

ด้วยจุดข้อมูลน้อยดังนั้นคำตอบจะถูกกำหนดเกือบทั้งหมดโดยก่อนหน้า (หรือเทียบเท่าโดยนัย) หากผู้เขียนเคยเห็นข้อมูลประเภทนี้มาก่อนพวกเขาอาจมีเหตุผลที่ดีที่คิดว่าคำตอบของพวกเขามีแนวโน้มที่จะถูกต้องมากขึ้นเนื่องจากข้อสังเกตที่ผ่านมา ฉันคิดว่ามันเป็นการยืดให้แนะนำว่านี่เป็นตัวอย่างของการถดถอยถึงค่าเฉลี่ยอย่างน้อยก็ไม่ได้โดยไม่ต้องระบุข้อมูลเพิ่มเติม ตัวอย่างเช่นร้านค้าอยู่ในสถานที่ใกล้เคียงหรือไม่ หากพวกเขาอยู่และไม่มีความแตกต่างที่ชัดเจนระหว่างร้านค้าเราอาจรู้สึกเป็นธรรมในการคิดว่าพวกเขาเป็นส่วนหนึ่งของประชากรเทียบเคียงและเราสามารถคิดเกี่ยวกับการถดถอยของค่าเฉลี่ย หากมีความแตกต่างที่เห็นได้ชัดระหว่างร้านค้าที่สามารถอธิบายความแตกต่างอย่างเป็นระบบในการขายมันก็จะไม่สมเหตุสมผล


0

ฉันคิดว่าภาพประกอบที่ดีขึ้น (สมมุติ) อาจเป็นแบบนี้:

Store    2011    2012
1        100      ?
2        180      ?
3        190      ?
4        210      ?
5        235      ?
6        300      ?

ยกเว้นเหตุผลที่เป็นระบบเราคาดหวังว่านักแสดงที่เลวร้ายที่สุด (จากสาเหตุแบบสุ่ม) จะไม่เป็นเช่นนั้นอีก และสำหรับนักแสดงที่ดีที่สุด

ดังนั้นด้วยการเติบโตเฉลี่ย 10% ฉันคาดว่า # 1 ทำได้ดีกว่า 110 และ # 6 จะแย่กว่า 330

ฉันรู้สึกว่าส่วนที่แน่นอนคือข้อสมมติฐาน มันเป็นเรื่องยากมากที่ IMHO ที่ราคาของแพ็คจะเป็นเพียงความบังเอิญแบบสุ่มและไม่ใช่ความแตกต่างพื้นฐานบางอย่าง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.