ค่าเฉลี่ยความขัดแย้ง - สิ่งนี้เรียกว่าอะไร?


22

ฉันมีชุดข้อมูล พูดข้อสังเกตข้อและตัวแปรตัว:3103

obs  A   B   C
1    0   0   1
2    0   1   0
3    1   0   1
4    1   1   0
5    1   0   1
6    1   0   0
7    1   1   0
8    0   0   1
9    0   1   1
10   0   1   1

บอกว่าเป็นลูกค้าที่ได้ซื้อ ( ) หรือไม่ ( ) ในแต่ละหมวดหมู่ มีที่นั่นดังนั้นลูกค้าคนเหล่านี้ซื้อเป็นประเภทผลิตภัณฑ์โดยเฉลี่ย16 10 1.61010A, B, C16101.6

หมายเหตุลูกค้าสามารถซื้อมากกว่าหนึ่ง A, B และ C

ถ้าฉันดูเฉพาะผู้ที่ซื้อAมีลูกค้าที่ซื้อเป็นหมวดหมู่สินค้านั่นคือโดยเฉลี่ย9 1.8591.8

Bเป็นอีกครั้งหรือ1.81.89/51.8

Cคือ10/6=1.67

พวกเขาทั้งหมดข้างต้น1.6

ซึ่งดูเหมือนว่าแปลก ฉันเข้าใจ แต่ต้องอธิบายเรื่องนี้เพื่อทำการตลาดในสัปดาห์หน้าและต้องการความช่วยเหลือ!

สิ่งนี้เรียกว่าอะไร?

ฉันรู้ว่ามันไม่ใช่ความขัดแย้งของซิมป์สัน สำหรับฉันแล้วมันรู้สึกคล้ายกันในตรรกะกับปัญหา Monty Hall และความน่าจะเป็นแบบมีเงื่อนไข


2
โดยส่วนตัวฉันไม่รู้ว่าคุณกำลังพูดถึงอะไร ทำไมไม่สร้างตารางฉุกเฉินของ As, Bs และ Cs เพื่อตรวจสอบรูปแบบการซื้อข้าม?
Mike Hunter

3
เรามีรายงานที่บอกว่า "ลูกค้าที่ซื้อ C มีมูลค่ามากกว่าปกติ - 1.67 เทียบกับ 1.6" ซึ่งเป็นจริง แต่ A และ B มีมูลค่ามากกว่าค่าเฉลี่ยด้วยเช่นกัน คำถามที่หลีกเลี่ยงไม่ได้ซึ่งจะเกิดขึ้น "ลูกค้าทุกคนจะมีค่ามากกว่าค่าเฉลี่ยได้อย่างไร"
James Adams

3
ฉันคิดว่าจิ๊กซอว์ของเขาคือมันดูเหมือนทะเลสาบ Wobegonที่ทุกคนอยู่เหนือค่าเฉลี่ย: P Letเป็นจำนวนหมวดหมู่ / รายการที่ลูกค้าซื้อ ให้ ,และเป็นตัวชี้วัดสำหรับการซื้อในหมวด A, B และ C ตามลำดับ ,และในขณะที่A B C E [ X A ] = 1.8 E [ X B ] = 1.8 E [ X C ] = 1.67 E [ X ] = 1.6XABCE[X|A]=1.8E[X|B]=1.8E[X|C]=1.67E[X]=1.6
Matthew Gunn

12
คุณอาจต้องการคิดในแง่ของชุดประกอบและไดอะแกรมเวนน์ ชุด "ลูกค้าที่ซื้อ A" และ "ลูกค้าที่ไม่ซื้อ A" นั้นไม่ทับซ้อนกัน แต่ชุดที่คุณระบุไว้ในคำถามของคุณทับซ้อนกัน คุณสามารถคำนวณค่าเฉลี่ยโดยรวมเป็น (ถ่วงน้ำหนัก) เฉลี่ยของค่าเฉลี่ยเซตเท่านั้นถ้าย่อยรูปแบบพาร์ทิชัน
GeoMatt22

4
สิ่งนี้คล้ายกับภาพลวงตาของคนส่วนใหญ่อย่างหลวม ๆหรือเปล่า? ในทำนองเดียวกับที่บุคคลใดบุคคลหนึ่งมีแนวโน้มที่จะเชื่อมต่อกับ super networker ประเภทการซื้อใด ๆ มีแนวโน้มที่จะมีผู้ซื้อระดับสูงหรือไม่ (ฉันกำลังโทรหาคนที่ใช้เครือข่ายระดับสูงซึ่งเชื่อมต่อกับคนจำนวนมากและเป็นคนที่ซื้อสิ่งที่แตกต่างกันมากมาย)
Matthew Gunn

คำตอบ:


28

ค่าเฉลี่ยของทุกหมวดหมู่ย่อยอาจสูงกว่าค่าเฉลี่ยโดยรวมหากหมวดหมู่ย่อยทับซ้อนกับลูกค้ารายใหญ่

ตัวอย่างง่ายๆที่จะได้รับสัญชาติญาณ:

  • ให้เป็นตัวบ่งชี้ว่าแต่ละคนซื้อสินค้าในหมวด AA
  • ให้เป็นตัวบ่งชี้ว่าบุคคลซื้อสินค้าในหมวด B หรือไม่B
  • ให้เป็นจำนวนรายการที่ซื้อX=A+B

คนABผม10ผมผม01ผมผมผม11

ชุดของบุคคลที่จริงทับซ้อนกับชุดของบุคคลที่Bเป็นจริง พวกมันไม่ได้แยกกันAB

จากนั้นในขณะที่E [ X A ] = 1.5และE [ X B ] = 1.5E[X]1.33E[X|A]=1.5E[X|B]=1.5

ข้อความที่จะเป็นจริงคือ:

P(A)E[X|A]+P(B)E[X|B]-P(AB)E[X|AB]=E[X]

231.5+231.5-132=1.3333

คุณไม่สามารถคำนวณเนื่องจากชุดAและBทับซ้อนกันนิพจน์นับจำนวนคนที่ซื้อทั้งรายการAและB !P(A)E[X|A]+P(B)E[X|B]ABAB

ชื่อภาพลวงตา / บุคคลที่ผิดธรรมดา?

ฉันขอเถียงว่ามันเกี่ยวข้องกับภาพลวงตาส่วนใหญ่ที่ขัดกันในเครือข่ายสังคมออนไลน์

คุณอาจมีเพื่อนคนเดียวที่เครือข่าย / เพื่อนทุกคน คนนั้นอาจจะเป็นหนึ่งในล้านโดยรวม แต่เขาจะเป็นหนึ่งของแต่ละบุคคลของเพื่อนk

ในทำนองเดียวกันคุณมี 1 จาก 3 ที่นี่ซื้อทั้งประเภท A และ B แต่ภายในประเภท A หรือ B ทั้ง 1 ใน 2 ผู้ซื้อคือผู้ซื้อระดับสูง

กรณีที่รุนแรง:

มาสร้างตั๋วล็อตโต้ชุดกัน ชุดทุกๆS ฉันรวมถึงตั๋วสองใบ: สูญเสียตั๋วฉันและตั๋วคพ็อตที่ชนะnSผมผม

เงินที่ได้มาโดยเฉลี่ยในทุกชุดเป็นแล้วJSผมโดยที่Jคือแจ็คพอต ค่าเฉลี่ยของแต่ละประเภทคือWAYสูงกว่าเงินรางวัลเฉลี่ยต่อตั๋วโดยรวมJJ2J 1Jn+1

มันเป็นแนวคิดแบบไดนามิกเช่นเดียวกับกรณีการขาย ทุกเซตรวมตั๋วแจ็คพอตในลักษณะเดียวกับที่ทุกหมวดหมู่ A, B หรือ C รวมถึงผู้ซื้อจำนวนมากSผม

จุดสำคัญที่สุดของฉันคือสัญชาตญาณที่ยึดตามชุดที่แยกออกจากกันพาร์ทิชันเต็มรูปแบบของพื้นที่ตัวอย่างไม่ได้ดำเนินการกับชุดของชุดที่ทับซ้อนกัน หากคุณกำหนดประเภทที่ทับซ้อนกันทุกหมวดหมู่อาจสูงกว่าค่าเฉลี่ย

หากคุณแบ่งพื้นที่ตัวอย่างและเงื่อนไขเป็นชุด disjoint กลุ่มจะต้องเฉลี่ยกับค่าเฉลี่ยโดยรวม แต่นั่นไม่ใช่ความจริงสำหรับชุดที่ทับซ้อนกัน


3
ขอบคุณ! ฉันคิดว่าการนับซ้ำเป็นกุญแจสำคัญในการอธิบาย ฉันไม่คิดว่านี่จะเป็นผลลัพธ์ของค่าที่เกินจริงเล็กน้อย ชุดข้อมูลตัวอย่างของฉันด้านบนค่อนข้างธรรมดาและเอฟเฟกต์ "ทุกกลุ่มที่สูงกว่าค่าเฉลี่ย" ยังคงเกิดขึ้น ฉันเดาว่ามันจะเกิดขึ้นในกรณีส่วนใหญ่ เพิ่งสงสัยว่ามันมีชื่อหรือตัวอย่างก่อนหน้านี้
James Adams

คำอธิบายนี้จะไม่ถูกระงับหาก data @JamesAdams กำลังวิเคราะห์ข้อบกพร่อง ฉันกำลังยืนยันว่ามันเป็น คุณไม่สามารถมีหมวดหมู่ A, B และ C ที่เป็นเอกสิทธิ์เฉพาะบุคคลและสมบูรณ์ซึ่งค่าเฉลี่ยของกลุ่มสูงกว่าค่าเฉลี่ยของทั้ง 3 กลุ่มที่นำมารวมกันโดยไม่มีการละเมิดสมมติฐานพื้นฐานของการวิเคราะห์ข้อมูล ในกรณีของคุณเป็นไปได้มากว่าตัวหารสำหรับค่าเฉลี่ยโดยรวมนั้นแตกต่างกัน (เช่นมีผู้ตอบแบบสอบถามมากขึ้น) จากค่าที่ใช้ในการประมาณค่าเฉลี่ยสำหรับ A, B และ C
Mike Hunter

2
@Dohnson แน่นอนว่าคุณถูกต้องถ้าตั้งค่า A, B และ C พาร์ติชันพื้นที่ตัวอย่าง การอ่านของฉันของคำถามและจัดมาให้ "ข้อมูล" (สิ่งที่เป็น) คือ A, B และ C มีความทับซ้อนกันชุด ถ้า A, B และ C ทับกันแล้วค่าเฉลี่ยของกลุ่มทั้งหมดอาจสูงกว่าค่าเฉลี่ยโดยรวม (ซึ่งเป็นจุดที่คำตอบของฉัน; ชุดทับซ้อนกับลูกค้าที่ใหญ่ที่สุด!) ไม่มีสิ่งใดที่ OP ได้กล่าวถึงไม่สอดคล้องภายใน เครื่องตรวจจับ "เรากำลังได้รับข้อมูล BS" ของคุณอาจจะดีกว่าของฉันและฉันยอมรับว่าเป็นสิ่งสำคัญเสมอที่จะถามคำถามที่สำคัญเกี่ยวกับความถูกต้องของข้อมูล / หมายเลข
Matthew Gunn

ใช่พวกเขาเป็นชุดที่ทับซ้อนกัน ชุดข้อมูลของฉันคือลูกค้านับล้านและ 12 หมวดหมู่ เมื่อฉันเห็นค่าเฉลี่ยของฉันทั้งหมดสูงกว่าค่าเฉลี่ยโดยรวมฉันคิดว่ามันดูแปลก แต่อธิบายได้ ฉันรวบรวมตัวอย่างชุดของ 10 obs และ 3 หมวดหมู่เพื่อดู ฉันเพิ่งกระจัดกระจาย 1s และ 0s ตรงนี้และมันก็ออกมาเหมือนกัน ฉันสงสัยว่าสิ่งนี้เกิดขึ้นกับชุดข้อมูลส่วนใหญ่ที่คำนวณค่าเฉลี่ยประเภทนี้ @Djohnson ตัวอย่างของฉันด้านบนที่ฉันใช้ 10 เป็นตัวหารสำหรับค่าเฉลี่ยโดยรวม 5 สำหรับ As, 5 สำหรับ Bs, 6 สำหรับ Cs คุณช่วยบอกฉันได้ไหมว่าฉันกำลังละเมิดตัวอย่างนี้?
James Adams

'10' หมายถึงอะไร สุทธิของผู้ตอบแบบสอบถามใน 3 หมวดหมู่? จะเกิดอะไรขึ้นกับค่าเฉลี่ยหากคุณใช้ตัวหารเดียวกันสำหรับทุกคน ควรคืนค่าเฉลี่ยที่ผันผวนรอบค่าเฉลี่ยที่ยิ่งใหญ่
Mike Hunter

10

ฉันจะเรียกสิ่งนี้ว่าขนาดความขัดแย้งในครอบครัวหรือบางสิ่งที่คล้ายกัน

สมมติว่าตัวอย่างง่าย ๆ ทุกคนมีหุ้นส่วนหนึ่งคนและมีลูกที่ปัวซองกระจายจำนวนด้วยพารามิเตอร์ :2

  • จำนวนเด็กโดยเฉลี่ยต่อคนจะเท่ากับ2
  • จำนวนเด็กโดยเฉลี่ยต่อคนที่มีเด็กจะเท่ากับ21-อี-22.313
  • ขนาดกลุ่มพี่น้องเฉลี่ยสำหรับแต่ละคน (นับพี่น้องของพวกเขาและตัวเอง) จะเป็น3

ตัวเลขประชากรและแบบสำรวจที่แท้จริงจะสร้างตัวเลขต่างกัน

ความขัดแย้งที่เห็นได้ชัดคือขนาดเฉลี่ยของกลุ่มพี่น้องของแต่ละบุคคลมีขนาดใหญ่กว่าจำนวนเด็กโดยเฉลี่ยต่อครอบครัว ด้วยพลวัตประชากรที่มั่นคงผู้คนมักจะมีลูกโดยเฉลี่ยน้อยกว่าพ่อแม่ของพวกเขา

คำอธิบายคือไม่ว่าจะถูกนำไปเฉลี่ยโดยผู้ปกครองและครอบครัวหรือพี่น้อง: มีการใช้น้ำหนักที่แตกต่างกันกับครอบครัวใหญ่ ในตัวอย่างของคุณมีความแตกต่างระหว่างน้ำหนักของแต่ละบุคคลหรือโดยการซื้อ ค่าเฉลี่ยตามเงื่อนไขของคุณถูกผลักดันโดยข้อเท็จจริงที่ว่าคุณมีเงื่อนไขในการซื้อที่เฉพาะเจาะจง


8

คำตอบอื่น ๆ กำลังคิดมากว่าเกิดอะไรขึ้น สมมติว่ามีหนึ่งผลิตภัณฑ์และสองลูกค้า หนึ่งซื้อผลิตภัณฑ์ (หนึ่งครั้ง) และหนึ่งไม่ได้ จำนวนเฉลี่ยของผลิตภัณฑ์ที่ซื้อคือ 0.5 แต่ถ้าคุณดูที่ลูกค้าที่ซื้อผลิตภัณฑ์เท่านั้นค่าเฉลี่ยจะเพิ่มขึ้นเป็น 1

ดูเหมือนว่าฉันจะไม่ได้ขัดหรือแย้งกับฉัน ปรับอากาศในการซื้อสินค้าโดยทั่วไปจะเพิ่มจำนวนเฉลี่ยของผลิตภัณฑ์ที่ซื้อ


เผง สมมติว่าการซื้อใน 3 หมวดหมู่นั้นไม่มีความสัมพันธ์กันอย่างมากสิ่งที่คุณทำคือการคำนวณค่าเฉลี่ยหลังจากเพิ่มอัตราการซื้อเป็น 100% ในประเภทใดหมวดหมู่หนึ่ง มันอาจจะให้ข้อมูลมากกว่าเพื่อเปรียบเทียบเช่น อัตราการซื้อโดยเฉลี่ยในหมวดหมู่ B และ C: a) ในกลุ่มลูกค้าทั้งหมด (11/20) b) ในกลุ่มที่ซื้อ A (4/10) ขึ้นอยู่กับสิ่งที่คุณพยายามแสดง / ค้นหาฉันเดา
konrad

2

นี่ไม่ใช่แค่ความสับสน "ค่าเฉลี่ยของค่าเฉลี่ย" (เช่นคำถาม stackexchange ก่อนหน้า ) ที่ปลอมตัวหรือไม่ สิ่งล่อใจของคุณดูเหมือนจะเป็นว่าค่าเฉลี่ยตัวอย่างควรจบลงด้วยค่าเฉลี่ยของประชากรโดยเฉลี่ย แต่สิ่งนี้จะเกิดขึ้นน้อยมาก

ใน "ค่าเฉลี่ยของค่าเฉลี่ย" แบบคลาสสิกบางคนพบค่าเฉลี่ยของเซตย่อยที่ไม่เกิดร่วมกันซึ่งกันและกันและจากนั้นมีความงุนงงว่าค่าเหล่านี้ไม่ได้เฉลี่ยกับค่าเฉลี่ยของประชากร วิธีเดียวที่ค่าเฉลี่ยนี้เป็นไปได้ก็คือถ้าชุดย่อยที่ไม่ทับซ้อนกันมีขนาดเท่ากัน มิฉะนั้นคุณจะต้องใช้ค่าเฉลี่ยถ่วงน้ำหนัก

ปัญหาของคุณซับซ้อนกว่าค่าเฉลี่ยความสับสนแบบดั้งเดิมโดยการเซ็ตย่อยที่ซ้อนทับกัน แต่ดูเหมือนว่าฉันจะเป็นความผิดพลาดแบบคลาสสิกกับการบิด ด้วยชุดย่อยที่ทับซ้อนกันมันยิ่งยากที่จะจบลงด้วยค่าเฉลี่ยตัวอย่างที่เฉลี่ยกับค่าเฉลี่ยของประชากร

ในตัวอย่างของคุณเนื่องจากผู้ใช้ที่ปรากฏในหลาย ๆ ตัวอย่าง (และซื้อหลาย ๆ อย่าง) จะเพิ่มค่าเฉลี่ยเหล่านี้ โดยทั่วไปคุณจะนับผู้ใช้จ่ายรายใหญ่หลาย ๆ ครั้งในขณะที่คนประหยัดที่ซื้อสินค้าเพียงรายการเดียวจะได้รับเพียงครั้งเดียว นี่คือสาเหตุที่ชุดย่อยของคุณมีค่าสูงกว่าค่าเฉลี่ย แต่ฉันคิดว่านี่เป็นเพียงปัญหา "ค่าเฉลี่ย"

นอกจากนี้คุณยังสามารถสร้างชุดย่อยอื่น ๆ ทุกประเภทจากข้อมูลของคุณที่ค่าเฉลี่ยกลุ่มตัวอย่างใช้กับค่าที่แตกต่างกัน ตัวอย่างเช่นลองเซ็ตย่อยคล้ายกับเซ็ตย่อยของคุณ หากคุณนำกลุ่มย่อยของผู้ที่ไม่ได้ซื้อ A คุณจะได้รับค่าเฉลี่ย 7/5 = 1.4 รายการ ด้วยชุดย่อยที่ไม่ได้ซื้อ B คุณจะได้รับ 1.4 รายการโดยเฉลี่ย ผู้ที่ไม่ได้ซื้อ C ซื้อเฉลี่ย 1.5 รายการ ทั้งหมดนี้อยู่ต่ำกว่าค่าเฉลี่ยประชากร 1.6 รายการ / ลูกค้า ด้วยชุดข้อมูลที่ถูกต้องและชุดย่อยที่ถูกต้องคุณสามารถท้ายด้วยชุดย่อยที่ทับซ้อนกันซึ่งค่าเฉลี่ยเฉลี่ยกับค่าเฉลี่ยประชากร อย่างไรก็ตามนี่จะเป็นเรื่องแปลกในแอปพลิเคชันทั่วไป

มันเป็นแค่ฉันหรือว่าคำว่าค่าเฉลี่ยตอนนี้ดูแปลก ๆ หลังจากซ้ำหลายครั้ง ... หวังว่าคำตอบของฉันจะเป็นประโยชน์และขออภัยถ้าฉันทำลายคำเฉลี่ยสำหรับคุณ


ขอบคุณ! ความคิดเห็นเกี่ยวกับพาร์ทิชันขนาดเดียวกันที่ไม่ได้ซ้อนทับกันได้อธิบายไว้ในใจของฉัน ฉันหวังว่าเมื่อฉันนำเสนอตัวเลขเหล่านี้ฉันสามารถพูดบางอย่างเช่น "ค่าเฉลี่ยหมวดหมู่ทั้งหมดสูงกว่าค่าเฉลี่ยโดยรวม แต่นั่นคือ Blahblah บุคคลที่ผิดธรรมดา" เช่นเมื่อคุณพูดว่า "Simpson's Paradox !, Ivy League Sexism!" แล้ววิ่งออกจากห้อง (คุณทำแบบนั้นบางครั้งก็ไม่ใช่คุณ?) ชอบบอกพวกเขาว่า "มันเป็นเพราะสิ่งเหล่านี้เป็นชุดย่อยที่มีขนาดต่างกัน" แต่อย่าคิดว่ามันจะลงจอด!
James Adams

1
ฮ่าฮ่ายุติธรรมพอ ฉันไม่ได้รับบริบททั้งหมดมาก่อน - ฉันเป็นนักเรียนฟิสิกส์ดาราศาสตร์ฉันจึงไม่คุ้นเคยกับบริบทมากนัก คุณสามารถพูดอะไรบางอย่างสั้น ๆ ถึงผลกระทบของ "ค่าเฉลี่ยชุดย่อยทั้งหมดสูงกว่าค่าเฉลี่ยโดยรวมเพราะวิธีที่เราทำชุดย่อยทำให้คุณมีค่ามากขึ้น" ฉันจะไม่พูดถึงชื่อเฉลี่ยโดยเฉลี่ยเพราะไม่ใช่ทุกอย่างที่เป็นที่รู้จักกันดีและกรณีของคุณก็เป็นลักษณะทั่วไป ฉันยังพยายามค้นหาคำพ้องความหมายเพื่อแทนที่หมวดหมู่คำ - โดยทั่วไปฉันเห็นคำว่าหมายถึงชุดย่อยพิเศษที่ไม่เกิดร่วมกัน
tbell

Semantic Satiationเป็นปรากฏการณ์ทางจิตวิทยาที่ทำให้เกิดการซ้ำคำหรือวลีที่จะสูญเสียความหมายชั่วคราวสำหรับผู้ฟังซึ่งจากนั้นจะรับรู้คำพูดเป็นเสียงที่ไม่มีความหมายซ้ำแล้วซ้ำอีก
Patrick

1

เนื่องจากปัญหาคือ " ฉันเข้าใจ แต่ต้องอธิบายเรื่องนี้เพื่อการตลาด " OP ดูเหมือนจะเกี่ยวข้องกับการที่คนธรรมดาจะตีความข้อเท็จจริงเหล่านี้ - (ไม่ว่าข้อเท็จจริงจะเป็นความจริงหรือจะแสดงให้เห็นว่าพวกเขาเป็นอย่างไร) คำถามอ้างอิงถึง 10 หมวดหมู่ผลิตภัณฑ์ (AJ) ดังนั้นตัวอย่างนี้จะเป็นอย่างไร:

[ในการพบปะกับกลุ่มการตลาด]
OP : อย่างที่คุณเห็นที่นี่ลูกค้าที่ซื้อ A, B และ C นั้นมีค่ามากกว่าค่าเฉลี่ย
คนธรรมดา : เดี๋ยวก่อน! ทุกคนจะสูงกว่าค่าเฉลี่ยได้อย่างไร
OP : คำถามที่ดี สไลด์นี้เน้นไปที่ลูกค้าของ A, B และ C แต่มีกลุ่มอื่นที่มีประสิทธิภาพต่ำและไม่แสดง ตัวอย่างเช่นลูกค้าประเภท D และ G แต่ละคนมีค่าเฉลี่ยประมาณครึ่งหนึ่ง

สิ่งนี้ควรระงับ bs-alarm ภายในของทุกคนเกี่ยวกับ 'ทุกอย่างสูงกว่าค่าเฉลี่ย'


นี่ไม่ใช่วิธีตอบคำถาม
Michael R. Chernick

คำถามของเขาได้รับคำตอบแล้ว แต่ไม่มีใครตอบปัญหาของเขา
Patrick

ความคิดเห็นของฉันเกี่ยวข้องกับคำตอบของ Patrick เท่านั้น
Michael R. Chernick

ฉันไม่เห็นกฎใด ๆ กับรูปแบบการตอบรับที่แตกต่างกัน การรายงานการสนทนาและการสนทนา (จริงหรือที่จินตนาการ) เป็นวิธีคิดที่เคารพเวลาผ่านปัญหาจากโสกราตีสเป็นต้นไป (และต่อหน้าเขาสำหรับสิ่งที่ฉันรู้ทั้งหมด)
Nick Cox

แต่คำอธิบายนั้นผิดจริง ๆ แม้ว่าจะไม่มีหมวดหมู่เพิ่มเติม (DJ) การสังเกตก็ยังคงเป็นจริง: ค่าเฉลี่ยของชุดย่อยที่ทับซ้อนกันสามารถสูงกว่าค่าเฉลี่ยของเซตทั้งหมดได้แม้ว่าเซตย่อยจะครอบคลุมทั้งชุดก็ตาม
isarandi

0

ละเว้นคำตอบอื่น ๆ ที่นี่ อันที่จริงนี่ไม่ใช่ความขัดแย้งเลย ปัญหาที่เกิดขึ้นจริงที่นี่ที่ทุกคนดูเหมือนจะไม่สนใจคือคุณเข้าใจผิดว่าน่าจะเป็นที่คุณกำลังดู ในความเป็นจริงมีค่าเฉลี่ยและสถิติที่แตกต่างกันสองแบบในการเล่นที่นี่ซึ่งทั้งคู่มีการใช้และการตีความในตัวอย่างที่คุณเสนอ (การตลาด)!

ก่อนอื่นมีจำนวนเฉลี่ยของผลิตภัณฑ์ที่ซื้อต่อลูกค้า โดยเฉลี่ยแล้วลูกค้าหนึ่งรายซื้อ 1.6 รายการ แน่นอนว่าลูกค้าไม่สามารถทำได้ แต่ 0.6 ของผลิตภัณฑ์ (สมมติว่าไม่ใช่สิ่งที่เหมือนข้าวหรือธัญพืชที่มีการวัดอย่างต่อเนื่องที่เกี่ยวข้อง)

ประการที่สองมีจำนวนลูกค้าโดยเฉลี่ยที่ซื้อผลิตภัณฑ์หนึ่ง ๆ ฟังดูแปลก ๆ ใช่มั้ย โดยเฉลี่ยแล้วผลิตภัณฑ์มี 5.33333333 ... ลูกค้าที่ซื้อมัน สิ่งนี้แตกต่างกัน สิ่งที่เรากำลังอธิบายที่นี่ไม่ได้เป็นจำนวนผลิตภัณฑ์ที่ซื้อ (มีเพียงสามของพวกเขา!) แต่จำนวนคนที่ซื้อผลิตภัณฑ์ดังกล่าวจริง

ลองนึกถึงค่าทั้งสองด้วยวิธีนี้: ค่าสองค่านี้จะแสดงถึงอะไรหากมีลูกค้าเพียงรายเดียวหรือผลิตภัณฑ์เดียวเท่านั้น ท้ายที่สุดค่าเฉลี่ยของจุดข้อมูลเดียวก็คือจุดข้อมูลที่กำหนด

หรือดีกว่ายังคิดว่าแผนภูมิราวกับว่ามันให้จำนวนเงินที่คุณใช้ในการซื้อผลิตภัณฑ์ เห็นได้ชัดว่าจำนวนเฉลี่ยที่ใช้โดยลูกค้ารายบุคคลจะน้อยกว่าจำนวนเงินที่ทำโดยเฉลี่ยโดยผลิตภัณฑ์ที่จัดทำโดย บริษัท ใหญ่ ๆ (หรือแม้แต่ธุรกิจขนาดเล็ก) ฉันแน่ใจว่าคุณสามารถคิดวิธีที่ดีในการใช้ค่าทั้งสองเมื่อพูดถึงความเป็นอยู่ที่ดีของ บริษัท

เมื่อคุณไปอธิบายเรื่องนี้กับเจ้าหน้าที่การตลาดอธิบายให้พวกเขาฟังอย่างที่ฉันพูด มันไม่ใช่ความขัดแย้ง มันเป็นเพียงสถิติที่แตกต่างอย่างสิ้นเชิง ปัญหาเดียวที่นี่คือการสังเกตว่าในความเป็นจริงแล้วมีสองวิธีที่แตกต่างกันในการอ่านแผนภูมิ (เช่นจำนวนคนที่ซื้อต่อผลิตภัณฑ์เทียบกับจำนวนผลิตภัณฑ์ที่ซื้อต่อคน)

tl; dr สิ่งแรกที่คุณอธิบายคือจำนวนเฉลี่ยที่ลูกค้ารายบุคคลยินดีจ่ายเพื่อซื้อผลิตภัณฑ์ของคุณ ประการที่สองคือความต้องการเฉลี่ยสำหรับผลิตภัณฑ์ที่กำหนดโดยสาธารณะ ฉันแน่ใจว่าคุณสามารถเห็นได้ในขณะนี้ว่าทำไมทั้งสองไม่แน่นอนเหมือนกัน การเปรียบเทียบพวกมันจะให้ข้อมูลขยะกับคุณ


แก้ไข

มันจะปรากฏคำถามที่ถามจริงเกี่ยวกับเงินเฉลี่ยที่ใช้จ่ายโดยลูกค้าที่ซื้อสินค้า a, b หรือ c Alright นี่เป็นเพียงข้อผิดพลาดในการคำนวณ ฉันจะไม่เรียกสิ่งนี้ว่าสิ่งที่ขัดแย้งกัน มันเป็นแค่ส่วนที่บอบบาง

ดูคอลัมน์ของคุณ มีคนที่แชร์ระหว่างคอลัมน์ สมมติว่าคุณทำค่าเฉลี่ยถ่วงน้ำหนักที่เหมาะสม คุณยังคงเพิ่มผู้คนสองครั้ง ซึ่งหมายความว่าค่าเฉลี่ยจะมีคนพิเศษที่มีค่ามากกว่าหรือเท่ากับ 2 ทีนี้คุณเฉลี่ยอะไร มันคือ 1.6! ในสาระสำคัญค่าเฉลี่ยของคุณมีลักษณะเช่นนี้:

Σผม=0nโวลต์aล.ยูอีOPอีRsโอnผม* * * *โวลต์aล.ยูอีOPอีRsโอnผมn

นั่นไม่ใช่สูตรที่ถูกต้องแน่นอน มันเป็นค่าเฉลี่ยถ่วงน้ำหนัก แต่สมมติว่ามีความพิเศษเฉพาะตัวซึ่งเป็นวิธีที่คุณจะปรับตัวเพื่อให้ได้ค่าเฉลี่ยที่แท้จริงในสถานการณ์ของคุณ

Σผม=0nnยูม.อีROPอีโอพีล.อีBยูYผมnก.ผม* * * *aโวลต์อีRaก.อีSพีอีnเสื้อBYPอีRsโอnBยูYผมnก.ผมn

วิธีใดก็ตามที่คุณจะได้รับค่าเฉลี่ย messed ความผิดพลาดประการหนึ่งคือการเพิกเฉยต่อความต้องการค่าเฉลี่ยถ่วงน้ำหนักเนื่องจากหมวดหมู่หนึ่งหมวดหมู่มี "น้ำหนัก" ที่มากขึ้นในแง่ของค่าเฉลี่ย มันเหมือนความหนาแน่น ค่าหนึ่งคือความหนาแน่นของผู้คน ปัญหาอื่น ๆ คือการเพิ่มซ้ำซึ่งจะบิดเบือนค่าเฉลี่ย ฉันไม่ได้เรียกว่า "ความขัดแย้ง" อย่างใดอย่างหนึ่ง เมื่อฉันเห็นสิ่งที่คุณกำลังทำดูเหมือนจะชัดเจนว่าทำไมมันไม่ทำงาน ค่าเฉลี่ยน้ำหนักค่อนข้างอธิบายตัวเองสำหรับความต้องการและฉันคิดว่าตอนนี้คุณเห็นว่าคุณเพิ่มคุณค่าหลายครั้ง ... ที่ไม่สามารถทำงานได้ โดยทั่วไปคุณหาค่าเฉลี่ยของกำลังสองของค่าของพวกมัน


ฉันไม่คิดว่าเป็นกรณีนี้ ฉันไม่สนใจที่นี่ในจำนวนผู้ที่ซื้อผลิตภัณฑ์เฉพาะ ฉันสนใจในจำนวนผลิตภัณฑ์ทั้งหมดที่ลูกค้าซื้อเนื่องจากพวกเขาซื้อ A.
James Adams

@JamesAdams เอาล่ะยุติธรรมพอ ในกรณีนี้ปัญหาจะยิ่งสำคัญมากขึ้น คุณกำลังหาค่าเฉลี่ยของกลุ่มตัวอย่างของคุณ ในทางทฤษฎีถ้าคุณทำเช่นเดียวกันกับ B และ C ค่าเฉลี่ยสุดท้ายจะไม่เป็นค่าเฉลี่ยจริง อย่างไรก็ตามนี่เป็นเพียงตัวอย่างที่ไม่เท่ากัน นั่นคือทั้งหมดที่ ในความเป็นจริงฉันไม่เห็นเหตุผลว่าทำไมจึงเป็นที่ชัดเจนสำหรับบุคคล มีวิธีแก้ไขการแก้ไขค่าเฉลี่ยเพื่อให้ได้ค่าเฉลี่ยที่เหมาะสม มันเรียกว่าค่าเฉลี่ยถ่วงน้ำหนักและโดยพื้นฐานแล้วคุณจะ "น้ำหนัก" แต่ละค่าใช้จ่ายย่อยด้วยจำนวนคนในกลุ่มนั้น ทำให้รู้สึก?
The Great Duck

@ JamesAdams และฉันรู้ว่าคุณไม่ได้สนใจ คุณเป็นคณิตศาสตร์ที่คุณอ้างว่าก่อให้เกิดความขัดแย้งใช้ค่าเฉลี่ยนั้นเพื่อลองและคำนวณจำนวนเฉลี่ยของผลิตภัณฑ์ต่อคน นั่นเป็นเหตุผลในคำตอบนี้ฉันขอย้ำว่ามีค่าเฉลี่ยที่สองสำหรับสถิติที่แตกต่างกันและ "ความผิดพลาด" ของคุณในการพยายามใส่มันให้เป็นค่าเฉลี่ยที่แตกต่างอย่างสิ้นเชิง
The Great Duck
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.