"คะแนนเฉลี่ย" ของ Amazon ทำให้เข้าใจผิดหรือไม่?


49

ถ้าฉันเข้าใจถูกต้องการจัดอันดับหนังสือในระดับ 1-5 เป็นคะแนน Likert นั่นคือ 3 สำหรับฉันอาจไม่จำเป็นต้องเป็น 3 สำหรับคนอื่น มันเป็นมาตราส่วนตามลำดับ IMO หนึ่งไม่ควรเฉลี่ยเกล็ดปกติ แต่สามารถใช้โหมดมัธยฐานและเปอร์เซนต์

ดังนั้น 'ไม่เป็นไร' ที่จะปรับเปลี่ยนกฎเนื่องจากประชากรส่วนใหญ่เข้าใจว่ามีความหมายมากกว่าสถิติข้างต้น แม้ว่าชุมชนการวิจัยจะดุอย่างยิ่งที่จะใช้ค่าเฉลี่ยของข้อมูลตามระดับ Likert แต่เป็นเรื่องดีที่จะทำเช่นนี้กับผู้คนจำนวนมาก การเฉลี่ยในกรณีนี้ทำให้เข้าใจผิดเริ่มต้นด้วยหรือไม่

ดูเหมือนว่าไม่น่าเป็นไปได้ที่ บริษัท อย่าง Amazon จะคลำหาสถิติพื้นฐาน แต่ถ้าไม่เช่นนั้นฉันจะพลาดอะไรไปบ้าง เราสามารถอ้างได้หรือไม่ว่าขนาดของลำดับนั้นเป็นการประมาณที่สะดวกสำหรับลำดับที่จะแสดงว่ามีค่าเฉลี่ย? ในบริเวณใด


3
ถ้า 3 สำหรับคุณไม่เหมือนกับ 3 สำหรับคนอื่นคุณก็ไม่มีสเกล: คุณมีคอลเลกชันของการวัดที่หาที่เปรียบมิได้และมีความหมายเล็กน้อยที่คุณสามารถทำได้เพื่อสรุปพวกเขา สิ่งที่ทำให้ลำดับของมาตราส่วนคือว่า (a) ค่าสามารถเปรียบเทียบได้ดังนั้น 3 และ 3 ของฉันจึงมีความหมายเหมือนกัน แต่ (b) ความแตกต่างเชิงตัวเลขของค่านั้นไม่มีความหมายนอกเหนือจากสัญลักษณ์ของพวกเขาดังนั้น (3) สอง 4 และ 2 หรือ 5 และ 1 สามารถใส่ในลำดับใดก็ได้แม้ว่าตัวเลขแต่ละคู่จะมีค่าเฉลี่ยและค่ามัธยฐานเท่ากัน
whuber

1
@whuber - แต่ไม่เป็นความจริงเลยที่คน 2 คนอาจไม่เห็นความคิดเห็นแบบเดียวกันในระดับ 1-9 เกี่ยวกับตัวเลข? 6 สำหรับฉันอาจไม่ใช่ 6 สำหรับคนอื่นเว้นแต่พวกเขามีมาตราส่วนที่กำหนดไว้ล่วงหน้าให้ไปด้วย?
PhD

1
ฉันอ่านหนึ่งบทวิจารณ์เมื่อเร็ว ๆ นี้เกี่ยวกับอเมซอนที่กล่าวว่า "ผลิตภัณฑ์ที่ยอดเยี่ยมไม่สามารถผิดได้ฉันจะไม่ให้อะไร 5 ดาวเลยได้รางวัล 4" ถ้าสิ่งนี้ไม่บิดเบือนค่าเฉลี่ยฉันก็ไม่รู้เหมือนกัน
Matt Wilko

2
@ Wilko คุณกำลังพูดถึงความแตกต่างของความคิดเห็นไม่ใช่ความแตกต่างของขนาด แม้ว่าจะมีการสอบเทียบเครื่องชั่งอย่างระมัดระวังเช่นเดียวกับการให้คะแนนยิมนาสติกหรือสเก็ตลีลาหรือระดับสากลสำหรับการจัดอันดับความยากของการล่องแก่งในแม่น้ำและแม้กระทั่งเมื่อผู้เชี่ยวชาญได้รับการฝึกฝนให้ใช้เครื่องชั่งนั้น นั่นมักจะไม่ถูกตีความว่าเป็นหลักฐานที่แสดงว่าขนาดเป็นอัตนัย: มันตีความว่าเป็นการเปลี่ยนแปลงในหมู่ผู้พิพากษา
whuber

1
ขออภัยนี่ไม่ใช่คำตอบจริงๆ แต่น่าเสียดายที่ฉันไม่พบ "ความคิดเห็น" - ฟังก์ชั่น เมื่อเร็ว ๆ นี้ฉันได้เริ่มเขียนวิทยานิพนธ์หลักเกี่ยวกับองค์ประกอบที่สำคัญของความคิดเห็นของลูกค้า เมื่อพิจารณาถึงสถานการณ์ต่อไปนี้ฉันก็เริ่มสงสัยถึงความสำคัญของระบบการจัดอันดับระดับ 5 ดาวของอเมซอน - จำนวนความคิดเห็นที่ไม่ไว้วางใจ - ผลกระทบของอคติอันดับและ J-Curves ( buildingreputation.com/writings/2009
derPio

คำตอบ:


42

ประโยชน์ของการใช้ค่าเฉลี่ยในการสรุปแนวโน้มกลางของการจัดอันดับ 5 คะแนน

ตามที่ @ gung กล่าวว่าฉันคิดว่ามักจะมีเหตุผลที่ดีมากสำหรับการใช้ค่าเฉลี่ยของรายการห้าจุดเป็นดัชนีแนวโน้มกลาง ผมมีอยู่แล้วที่ระบุไว้ที่นี่ด้วยเหตุผลเหล่านี้

ในการถอดความ:

  1. ค่าเฉลี่ยนั้นง่ายต่อการคำนวณ
  2. ค่าเฉลี่ยนั้นเข้าใจง่ายและเข้าใจได้ดี
  3. ค่าเฉลี่ยคือตัวเลขเดียว
  4. ดัชนีอื่น ๆ มักจะให้ลำดับการเรียงลำดับของวัตถุที่คล้ายกัน

ทำไมค่าเฉลี่ยถึงดีสำหรับ Amazon

คิดเกี่ยวกับเป้าหมายของอเมซอนในการรายงานค่าเฉลี่ย พวกเขาอาจจะเล็งไปที่

  • ให้คะแนนที่เข้าใจง่ายสำหรับรายการ
  • ให้แน่ใจว่าผู้ใช้ยอมรับระบบการจัดอันดับ
  • ให้แน่ใจว่าผู้คนเข้าใจความหมายของการจัดอันดับเพื่อให้พวกเขาสามารถใช้มันอย่างเหมาะสมเพื่อแจ้งการตัดสินใจซื้อ

Amazon จัดเรียงค่าเฉลี่ยของการปัดเศษการนับความถี่สำหรับแต่ละตัวเลือกการจัดอันดับและขนาดตัวอย่าง (เช่นจำนวนการจัดอันดับ) ข้อมูลนี้น่าจะเพียงพอสำหรับคนส่วนใหญ่ที่จะชื่นชมทั้งความเชื่อมั่นทั่วไปเกี่ยวกับรายการและความเชื่อมั่นในการจัดอันดับ (เช่น 4.5 กับ 20 อันดับมีแนวโน้มที่จะมีความแม่นยำมากกว่า 4.5 กับ 2 คะแนนรายการที่มี 10 5 - การจัดอันดับดาวและการให้คะแนนระดับ 1 ดาวที่ไม่มีความเห็นอาจยังคงเป็นรายการที่ดี)

คุณสามารถเห็นค่าเฉลี่ยเป็นตัวเลือกที่เป็นประชาธิปไตย การเลือกตั้งจำนวนมากนั้นขึ้นอยู่กับว่าผู้สมัครคนใดจะได้ค่าเฉลี่ยสูงสุดในระดับสองจุด ในทำนองเดียวกันหากคุณโต้แย้งว่าแต่ละคนที่ส่งความเห็นได้รับการลงคะแนนคุณจะเห็นค่าเฉลี่ยเป็นแบบฟอร์มที่ให้น้ำหนักการโหวตของแต่ละคนอย่างเท่าเทียมกัน

ความแตกต่างของขนาดใช้เป็นปัญหาหรือไม่

มีความหลากหลายของอคติการจัดอันดับที่เป็นที่รู้จักในวรรณคดีจิตวิทยา (สำหรับการตรวจสอบดู Saal et al 1980) เช่นอคติแนวโน้มกลาง, อคติผ่อนปรน, อคติความเข้มงวด นอกจากนี้ผู้ประเมินบางคนจะมีความอิสระมากกว่าและบางคนจะเชื่อถือได้มากกว่า บางคนอาจมีระบบให้คำวิจารณ์เชิงบวกหรือปลอมปลอม สิ่งนี้จะสร้างข้อผิดพลาดหลายรูปแบบเมื่อพยายามคำนวณคะแนนเฉลี่ยที่แท้จริงสำหรับรายการ

อย่างไรก็ตามหากคุณต้องสุ่มตัวอย่างประชากรประชากรความเอนเอียงดังกล่าวจะถูกยกเลิกและขนาดของกลุ่มตัวอย่างที่เพียงพอคุณจะยังคงได้รับค่าเฉลี่ยที่แท้จริง

แน่นอนว่าคุณไม่ได้รับตัวอย่างสุ่มจาก Amazon และมีความเสี่ยงที่ชุดผู้ประเมินที่คุณได้รับสำหรับรายการนั้นจะลำเอียงอย่างเป็นระบบเพื่อผ่อนปรนหรือเข้มงวดมากขึ้นเรื่อย ๆ ที่กล่าวว่าฉันคิดว่าผู้ใช้ของ Amazon จะขอบคุณผู้ใช้ที่ให้คะแนนมาจากตัวอย่างที่ไม่สมบูรณ์ ฉันคิดว่ามันค่อนข้างเป็นไปได้ด้วยขนาดตัวอย่างที่สมเหตุสมผลซึ่งในหลายกรณีความแตกต่างของการตอบสนองส่วนใหญ่จะเริ่มหายไป

ความก้าวหน้าที่เป็นไปได้เกินกว่าค่าเฉลี่ย

ในแง่ของการปรับปรุงความถูกต้องของการจัดอันดับฉันจะไม่ท้าทายแนวคิดทั่วไปของค่าเฉลี่ย แต่ฉันคิดว่ามีวิธีอื่นในการประมาณค่าการจัดอันดับค่าเฉลี่ยของประชากรจริงสำหรับรายการ (เช่นค่าเฉลี่ยที่จะได้รับ เป็นตัวแทนตัวอย่างขนาดใหญ่ขอให้คะแนนรายการ)

  • ผู้ให้น้ำหนักตามความน่าเชื่อถือ
  • ใช้ระบบการจัดอันดับแบบเบย์ที่ประเมินการจัดอันดับเฉลี่ยเป็นผลรวมถ่วงน้ำหนักของการจัดอันดับเฉลี่ยสำหรับรายการทั้งหมดและค่าเฉลี่ยจากรายการเฉพาะและเพิ่มการให้น้ำหนักสำหรับรายการเฉพาะเมื่อจำนวนการจัดอันดับเพิ่มขึ้น
  • ปรับข้อมูลผู้ประเมินตามแนวโน้มการจัดอันดับทั่วไปในรายการต่างๆ (เช่น 5 จากคนที่ให้ 3s โดยทั่วไปจะมีค่ามากกว่าคนที่ให้ 4 วินาที)

ดังนั้นหากความแม่นยำในการให้คะแนนเป็นเป้าหมายหลักของอเมซอนฉันคิดว่ามันควรจะพยายามเพิ่มจำนวนการให้คะแนนต่อรายการและใช้กลยุทธ์ข้างต้นบางอย่าง วิธีการดังกล่าวอาจเกี่ยวข้องโดยเฉพาะอย่างยิ่งเมื่อสร้างการจัดอันดับ "ดีที่สุด" อย่างไรก็ตามสำหรับการให้คะแนนที่ต่ำต้อยบนหน้าเว็บมันอาจเป็นไปได้ว่าค่าเฉลี่ยตัวอย่างนั้นดีขึ้นตามเป้าหมายของความเรียบง่ายและโปร่งใส

อ้างอิง

  • Saal, FE, Downey, RG และ Lahey, MA (1980) การให้คะแนนการให้คะแนน: การประเมินคุณภาพของข้อมูลการจัดอันดับ Psychometric Bulletin, 88, 413

1
+1 ฉันคิดว่าสิ่งนี้เหนือกว่า / ขยายคำตอบก่อนหน้าของคุณในวิธีที่ดีมาก ฉันชอบหัวข้อที่ว่า 'ทำไมค่าเฉลี่ยถึงดีสำหรับ Amazon' ซึ่งระบุอย่างชัดเจนยิ่งขึ้นว่าฉันพยายามทำอะไรในประโยคสุดท้ายของฉัน 'การใช้เครื่องชั่งที่แตกต่างกัน' นั้นค่อนข้างชาญฉลาดเช่นกัน ฉันขอขอบคุณการอ้างอิงถึงการทบทวนวรรณกรรมนั้นถ้าคุณรู้เรื่องที่ดี ฉันสังเกตว่าส่วนสุดท้ายค่อนข้างตึงเครียดด้วยส่วนที่ 2
gung - Reinstate Monica

2
ขอบคุณ ฉันเพิ่มการอ้างอิงไปยังวรรณกรรมการให้คะแนนความลำเอียงและเพิ่มบางสิ่งที่ส่วนท้ายที่พยายามปรับมุมมองทั้งสอง
Jeromy Anglim

2
+1 @JeromyAnglim - มุมมองที่ละเอียดถี่ถ้วนในแง่มุมต่าง ๆ ของปัญหา รุ่งโรจน์!
PhD

+1, คำตอบที่ดี แม้ว่าฉันจะพบว่าประโยคหนึ่งทำให้เข้าใจผิดเล็กน้อย เมื่อคุณพูดว่า "อย่างไรก็ตามถ้าคุณต้องสุ่มตัวอย่างประชากร, อคติเช่นนั้นจะถูกยกเลิกและด้วยขนาดตัวอย่างที่เพียงพอของผู้ให้คะแนนคุณจะได้รับค่าเฉลี่ยที่แท้จริง" - ฉันไม่คิดว่าจะใช้กับอคติทั้งหมดแม้ว่าคุณจะมีกลุ่มตัวอย่างแบบสุ่มของประชากร
Michael Bishop

1
@MichaelBishop ขอบคุณฉันเห็นด้วยกับภาษาของฉันก็ค่อนข้างเลอะเทอะ ฉันเดาว่ามันขึ้นอยู่กับความหมายของ "ความจริงที่แท้จริง" ฉันสามารถดูว่าถ้าคุณมีคนที่มีประชากรในจำนวนนี้จะมีอคติกับประชากรที่ไม่มีการปรับค่าเฉลี่ยให้อยู่ห่างจากสมมติฐาน "ค่าเฉลี่ยที่แท้จริง" ฉันคิดเพิ่มเติมว่าอคติที่เป็นระบบของบุคคลที่ใช้กับรายการทั้งหมดจะยกเลิกเพื่อให้สามารถจัดลำดับรายการที่ไม่เอนเอียงตามค่าเฉลี่ยที่เกิดขึ้น
Jeromy Anglim

15

จะค่อนข้างเทคนิคที่นี่การจัดอันดับเหล่านี้จะไม่จริงLikertขนาด ; พวกเขาเป็นเพียงอันดับอันดับ ตอนนี้ต้องบอกว่าจุดของคุณถูกต้องเป็นหลัก อย่างไรก็ตามฉันมักจะคิดว่าปัญหานี้มากเกินไป สิ่งหนึ่งที่ควรทราบก็คือโดยทั่วไปแล้วจะเข้าใจว่าค่าเฉลี่ยของรายการลำดับสามารถประมาณช่วงเวลาและดังนั้นเมื่อมีการจัดอันดับจำนวนมากค่าเฉลี่ยจะกลายเป็นตัวแทนที่สมเหตุสมผลมากขึ้น ฉันได้พบคำตอบนี้โดย @JeromyAnglim ว่ายอดเยี่ยม (จริงๆแล้วคำถามและคำตอบจากผู้เข้าร่วมทั้งหมดมีมูลค่าการอ่าน) สำหรับการรักษาเชิงทฤษฎีเพิ่มเติมดูที่นี่. ในบันทึกอื่นฉันชอบอเมซอน แต่ฉันไม่เห็นเหตุผลที่จะคาดหวังความซับซ้อนทางสถิติจากพวกเขาโดยเฉพาะอย่างยิ่งในแง่ของการออกแบบเว็บไซต์ขั้นพื้นฐาน - ประเด็นคือการใช้งานโดยผู้บริโภคไม่ใช่การสร้างความประทับใจให้อาจารย์สถิติ


2
Amazon เป็นหนึ่งในผู้นำในอุตสาหกรรมเทคโนโลยี (อินเทอร์เน็ต) ในการออกแบบการทดลองสำหรับการโฆษณาออนไลน์และการใช้งานเว็บไซต์ คุณสามารถมั่นใจได้ว่าพวกเขามีความซับซ้อนจริง ๆในวิธีการทางสถิติของพวกเขา :-) ประเด็นของคุณคือสิ่งที่ดี หากคุณคิดว่าอเมซอนกำลังทำอะไรที่ "ซับซ้อนยิ่งขึ้น" และมีคนตรวจสอบพวกเขาโดยใช้ค่าเฉลี่ยแบบง่ายพบว่าบางรายการอยู่ในอันดับที่ "สูง" กว่าค่าเฉลี่ยและอื่น ๆ "ต่ำ" ยกระดับ เอะอะและออกจาก Amazon เพื่อพยายามอธิบาย "อคติที่ซ่อนอยู่" เกี่ยวกับผลิตภัณฑ์หรือไม่
พระคาร์ดินัล

1
บริการอื่น ๆ เช่น Netflix หลีกเลี่ยงปัญหานี้โดยการให้ข้อมูล "สรุป" เท่านั้น :)
สำคัญ

@ cardinal น่าสนใจมากฉันไม่รู้เรื่อง Amazon เลย
gung - Reinstate Monica

15

ทุกคนมีความคิดเห็นที่ดีเกี่ยวกับเรื่องนี้ ฉันไม่คิดว่าฉันจะเพิ่มอะไรได้อีกมาก อย่างไรก็ตามฉันจะโพสต์สิ่งนี้ :


7
ฉันเดาว่าการ์ตูนไฮไลท์ที่บางคนเป็นผู้ตัดสินที่ไม่ดีต่อคุณภาพของรายการและโดยเฉลี่ยจากคนจำนวนมากคุณจะได้รับค่าเฉลี่ยต่ำ โดยทั่วไปแล้วภูมิปัญญาของฝูงชนแสดงให้เห็นว่าค่าเฉลี่ยทำงานได้ดีพอสมควรโดยอย่างน้อยสัดส่วนที่เหมาะสมของคนมีความรู้บ้าง การให้คะแนนน้ำหนักตามความน่าเชื่อถืออาจเป็นกลยุทธ์หนึ่งในการแก้ไขปัญหา
Jeromy Anglim

1
ตัวเลือกอื่นกำลังใช้การแนะนำสไตล์ของ Netflix โดยการเปรียบเทียบการให้คะแนนของคุณกับการจัดอันดับของผู้ใช้รายอื่นและจากนั้นให้คะแนนเฉลี่ยโดยผู้ใช้ที่มีตัวเลือกใกล้เคียงกับคุณ
ราหุล

1
@ ราอูลนั่นเป็นจุดที่ดี ในบางครั้งคำตอบของฉันฉันคิดว่าการให้คะแนนส่วนใหญ่เป็นคะแนนจริง + ข้อผิดพลาดแม้ว่าจะมีโครงสร้างข้อผิดพลาด แต่เมื่อพูดถึงโดเมนที่ความชอบส่วนบุคคลเป็นส่วนหนึ่งของคำจำกัดความของคุณภาพสิ่งนี้อาจไม่สมเหตุสมผลเท่าไรนัก
Jeromy Anglim

ฉันชอบสิ่งนี้และเป็นเหตุผลว่าทำไม (ในฐานะผู้บริโภค) ฉันพยายามอ่านบทวิจารณ์และไม่เพียง แต่ดูจำนวนดาว แต่ผมคิดว่ามันเป็นเรื่องน่าขันว่าในกรณีนี้มากขึ้นวิธีการ "ที่มีความซับซ้อน" ของค่ามัธยฐานโหมดและเปอร์เซนต์ทั้งหมดให้แย่ลงผลกว่าค่าเฉลี่ย ;-)
คาร์เรนคุก

3

จากประสบการณ์ของฉันค่าเฉลี่ยของข้อมูลการจัดอันดับมักจะมีความสัมพันธ์อย่างใกล้ชิดที่สุดกับระดับของตัวชี้วัดในโลกแห่งความจริงที่เราพยายามเชื่อมโยงกับระดับการจัดอันดับ เราพบความสัมพันธ์เชิงเส้นจำนวนมากและค่าเฉลี่ยจึงเป็นหนึ่งในวิธีที่ดีกว่าในการสรุปข้อมูล วิธีดังกล่าวส่วนใหญ่ในการวิเคราะห์แนวโน้มกลางของการจัดอันดับจะให้ผลลัพธ์ที่คล้ายกัน (อันดับคำสั่งซื้อและอื่น ๆ ) เป็นส่วนใหญ่

นอกจากนี้ฉันสงสัยว่าอเมซอนอาจไม่ใช่ทั้งหมดที่เกี่ยวข้องกับความถูกต้องทางวิทยาศาสตร์ไม่ทางใดก็ทางหนึ่ง ในท้ายที่สุดเป้าหมายของอเมซอนคือการทำให้ผู้คนซื้อสินค้ามากขึ้นใน Amazon.com และวิธีการตรวจสอบช่วยให้บรรลุซึ่งอาจจะไม่แตกต่างกับสิ่งที่สรุปด้วยหมายเลขหนึ่ง ผลิตภัณฑ์ที่ดีจะได้รับรางวัลผลิตภัณฑ์ที่ไม่ดีจริง ๆ ถูกลงโทษและผู้ซื้อประสาทจะมีโอกาสตรวจทานข้อดีและข้อเสียในรายละเอียดเพิ่มเติม


2

การให้คะแนนของ Amazon ทำให้เข้าใจผิดเนื่องจาก บริษัท ต่างๆเล่นเกมในระบบ เมื่อลูกค้าได้รับข้อเสนอส่วนลดและสินค้าฟรีเพื่อเป็นการตอบแทนความคิดเห็นระดับ 5 ดาว "สถิติ" ของหมายเลขการจัดอันดับหรือหมายถึงว่าเป็นสิ่งที่สงสัย


1
คุณมีข้อมูลใด ๆ ที่เกิดขึ้นบ่อยครั้งหรือไม่?
Michael Bishop

1

คุณทำคะแนนได้ดี การหาค่าเฉลี่ยของเลขลำดับค่อนข้างทำให้เข้าใจผิด บทสรุปของการจัดอันดับหลาย ๆ ครั้งจะประสบกับความจริงที่ว่าอัตนัย 3 ของฉันอาจเทียบเท่ากับ 4 ของคุณดังนั้นการรวมคะแนนบุคคลที่แตกต่างกันอาจเป็นปัญหาที่ใหญ่ที่สุด การตีความค่าเฉลี่ยของ 3 และ 4 เป็น 3.5 นั้นไม่ใกล้เคียงอย่างมหันต์

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.