วิธีการตรวจสอบว่าแกน y ของกราฟควรเริ่มต้นที่ศูนย์?


45

วิธีหนึ่งที่ใช้กันทั่วไปในการ "โกหกกับข้อมูล" คือการใช้ระดับแกน y ที่ทำให้ดูเหมือนว่าการเปลี่ยนแปลงมีความสำคัญมากกว่าที่เป็นจริง

เมื่อฉันตรวจสอบสิ่งพิมพ์ทางวิทยาศาสตร์หรือรายงานห้องปฏิบัติการของนักเรียนฉันมักจะผิดหวังกับ "บาปการสร้างภาพข้อมูล" (ซึ่งฉันเชื่อว่าผู้เขียนกระทำโดยไม่ได้ตั้งใจ แต่ยังส่งผลให้เกิดการนำเสนอที่ทำให้เข้าใจผิด)

อย่างไรก็ตาม "การเริ่มต้นแกน y ที่ศูนย์เสมอ" ไม่ใช่กฎที่ยากและรวดเร็ว ตัวอย่างเช่น Edward Tufte ชี้ให้เห็นว่าในอนุกรมเวลาพื้นฐานไม่จำเป็นต้องเป็นศูนย์:

โดยทั่วไปในอนุกรมเวลาให้ใช้ข้อมูลพื้นฐานที่แสดงข้อมูลไม่ใช่จุดศูนย์ หากจุดศูนย์เกิดขึ้นอย่างมีเหตุผลในการวางแผนข้อมูลปรับ แต่อย่าใช้พื้นที่แนวตั้งที่ว่างเปล่าจำนวนมากในการพยายามเข้าถึงจนถึงจุดศูนย์ที่ค่าใช้จ่ายในการซ่อนสิ่งที่เกิดขึ้นในสายข้อมูลเอง (หนังสือวิธีโกหกกับสถิติผิดในจุดนี้)

ยกตัวอย่างเช่นสถานที่ที่ไม่มีจุดศูนย์ในอนุกรมเวลาดูที่สิ่งพิมพ์วิจัยทางวิทยาศาสตร์ที่สำคัญ นักวิทยาศาสตร์ต้องการแสดงข้อมูลไม่ใช่ศูนย์

การกระตุ้นให้บริบททำให้ข้อมูลเป็นสิ่งที่ดี แต่บริบทไม่ได้มาจากพื้นที่แนวตั้งว่างเปล่าที่ถึงลงถึงศูนย์จำนวนที่ไม่เกิดขึ้นในชุดข้อมูลจำนวนมาก แต่สำหรับบริบทให้แสดงข้อมูลในแนวนอนมากกว่าเดิม!

ฉันต้องการชี้ให้เห็นการนำเสนอที่ทำให้เข้าใจผิดในเอกสารที่ฉันตรวจทาน แต่ฉันไม่ต้องการเป็นคนเจ้าระเบียบแกนศูนย์ y

มีแนวทางใดบ้างที่กล่าวถึงเมื่อเริ่มแกน y ที่ศูนย์และเมื่อไม่จำเป็นและ / หรือไม่เหมาะสม? (โดยเฉพาะอย่างยิ่งในบริบทของงานวิชาการ)


3
ฉันคิดว่าหรือไม่รวมถึง (ไม่รวม) 0 อาจทำให้เข้าใจผิดขึ้นอยู่กับช่วงวิกฤตในเรื่องที่ได้รับการบอกเล่า
gung - Reinstate Monica

2
ในการพูดคุยวลี "ทราบว่าศูนย์ระงับสูง" หรือที่คล้ายกันสามารถนำมาใช้เพื่อนำความซื่อสัตย์ไปสู่ร่างที่อาจทำให้เข้าใจผิด ฉันไม่พอใจกับสิ่งนั้นในสื่อสิ่งพิมพ์ แต่คุณสามารถใช้ที่นั่นได้เช่นกัน
dmckee

เพื่อหลีกเลี่ยงทั้งหมดนี้ฉันใช้ boxplots ทุกครั้งที่ทำได้ ไม่จำเป็นต้องคำนวณวิธีการและแถบข้อผิดพลาดและมันเต็มไปด้วยข้อมูลที่มีค่า (เช่นการกระจายข้อมูลการแพร่กระจายความเบ้ช่วง) ทั้งหมดในหนึ่งพล็อต นอกจากนี้คุณกำลังแสดงข้อมูลดิบ
Stefan

Y=0

@NickCox ขอบคุณสำหรับความคิดเห็นของคุณ! ฉันยอมรับว่าหลังจาก ANOVA แสดงวิธีการแล้วและแถบข้อผิดพลาดมีเหตุผลมากกว่านี้ อย่างไรก็ตามก่อนที่จะทำการวิเคราะห์ใด ๆ ฉันพบว่าบ็อกซ์ล็อตมีข้อมูลมากขึ้นและให้ข้อมูลว่าลักษณะของข้อมูลของคุณเป็นอย่างไรและไม่ว่า ANOVA ที่เลือกอาจเหมาะสมหรือไม่ "การโกหกด้วยข้อมูล" อาจเกิดขึ้นได้เมื่อมีการเลือกการทดสอบแบบพารามิเตอร์ แต่ข้อมูลไม่เป็นไปตามสมมติฐานที่กำหนด ดังนั้นสำหรับฉันในฐานะผู้อ่านของการศึกษาทางวิทยาศาสตร์ฉันมักจะเห็นแผนการที่จะทำขึ้นใจของฉันเองเกี่ยวกับผลลัพธ์ที่นำเสนอ
Stefan

คำตอบ:


40
  • อย่าใช้พื้นที่ในกราฟในลักษณะที่ไม่ช่วยให้เข้าใจ ต้องการพื้นที่เพื่อแสดงข้อมูล!

  • ใช้การตัดสินทางวิทยาศาสตร์ (วิศวกรรม, การแพทย์, สังคม, ธุรกิจ, ... ) เช่นเดียวกับการตัดสินทางสถิติของคุณ (หากคุณไม่ใช่ลูกค้าหรือลูกค้าให้พูดคุยกับใครบางคนในสนามเพื่อทำความเข้าใจกับสิ่งที่น่าสนใจหรือสำคัญโดยเฉพาะผู้ที่ว่าจ้างการวิเคราะห์)

  • Y

เหล่านี้เป็นกฎง่าย ๆ สามข้อ (ไม่มีสิ่งใดกีดกันความตึงเครียดระหว่างพวกเขาในบางโอกาส)

นี่เป็นตัวอย่างง่ายๆ แต่ทั้งสามคะแนนเกิดขึ้น: คุณวัดอุณหภูมิร่างกายของผู้ป่วยในเซลเซียสหรือฟาเรนไฮต์หรือแม้กระทั่งในเคลวิน: เลือกของคุณ มันมีประโยชน์หรือไม่ก็ตามที่จะยืนยันว่าอุณหภูมิจะเป็นศูนย์? สำคัญแม้ข้อมูลทางการแพทย์หรือสรีรวิทยาสำคัญจะถูกบดบังเป็นอย่างอื่น

นี่คือเรื่องจริงจากการนำเสนอ นักวิจัยกำลังแสดงข้อมูลอัตราส่วนเพศสำหรับรัฐและดินแดนสหภาพต่างๆในอินเดีย กราฟิกเป็นแผนภูมิแท่งที่มีแท่งทั้งหมดเริ่มต้นที่ศูนย์ บาร์ทั้งหมดอยู่ใกล้กับความยาวเดียวกันแม้จะมีการเปลี่ยนแปลงที่สำคัญ นั่นถูกต้อง แต่เรื่องราวที่น่าสนใจคือพื้นที่นั้นแตกต่างกันแม้ว่าจะมีความคล้ายคลึงกัน ฉันแนะนำว่าความเท่าเทียมกันระหว่างชายและหญิง (1 หรือ 100 หญิง / 100 คน) เป็นระดับอ้างอิงที่เป็นธรรมชาติมากกว่า (ฉันจะเปิดให้ใช้ระดับโดยรวมบางอย่างเช่นค่าเฉลี่ยระดับชาติเป็นข้อมูลอ้างอิง) แม้แต่คนทางสถิติบางคนที่เคยได้ยินเรื่องราวเล็ก ๆ นี้ก็ตอบว่า "ไม่; บาร์ควรเริ่มต้นที่ศูนย์เสมอ" สำหรับฉันที่ไม่ดีไปกว่าความเชื่อที่ไม่เกี่ยวข้องในกรณีเช่นนี้

YY

พล็อตชนิดทั่วไปโดยเฉพาะอย่างยิ่งดูเหมือนว่าในวิทยาศาสตร์ชีวภาพและวิทยาศาสตร์การแพทย์บางอย่างแสดงวิธีการหรือบทสรุปอื่น ๆ โดยแถบหนาเริ่มต้นที่ศูนย์และข้อผิดพลาดมาตรฐานหรือช่วงเวลาส่วนเบี่ยงเบนมาตรฐานที่แสดงความไม่แน่นอนโดยบาร์บาง ๆ อาจเป็นที่นิยมส่วนหนึ่งเนื่องจากคำสั่งที่ควรจะแสดงเป็นศูนย์ ผลสุทธิคือการเน้นเปรียบเทียบกับศูนย์ที่มักจะขาดความสนใจหรือประโยชน์

บางคนต้องการแสดงศูนย์ แต่ยังเพิ่มตัวแบ่งขนาดเพื่อแสดงว่าระดับถูกขัดจังหวะ การเปลี่ยนแปลงแฟชั่นและการเปลี่ยนแปลงเทคโนโลยี ทศวรรษที่ผ่านมาเมื่อนักวิจัยดึงกราฟของตัวเองหรือมอบหมายงานให้ช่างเทคนิคมันง่ายกว่าที่จะถามว่าสิ่งนี้ทำได้ด้วยมือ ตอนนี้โปรแกรมกราฟิกมักจะไม่รองรับการแบ่งช่วงข้อมูลซึ่งฉันคิดว่าไม่มีการสูญเสีย แม้ว่าพวกเขาจะทำเช่นนี้นั่นคือการเพิ่มจุกจิกที่อาจทำให้เสียพื้นที่ในระดับปานกลางของกราฟิก

x

มีกฎแบบศูนย์ที่ใช้นอกเหนือจากสามข้อที่กล่าวถึง

  • สิ่งที่คุณทำมีความชัดเจนมาก ติดป้ายชื่อแกนของคุณอย่างสม่ำเสมอและไม่เป็นทางการ จากนั้นเชื่อมั่นว่าผู้อ่านที่ระวังจะดูว่าคุณทำอะไรไปแล้ว

ดังนั้นในจุดนี้ฉันเห็นด้วยอย่างยิ่งกับ Edward Tufte และฉันไม่เห็นด้วยกับ Darrell Huff

แก้ไข 9 พฤษภาคม 2559:

มากกว่าการพยายามอย่างสม่ำเสมอ ได้แก่ 0 พื้นฐานในแผนภูมิของคุณทั้งหมดใช้ตรรกะและความหมายเส้นเขตแดนแทน

Cairo, A. 2016. The Truthful Art: Data, Charts และ Maps สำหรับการสื่อสาร ซานฟรานซิสโก, แคลิฟอร์เนีย: นักขี่ม้าหน้าใหม่, หน้า 139


7
นอกเหนือจากนั้น: ฉันคิดว่าผู้คนมีแนวโน้มที่จะติดกับ "เริ่มต้นที่ศูนย์" อย่างดันทุรังมากขึ้นเมื่อข้อมูลถูกแสดงโดยบาร์เนื่องจากพื้นที่ที่บาร์แสดงพื้นที่และพื้นที่นั้นทำให้เข้าใจผิดหากไม่ได้เริ่มต้นที่ศูนย์ ในพล็อตเรื่อง Cleveland Clevelandซึ่งมักเป็นรูปแบบการสร้างภาพที่เหมาะสมกว่าดูเหมือนจะไม่มีข้อโต้แย้งที่น่าสนใจเช่นนี้ที่จะเริ่มต้นที่ศูนย์
Silverfish

4
คำตอบที่ดี ฉันถามคำถามนี้ในบริบทของการตรวจสอบกระดาษที่ใช้ช่วงแกนที่ไม่เหมาะสมอย่างสม่ำเสมอ (เน้นการแปรผันเล็กน้อยในข้อมูล) คำตอบนี้ทำให้ฉันตระหนักว่าสิ่งที่ฉันผิดหวังจริงๆคือการขาดการตัดสิน (สถิติและวิศวกรรม) ในการทำความเข้าใจและตีความข้อมูล - เป็นสิ่งที่สร้างสรรค์มากขึ้นที่จะแสดงความคิดเห็นในการทบทวนมากกว่าบ่นเกี่ยวกับช่วงแกน
ff524

4
กฎเกี่ยวกับการเริ่มต้นแกนที่ศูนย์เท่านั้นทำให้รู้สึกถึงความคิดสำหรับตัวแปรต่อเนื่องที่มีอัตราส่วนดังนั้นศูนย์มีความหมายที่แท้จริง น้ำหนัก 0 ไม่มีน้ำหนัก เป็นต้น แต่อุณหภูมิใน C หรือ F ใช้ค่าตามอำเภอใจเป็นศูนย์ดังนั้นจึงไม่มีประเด็นแม้แต่คิดเกี่ยวกับการเริ่มต้นแกนที่นั่น
Harvey Motulsky

2

3
ดี แต่ฉันต้องการชี้ให้เห็นว่าจุด "การตัดสิน" ขึ้นอยู่กับผู้ชม (ผู้ชมมีความสำคัญเสมอ !) ผู้ชมด้านเทคนิคจะอ่านแกนและเข้าใจนัย สัดส่วนประชากรฆราวาสบางส่วนจะไม่สนใจป้ายแกนอย่างเด็ดขาดและดึงข้อสรุปจากรูปร่างของกราฟภายใต้สมมติฐานที่ไม่ถูกต้องเกี่ยวกับสเกล หากกราฟมีไว้สำหรับผู้ชมทั่วไปคุณต้องคำนึงถึงปัจจัยนั้นในการตัดสินใจของคุณ
dmckee
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.