“ เมื่อใดที่จะใช้ boxplot และเมื่อ barplot” กฎ (จากหัวแม่มือ?)


14

ทั้งพล็อตแบบ box-and-มัสสุและกราฟแท่งเป็นกราฟฟิคที่เหมาะสมสำหรับ ANOVA ตาม The R Book (Crawley, 2013) แต่สิ่งใดที่เหมาะสมกว่า ? ฉันคิดว่ามันขึ้นอยู่กับสถานการณ์ ... ใครช่วยฉันได้บ้าง


5
" แม้ว่าหนึ่งปัญหาสามารถแก้ไขได้โดยการทดสอบทางเลือกหลายแบบ - มีเพียงการทดสอบเดียวเท่านั้นที่เหมาะสมที่สุดในการใช้ " - ฉันไม่เห็นด้วยกับประโยคนั้น ฉันไม่คิดว่ามันจะเป็นจริงเสมอ
Glen_b -Reinstate Monica

5
ฉันเห็นด้วยกับ @Glen_b ที่นี่และแนะนำว่าแม้ข้อความนี้จะไม่สำคัญ การระบุการทดสอบที่เหมาะสมที่สุดนั้นขึ้นอยู่กับการรู้ขั้นตอนการสร้างที่แน่นอนสำหรับข้อมูลซึ่งก็คือเราจะบอกว่าผิดปกติ เป็นเรื่องปกติที่มีการทดสอบที่เป็นไปได้หลายอย่างโดยมีข้อดีและข้อเสียต่างกัน
Nick Cox

1
ฉันไม่คิดว่าฉันจะพูดถึงการทดสอบ (สมมุติฐานหรือนัยสำคัญ) ในลักษณะสั้น ๆ ของการคิดเชิงสถิติที่ดี ... ฉันคิดว่านี่เป็นประเด็นปัญหา คำถามของคุณชัดเจนเพียงพอหากไม่มี
Nick Cox

คำตอบ:


18

โดยเฉพาะสำหรับภาพประกอบกราฟิกของ ANOVA:

  • พล็อตแบบกล่องหรือแผนภูมิแท่งนั้นดีกว่าไม่มีอะไรที่ชัดเจนในกราฟสำหรับ ANOVA แต่ตามปกติแล้วทั้งคู่จะเป็นแบบทางอ้อมหรือไม่สมบูรณ์เหมือนบทสรุปแบบกราฟิก

  • ANOVA เป็นเรื่องเกี่ยวกับการเปรียบเทียบค่าเฉลี่ยในบริบทของการแปรผันของชนิดหนึ่งชนิดขึ้นไปดังนั้นกราฟิกที่เหมาะสมที่สุดจะแสดงให้เห็นน้อยที่สุดหมายถึงรวมถึงข้อมูลดิบ การเบี่ยงเบนมาตรฐานของกลุ่ม (SDs) หรือปริมาณที่เกี่ยวข้องจะไม่เป็นอันตราย

  • แม้ว่าบางแปลงกล่องแสดงความหมายเช่นเดียวกับค่าเฉลี่ยชนิดมาตรฐานแสดงค่ามัธยฐานควอไทล์และข้อมูลบางอย่างในหางของการกระจาย ตัวแปรที่พบบ่อยที่สุดน่าจะเป็นที่ซึ่งจุดข้อมูลของแต่ละบุคคลจะปรากฏขึ้นถ้าหากพวกเขาอยู่มากกว่า 1.5 IQR ห่างจากควอไทล์ใกล้ นั่นคือ: ช่วงควอไทล์ IQRควอไทล์ตอนบนควอไทล์ต่ำดังนั้นพล็อตเป็นค่าคะแนนที่สูงกว่าควอไทล์ชั้นบน 1.5 IQR หรือน้อยกว่าควอไทล์ต่ำ- + -=+1.5 IQR อนุสัญญาดังกล่าวจะมีประโยชน์ในการแสดงค่าผิดปกติขั้นต้นซึ่งอาจเป็นปัญหาสำหรับ ANOVA แต่ไม่มีค่ามัธยฐานหรือควอไทล์ใด ๆ ใน ANOVA และไม่ว่าค่ามัธยฐานเฉลี่ยเป็นจุดที่ต้องตรวจสอบหรือไม่ โดยทั่วไปแล้วนักวิเคราะห์ข้อมูลที่มีประสบการณ์ใช้เช่นค่าผิดปกติที่ระบุไว้อย่างชัดเจนและ / หรือความไม่สมดุลของการกระจายเป็นสัญญาณของปัญหาที่ต้องดำเนินการเช่นการแปลงข้อมูลหรือต้องการโมเดลเชิงเส้นทั่วไปที่มีฟังก์ชันลิงก์ไม่ใช่เอกลักษณ์ อย่างไรก็ตามมันเป็นเรื่องที่น่าแปลกใจที่มีตำราและบัญชีอื่น ๆ แสดงแผนการแปลงเมื่อ ANOVA ถูกนำเสนอ แต่ไม่พูดถึงช้างที่ไม่ได้อยู่ในห้องซึ่งหมายความว่าไม่ได้วางแผน

  • ในทางกลับกันแผนภูมิแท่งชนิดที่พบบ่อยที่สุดในบริบทนี้สรุปข้อมูลด้วยวิธีการและ SD หรือข้อผิดพลาดมาตรฐาน แต่ไม่แสดงข้อมูลจุดใดจุดหนึ่ง ตัวอย่างเช่นค่าผิดปกติหรือความไม่สมดุลที่ถูกทำเครื่องหมายสามารถอนุมานได้จากค่าเฉลี่ยนอกบรรทัดหรือความแปรปรวนที่สูงเกินจริงภายในแต่ละกลุ่ม

โดยทั่วไปมีข้อเสนอแนะมากมายว่ากราฟชนิดใดมีประโยชน์ แต่มีความเห็นร่วมกันเล็กน้อยว่าจะดีที่สุด ฉันขอแนะนำให้ใช้เกณฑ์ที่แสดงกราฟที่ดี

  • รูปแบบที่สมบูรณ์ของการเปลี่ยนแปลงในข้อมูลอย่างน้อยเป็นฉากหลังหรือบริบท

  • ข้อมูลสรุปที่เกี่ยวข้องโดยเฉพาะข้อมูลที่เกี่ยวข้องกับตัวแบบที่ได้รับความบันเทิงหรือตัวบ่งชี้ที่กำลังพิจารณา

  • ข้อบ่งชี้ของปัญหาที่อาจเกิดขึ้นกับข้อมูลที่ทำให้เกิดข้อสงสัยเกี่ยวกับการตั้งสมมติฐาน

มีการออกแบบหลายอย่างที่ช่วยด้วย ANOVA เช่นจุดหรือสตริปพล็อตที่มีวิธีการเพิ่มและ SEs

บทความนี้โดย John Tukeyอธิบายถึงความแตกต่างระหว่างกราฟการโฆษณาชวนเชื่อและกราฟเชิงวิเคราะห์ที่เกี่ยวข้องกับที่นี่ มีภาพประกอบกราฟิกของ ANOVA มากเกินไปเป็นกราฟโฆษณาชวนเชื่อ (ดู! กลุ่มแตกต่างกันมาก) โดยไม่มีการวิเคราะห์มาก (และเราสามารถเรียนรู้อะไรเกี่ยวกับข้อมูลหรือข้อ จำกัด ของเทคนิคในแอปพลิเคชันนี้อีก)


ดังนั้นวิธีการเกี่ยวกับการแปลงไวโอลินที่มีความหมาย, sd และค่าผิดปกติ?
ziggystar

แผนการของไวโอลินจะมีประโยชน์ โดยส่วนตัวแล้วฉันชอบบางสิ่งที่ใกล้ชิดกับข้อมูลดิบมากขึ้นเพื่อที่ฉันจะได้เห็นความเป็นกิริยาช่วยและความละเอียด
นิคค็อกซ์

8

โปรดอย่าสับสนระหว่างแผนภูมิแท่ง (หนึ่งแท่งถูกใช้เพื่อแสดงปริมาณของแต่ละดอกเบี้ย) และแปลงไดนาไมต์ (หนึ่งแท่งแสดงค่าเฉลี่ยของแต่ละกลุ่มรวมถึงแถบข้อผิดพลาด) แปลงไดนาไมต์ไม่เคยยอมรับเพราะซ่อนการกระจายของข้อมูลโดยไม่มีเหตุผลเลย

ใช่ฉันรู้ว่านี่เป็นพล็อตประเภทธรรมดาที่สุด มันเป็นปัญหาใหญ่ที่สะท้อนให้เห็นถึงความสำคัญ (ต่ำ) ที่นักวิจัยวางไว้กับรูปร่างของข้อมูลของพวกเขา หากคุณเป็นนักสืบที่กำลังมองหาอาวุธสังหารมันจะดีกว่าไหมถ้าพยานบอกคุณ 1) เฉพาะที่ตั้งและขนาดของอาวุธ? หรือ 2) ที่ตั้งขนาดและรูปร่าง?

http://biostat.mc.vanderbilt.edu/wiki/pub/Main/TatsukiRcode/Poster3.pdf


คุณมีทรัพยากรอื่น ๆ หรือไม่ว่าทำไมแปลงของไดนาไมต์ถึงไม่เหมาะ?
mguzmann

@mguzmann ขออภัยฉันทำไม่ได้ ฉันยังสงสัยว่าใครเป็นคนคิดเรื่องนี้ขึ้นมาการยอมรับในช่วงเวลา ฯลฯ และไม่สามารถหาอะไรเจอได้ ฉันคิดว่ามันวิวัฒนาการมาจากการรายงานตารางค่าเฉลี่ย +/- ข้อผิดพลาดในวันก่อนคอมพิวเตอร์ ฉันเคยเห็นเอกสารจากช่วงทศวรรษที่ 1930 ที่จัดการเผยแพร่ตารางของชุดข้อมูลที่สมบูรณ์ดังนั้นฉันไม่แน่ใจว่าการฝึกนั้นเป็นธรรมจริง ๆ เช่นกัน ตัวอย่างเช่น: Hedrich AW การประเมินรายเดือนของประชากรเด็ก "อ่อนไหว" ต่อหัด, 2443-2474 บัลติมอร์แมริแลนด์ Am J Hyg 1933; 17: 613-636
Livid
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.