ฉันควรทำตามแนวทางปฏิบัติที่ดีที่สุดอย่างไรเมื่อเตรียมแปลง?


40

ฉันมักจะสร้างทางเลือกที่แปลกประหลาดของตัวเองเมื่อเตรียมแปลง อย่างไรก็ตามฉันสงสัยว่ามีวิธีปฏิบัติที่ดีที่สุดในการสร้างแปลงหรือไม่

หมายเหตุ: ความคิดเห็นของ Robต่อคำตอบสำหรับคำถามนี้มีความเกี่ยวข้องมากที่นี่

คำตอบ:


23

หลักการของ Tufte เป็นแนวปฏิบัติที่ดีมากเมื่อเตรียมแปลง ดูหลักฐานที่สวยงามของหนังสือของเขา

หลักการรวมถึง:

  • รักษาอัตราส่วนข้อมูลหมึกสูง
  • ลบแผนภูมิขยะ
  • ให้องค์ประกอบกราฟิกหลายฟังก์ชั่น
  • โปรดจำไว้ว่าความหนาแน่นของข้อมูล

คำที่จะค้นหาคือการแสดงข้อมูล


4
การแสดงผลข้อมูลเชิงปริมาณของ Tufte ( amazon.com/o/ASIN/0961392142/ref=nosim/gettgenedone-20 ) ดีกว่าหลักฐาน IMO ที่สวยงาม หนังสือทั้งสี่เล่มของเขานั้นดีและถ้าคุณมีโอกาสได้เข้าร่วมหนึ่งในหลักสูตรของเขาให้ทำ
Stephen Turner

5
ฉันเห็นด้วยกับสิ่งที่ Tufte พูด แต่ฉันต้องบอกว่าข้อมูลต่ำของเขา: กล่องหมึกนั้นเป็นเพียงแค่ความงี่เง่าธรรมดา ฉันคิดว่าพวกเขาพาฉันไปอีก 3-4 ครั้งเพื่อคิดออกมากกว่ากล่องสี่เหลี่ยมมาตรฐาน ค่าเริ่มต้นของ R นั้นดีกว่ามาก (แม้ว่าบรรทัดที่ปลายหางจะไม่จำเป็น) กล่องสี่เหลี่ยมแบบดั้งเดิมมีข้อดีเพิ่มเติมที่สามารถเป็นตัวแทนของขนาดตัวอย่าง (กว้าง) และส่วนเบี่ยงเบนมาตรฐาน (มีรอยบาก)
naught101

2
+1 @ naught101 อีกไม่กี่คนแบ่งปันความคิดเห็นนี้ได้ที่SO: stackoverflow.com/questions/6973394/…
Ben

15

เราสามารถอยู่ที่นี่ได้ตลอดทั้งวันเพื่อแสดงวิธีปฏิบัติที่ดีที่สุด แต่คุณควรเริ่มจากการอ่าน Tufte คำแนะนำหลักของฉัน:

ง่าย ๆ เข้าไว้.

บ่อยครั้งที่ผู้คนพยายามโหลดข้อมูลด้วยแผนภูมิ แต่คุณควรมีแนวคิดหลักเพียงข้อเดียวที่คุณพยายามสื่อและถ้ามีคนไม่ได้รับข้อความของคุณเกือบจะทันทีคุณควรคิดใหม่ว่าคุณได้นำเสนออย่างไร ดังนั้นอย่าเริ่มทำงานกับแผนภูมิของคุณจนกว่าข้อความจะชัดเจน มีดโกนของ Occam ก็มีผลเช่นกัน


1
ฉันเห็นด้วยกับประเด็นนี้เป็นส่วนใหญ่ แต่ฉันคิดว่า "ทำให้ง่าย" อาจไม่ชัดเจน ประเด็นหลักของคุณคือคุณควรรู้ว่าคุณต้องการให้แผนภูมิถ่ายทอดอย่างไร "ง่าย ๆ เข้าไว้." นำเสนอแนวคิดอื่น ๆ เช่น "ข้อมูล: อัตราส่วนหมึกควรสูง" ซึ่ง Tufte สนับสนุนและ "แสดงตัวแปรไม่เกินสามตัว" ซึ่ง Tufte ไม่สนับสนุน
โทมัสเลวีน

เห็นได้ชัดว่าคำแนะนำนี้ดีกว่าอย่างมากตรงกันข้าม แต่มีสถานการณ์ที่กราฟจำเป็นต้องมีความซับซ้อนและจำเป็นต้องศึกษาอย่างละเอียดรอบคอบและรอบคอบ แต่ความยุ่งยากนั้นควรจะง่ายที่สุดเท่าที่จะทำได้ ตัวอย่างเช่น 25 แผนการในเมทริกซ์ 5 x 5 อาจต้องศึกษานาน แต่แนวคิดที่ว่าแต่ละรายการแสดงเพียงบางส่วนของข้อมูลนั้นค่อนข้างเข้าใจง่าย
Nick Cox

12

กฎข้อหนึ่งที่ฉันไม่ได้ปฏิบัติตามเสมอไป แต่สิ่งที่มีประโยชน์ในบางครั้งก็คือการคำนึงว่ามันเป็นไปได้ที่แผนการของคุณจะมีอยู่ในอนาคต

  • ส่งทางแฟกซ์
  • ถ่ายเอกสารและ / หรือ
  • ทำซ้ำในขาวดำ

คุณต้องพยายามทำให้แผนการของคุณชัดเจนเพียงพอแม้ว่าในอนาคตจะมีการทำซ้ำอย่างไม่ถูกต้อง แต่ข้อมูลที่พล็อตพยายามถ่ายทอดนั้นยังคงชัดเจน


14
ฉันคิดว่าคุณหมายถึงส่งแฟกซ์ในบางจุดในอดีต ;)
hadley

+1 สำหรับสิ่งนี้ พล็อตเรื่องน้ำเชื้อของคุณซึ่งเป็นหัวใจของบทความของคุณไม่ควรจะเข้าใจไม่ได้เพราะฉันพิมพ์ออกมา
Fomite

คำตอบนี้เน้นปัญหาที่คล้ายกัน
naught101

8

นอกจากการนำเสนอข้อความที่ชัดเจนแล้วฉันยังพยายามจดจำความคิดฟุ้งซ่านเสมอ:

  • ขนาดแบบอักษรสำหรับป้ายกำกับและตำนานควรมีขนาดใหญ่พอสมควรควรมีขนาดแบบอักษรและแบบอักษรเดียวกันกับที่ใช้ในสิ่งพิมพ์ขั้นสุดท้าย
  • linewidths ควรมีขนาดใหญ่พอ (1 pt บรรทัดมีแนวโน้มที่จะหายไปถ้าแปลงหดเล็กน้อยเท่านั้น) ฉันพยายามไปที่เส้นแบ่งระหว่าง 3 ถึง 5 pt
  • หากการวางแผนหลายชุดข้อมูล / เส้นโค้งด้วยสีตรวจสอบให้แน่ใจว่าพวกเขาสามารถเข้าใจได้ถ้าพิมพ์ในสีดำและสีขาวเช่นโดยใช้สัญลักษณ์หรือ linestyles ที่แตกต่างกันนอกเหนือไปจากสี
  • ใช้รูปแบบ lossless (หรือใกล้เคียงกับ lossless) เสมอเช่นรูปแบบเวกเตอร์เช่น pdf, ps หรือ svg หรือความละเอียดสูง png หรือ gif (jpeg ไม่ทำงานเลยและไม่เคยออกแบบมาเพื่อการวาดเส้น)
  • เตรียมกราฟิกในอัตราส่วนกว้างยาวสุดท้ายที่จะใช้ในสิ่งพิมพ์ การเปลี่ยนอัตราส่วนภาพในภายหลังสามารถทำให้รูปแบบตัวอักษรหรือสัญลักษณ์น่ารำคาญได้
  • ลบความยุ่งเหยิงที่ไม่มีประโยชน์ออกจากโปรแกรมการวางแผนเช่นข้อมูลฮิสโตแกรมที่ไม่ได้ใช้เส้นแนวโน้ม (มีประโยชน์น้อยมาก) หรือชื่อเริ่มต้น

ฉันได้กำหนดค่าซอฟต์แวร์การวางแผนของฉัน (matplotlib, ROOT หรือ root2matplotlib) ให้ทำตามสิทธิ์ส่วนใหญ่เป็นค่าเริ่มต้น ก่อนที่ฉันจะใช้gnuplotซึ่งต้องการการดูแลเป็นพิเศษที่นี่


8

ในสาขาฟิสิกส์มีกฎที่ควรเข้าใจได้จากรายงานฉบับย่อ / ฉบับย่อ ดังนั้นฉันจะแนะนำว่าพวกเขาควรอธิบายตนเอง
นี่ก็หมายความว่าคุณจะต้องตรวจสอบเสมอว่าผู้ชมของคุณคุ้นเคยกับพล็อตบางประเภทหรือไม่ - ฉันเคยทำผิดพลาดครั้งใหญ่โดยสมมติว่านักวิทยาศาสตร์ทุกคนรู้ว่าบ็อกซ์พล็อตคืออะไรและเสียเวลาหนึ่งชั่วโมงในการอธิบาย


ความเห็นอกเห็นใจต่อประสบการณ์การวางแผนกล่อง แต่สิ่งนี้หมายถึง (a) การใช้ตัวแปรที่ค่อนข้างง่าย (เช่นการแสดงค่ามัธยฐาน, ควอไทล์, 5% และ 95% คะแนนและจุดข้อมูลทั้งหมดเกิน) แทนที่จะแสดงอะไรขึ้นอยู่กับการประชุมที่มีศูนย์กลาง 1.5 IQR; (b) การเพิ่มคำบรรยายประกอบการประชุมอย่างชัดเจน
Nick Cox

6

นี่คือแนวทางของฉันตามข้อผิดพลาดทั่วไปที่ฉันเห็น (นอกเหนือจากจุดดีอื่น ๆ ทั้งหมดที่กล่าวถึง)

  • ใช้กราฟกระจายไม่ใช่พล็อตบรรทัดหากลำดับองค์ประกอบไม่เกี่ยวข้อง
  • เมื่อเตรียมแปลงที่ตั้งใจจะนำมาเปรียบเทียบให้ใช้ตัวคูณสเกลเดียวกันกับทั้งหมด
  • ยิ่งไปกว่านั้น - หาวิธีที่จะรวมข้อมูลในกราฟเดียว (เช่น: บ็อกซ์พล็อตดีกว่าฮิสโทแกรมหลาย ๆ อันเพื่อเปรียบเทียบการแจกแจงจำนวนมาก)
  • อย่าลืมระบุหน่วย
  • ใช้คำอธิบายแผนภูมิหากคุณต้องใช้เท่านั้น - โดยทั่วไปแล้วจะชัดเจนกว่าในการติดฉลากเส้นโค้งโดยตรง
  • หากคุณต้องใช้คำอธิบายแผนภูมิให้ย้ายมันไว้ในเนื้อเรื่องในพื้นที่ว่าง
  • สำหรับกราฟเส้นจุดมุ่งหมายสำหรับอัตราส่วนที่ทำให้เส้นที่ประมาณที่ 45o กับหน้า

"boxplots ดีกว่าฮิสโทแกรมหลาย ๆ แบบเพื่อเปรียบเทียบการแจกแจงจำนวนมาก" - นี่เป็นจริงเฉพาะถ้าข้อมูลของคุณเป็นแบบ unimodal และไม่มี kurtosis หรือคุณสมบัติอื่น ๆ ที่ไม่สามารถจับได้โดย boxplots ..
naught101

6

ดูที่ไลบรารีกราฟิก R, ggplot2 รายละเอียดอยู่ที่หน้าเว็บhttp://had.co.nz/ggplot2/แพ็คเกจนี้สร้างแผนการเริ่มต้นที่ดีมากซึ่งเป็นไปตามหลักการ Tufte แนวทางของ Cleveland และแพคเกจสีของ Ihaka


6

หากพล็อตเป็นสีให้พิจารณาว่าคนตาบอดสีอาจมีปัญหาในการจำแนกองค์ประกอบด้วยสีเพียงอย่างเดียว ดังนั้น:

  • ใช้ลักษณะของเส้นเพื่อแยกความแตกต่างของเส้น
  • ใช้น้ำหนักเพิ่มในองค์ประกอบสร้างเส้นอย่างน้อย 2 pt เป็นต้น
  • ใช้เครื่องหมายที่แตกต่างกันเช่นเดียวกับสีเพื่อแยกจุดต่าง ๆ
  • ใช้ป้ายกำกับและคำอธิบายประกอบซึ่งอ้างอิงตำแหน่งและสไตล์ด้วย
  • เมื่ออ้างถึงองค์ประกอบการพล็อตในข้อความให้อธิบายด้วยสีตำแหน่งและรูปแบบสัมพัทธ์: "เส้นโค้งสีแดงด้านบนเส้นประจุด"
  • ใช้จานสีที่เป็นมิตรกับตาบอดสี ดูhttp://www.vischeck.com/vischeck/ , http://jfly.iam.u-tokyo.ac.jp/color/#pallet ฉันมีการใช้งาน python แบบง่ายของพาเล็ตในการอ้างอิงล่าสุดที่ code.google.com มองหา python-cudtools

พิจารณาข้อเท็จจริงที่ว่าบางคนอาจต้องพิมพ์ออกมาบนเครื่องพิมพ์สีเทา ฉันเคยทำมาก่อน - ฉันใช้สีเริ่มต้น ggplot2 (ซึ่งดูดีบนหน้าจอ) สำหรับการมอบหมายซึ่งฉันพิมพ์ออกมาเป็นขาวดำและครึ่งหนึ่งของสีไม่สามารถแยกความแตกต่างจากคนอื่น ๆ ! * blush *
naught101

4

นี่เป็นคำแนะนำที่ยอดเยี่ยม เราได้รวบรวมจำนวนมากของวัสดุที่http://biostat.mc.vanderbilt.edu/StatGraphCourse กลุ่มนักสถิติในอุตสาหกรรมยาสถาบันการศึกษาและองค์การอาหารและยากำลังสร้างทรัพยากรที่จะเป็นประโยชน์อย่างมากสำหรับการทดลองทางคลินิกและการวิจัยที่เกี่ยวข้อง วัสดุใหม่จำนวนมากจะถูกเปิดเผยในหนึ่งเดือน แต่มีอยู่มากมายที่นั่น - http://www.ctspedia.org/do/view/CTSpedia/PageOneStatGraph

หนังสือกราฟิกส่วนบุคคลที่ฉันชอบคือองค์ประกอบของข้อมูลกราฟโดย William Cleveland

ในแง่ของซอฟต์แวร์ในความคิดของฉันมันยากที่จะเอาชนะแพ็คเกจ ggplot2 และขัดแตะของ R Stata ยังรองรับกราฟิกที่ยอดเยี่ยมบางอย่าง


3

นอกจากนี้ยังขึ้นอยู่กับที่คุณไม่ต้องการเผยแพร่แผนการของคุณ คุณจะช่วยตัวเองให้เดือดร้อนมากด้วยการปรึกษากับผู้เขียนก่อนที่จะทำการแปลงใด ๆ สำหรับวารสาร

นอกจากนี้ยังบันทึกแปลงในรูปแบบที่ง่ายต่อการปรับเปลี่ยนหรือบันทึกรหัสที่คุณใช้ในการสร้าง โอกาสที่คุณจะต้องทำการแก้ไข



2

คำตอบอื่น ๆ นั้นเกินกว่าที่จะน่าเชื่อถือดังนั้นฉันขอให้คำตอบทั่วไปมากขึ้น ฉันต่อสู้กับคำถามนี้มาระยะหนึ่งแล้ว ฉันเสนอกระบวนการนี้:

  1. รู้ข้อความของคุณ
  2. รู้จักผู้ชมของคุณ
  3. รู้ข้อ จำกัด ของคุณ
  4. ปรับแต่งข้อความของคุณไปยังผู้ชมของคุณเนื่องจากข้อ จำกัด ของคุณ

ฉันไม่เชื่อในการกล่าวอ้างผ้าห่มเช่น "ทำให้มันง่าย" - นั่นหมายความว่าอย่างไร? มันขึ้นอยู่กับผู้ชม ผู้ชมบางคนจะกินสไตล์ Tufte แต่ผู้ชมบางคนชื่นชมขยะแผนภูมิเล็กน้อยตอนนี้แล้ว บางคนเบื่อกับการกระจาย บางคนชอบพื้นหลังที่มีสีสัน มันเป็นความผิดหรือเปล่าที่จะมีส่วนร่วมกับพวกเขาเล็กน้อยแม้ว่าคุณจะประนีประนอมความ "งาม" หรือไม่? ขึ้นอยู่กับคุณที่จะตัดสินใจ

ปฏิกิริยาของผู้ชมของคุณจะเป็นข้อเสนอแนะที่สำคัญ แต่ไม่ใช่เพียงข้อเสนอแนะเดียว หากคุณพบวิธีวัดความเข้าใจก่อนและหลังการนำเสนอของคุณคุณจะเริ่มเข้าใจถึงผลกระทบที่คุณได้ทำ

คำตอบ "ถูกต้อง" จะขึ้นอยู่กับประเภทของคำถามเหล่านี้:

  • คุณจะใช้สื่ออะไร

  • คุณกำลังสร้างแปลงแบบคงที่หรือแบบโต้ตอบ?

  • คุณกำลังพยายามเล่าเรื่องที่กำหนดไว้ล่วงหน้า (การแสดงออก) หรือสนับสนุนการทดลอง (การสำรวจ) หรือไม่

  • คุณต้องการให้ผู้ชมได้รับข้อสรุปของตนเองในระดับใด

  • คุณต้องการให้ผู้ชมสนใจและติดตามเรื่องราวของคุณในระดับใด

  • คุณต้องการให้ผู้ชมท้าทายคุณในระดับใด

โดยสรุปออกแบบวัสดุของคุณโดยเจตนาให้ข้อความผู้ชมและข้อ จำกัด ของคุณ


"มีส่วนร่วม" หรือกวนใจ? สีสามารถใช้ได้ แต่คุณอยู่ที่นี่ในที่สุดเกี่ยวกับข้อมูลและความสวยงามควรให้บริการข้อมูลไม่ใช่วิธีอื่น ๆ
naught101

2

สิ่งหนึ่งที่ฉันดูเหมือนจะจำ Tufte กล่าวขวัญที่ไม่อยู่ในคำตอบอื่น ๆ คือการทำแผนที่ - นั่นคือตำแหน่งที่ทำให้ทิศทางขนาดและอื่น ๆ บนกราฟของคุณเป็นตัวแทนของความเป็นจริง มีอะไรเกิดขึ้นบนกราฟในโลกแห่งความเป็นจริง สิ่งที่ควรจะใหญ่คือใหญ่ (โปรดจำไว้ว่าพื้นที่ควรเป็นตัวแทนของพื้นที่และไดรฟ์ข้อมูลโวลุ่มอย่าพยายามแสดงค่าสเกลาร์ตามพื้นที่ นอกจากนี้ยังนำไปใช้กับสีรูปร่าง ฯลฯ หากมีความเกี่ยวข้อง

ตัวอย่างที่น่าสนใจคือ "กระโปรงชุด" กราฟที่นี่: http://a-little-book-of-r-for-time-series.readthedocs.org/en/latest/src/timeseries.html ในขณะที่ในทางเทคนิคมันถูกต้องและความยาวกระโปรง "สูง" ครองตำแหน่งที่สูงขึ้นบนกราฟนั้นจริง ๆ แล้วค่อนข้างสับสนเนื่องจากความยาวกระโปรงเริ่มจากด้านบนและลงไป(ต่างจากมนุษย์หรือต้นไม้ซึ่งเราวัดความสูงจาก พื้น). ดังนั้นความยาวกระโปรงที่เพิ่มขึ้นจริง ๆ แล้วหมายถึงค่าที่ต่ำกว่า :

skirts <- scan("http://robjhyndman.com/tsdldata/roberts/skirts.dat",skip=5)
skirtsseries <- ts(skirts,start=c(1866))
plot.ts(skirtsseries, ylim=c(max(skirts),min(skirts)))

ป้อนคำอธิบายรูปภาพที่นี่

มีเช่นเคยความยากลำบาก ตัวอย่างเช่นโดยทั่วไปเราพิจารณาเวลาที่จะก้าวไปข้างหน้าและอย่างน้อยที่สุดเราอ่านจากซ้ายไปขวาดังนั้นกราฟอนุกรมเวลาของเราก็มักจะไหลจากซ้ายไปขวาเมื่อเวลาเพิ่มขึ้น ดังนั้นจะเกิดอะไรขึ้นถ้าคุณต้องการที่จะเป็นตัวแทนของสิ่งที่ดีที่สุดที่แสดงด้านข้าง (เช่นการวัดบางสิ่งบางอย่างตะวันออก - ตะวันตก) เมื่อเวลาผ่านไป? ในกรณีนี้คุณต้องประนีประนอมและแสดงเวลาที่เลื่อนขึ้นหรือลง (ซึ่งขึ้นอยู่กับการรับรู้ทางวัฒนธรรมอีกครั้งฉันเดา) หรือเลือกที่จะแมปตัวแปรด้านข้างของคุณเพื่อขึ้น / ลงบนกราฟของคุณ


1
ตัวอย่างของการปิดครั้งที่ / พื้นที่อยู่ในหนังสือเล่มนี้ทำแผนที่ (การสนทนาที่สำคัญและเป็นตัวอย่างให้ที่นี่ .
แอนดี้ W

ตัวอย่างที่ดี (น่ากลัว)! แผนที่นำมาซึ่งการแลกเปลี่ยนอื่นที่ยากกว่า: พยายามแสดง 2 มิติ + เวลาบนหน้าสองมิติ (เช่นแผนที่ของดริฟท์แบบทวีป) ค่อนข้างยาก แต่ผมคิดว่าสิ่งที่ภาพเคลื่อนไหวที่มีการ :)
naught101

ตัวอย่างการบอกของคุณอนุญาตให้พูดถึงสองคะแนนพิเศษที่เกิดขึ้นบ่อยครั้ง 1. ด้วยแกนเวลาชื่อหรือป้ายกำกับเช่น "TIme" จึงซ้ำซ้อนกัน 2. ชื่อหรือป้ายกำกับเช่น "skirtseries" สามารถปรับปรุงได้ด้วยคำอธิบายสั้น ๆ แต่ให้ข้อมูลรวมถึงหน่วยการวัดตามความเหมาะสม
Nick Cox

1

ขึ้นอยู่กับวิธีที่จะพูดคุยเรื่องแปลง

ตัวอย่างเช่นถ้าฉันส่งแปลงสำหรับการประชุมกลุ่มที่จะดำเนินการกับผู้โทรจากสถานที่ต่างกันฉันชอบที่จะรวมพวกเขาไว้ใน Powerpoint ซึ่งตรงข้ามกับ Excel ดังนั้นจึงง่ายที่จะพลิกไปมา

สำหรับการโทรทางเทคนิคแบบตัวต่อตัวฉันจะวางบางอย่างใน excel เพื่อให้ลูกค้าสามารถย้ายพล็อตและดูข้อมูลดิบ หรือฉันสามารถป้อนค่า p ลงในเซลล์พร้อมค่าสัมประสิทธิ์การถดถอยด้านข้างเช่น

โปรดทราบว่า: แผนการมีราคาถูกโดยเฉพาะอย่างยิ่งสำหรับการนำเสนอภาพนิ่งหรือสำหรับส่งอีเมลไปยังกลุ่ม ฉันอยากให้แปลงชัดเจน 10 แปลงที่เราสามารถพลิกได้มากกว่า 5 แปลงที่ฉันพยายามใส่กลุ่มเพื่อน (เช่น "ชายและหญิง") ลงในกราฟเดียวกัน


1

ฉันจะเพิ่มว่าตัวเลือกของพล็อตควรสะท้อนถึงประเภทของการทดสอบทางสถิติที่ใช้ในการวิเคราะห์ข้อมูล กล่าวอีกนัยหนึ่งว่าคุณลักษณะใดของข้อมูลที่ถูกนำมาใช้ในการวิเคราะห์ควรแสดงให้เห็นด้วยสายตาดังนั้นคุณจะแสดงความหมายและข้อผิดพลาดมาตรฐานหากคุณใช้การทดสอบ t-box แต่บ็อกซ์พล็อตหากคุณใช้การทดสอบ Mann-Whitney

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.