ฉันมักจะสร้างทางเลือกที่แปลกประหลาดของตัวเองเมื่อเตรียมแปลง อย่างไรก็ตามฉันสงสัยว่ามีวิธีปฏิบัติที่ดีที่สุดในการสร้างแปลงหรือไม่
หมายเหตุ: ความคิดเห็นของ Robต่อคำตอบสำหรับคำถามนี้มีความเกี่ยวข้องมากที่นี่
ฉันมักจะสร้างทางเลือกที่แปลกประหลาดของตัวเองเมื่อเตรียมแปลง อย่างไรก็ตามฉันสงสัยว่ามีวิธีปฏิบัติที่ดีที่สุดในการสร้างแปลงหรือไม่
หมายเหตุ: ความคิดเห็นของ Robต่อคำตอบสำหรับคำถามนี้มีความเกี่ยวข้องมากที่นี่
คำตอบ:
หลักการของ Tufte เป็นแนวปฏิบัติที่ดีมากเมื่อเตรียมแปลง ดูหลักฐานที่สวยงามของหนังสือของเขา
หลักการรวมถึง:
คำที่จะค้นหาคือการแสดงข้อมูล
SO
: stackoverflow.com/questions/6973394/…
เราสามารถอยู่ที่นี่ได้ตลอดทั้งวันเพื่อแสดงวิธีปฏิบัติที่ดีที่สุด แต่คุณควรเริ่มจากการอ่าน Tufte คำแนะนำหลักของฉัน:
ง่าย ๆ เข้าไว้.
บ่อยครั้งที่ผู้คนพยายามโหลดข้อมูลด้วยแผนภูมิ แต่คุณควรมีแนวคิดหลักเพียงข้อเดียวที่คุณพยายามสื่อและถ้ามีคนไม่ได้รับข้อความของคุณเกือบจะทันทีคุณควรคิดใหม่ว่าคุณได้นำเสนออย่างไร ดังนั้นอย่าเริ่มทำงานกับแผนภูมิของคุณจนกว่าข้อความจะชัดเจน มีดโกนของ Occam ก็มีผลเช่นกัน
กฎข้อหนึ่งที่ฉันไม่ได้ปฏิบัติตามเสมอไป แต่สิ่งที่มีประโยชน์ในบางครั้งก็คือการคำนึงว่ามันเป็นไปได้ที่แผนการของคุณจะมีอยู่ในอนาคต
คุณต้องพยายามทำให้แผนการของคุณชัดเจนเพียงพอแม้ว่าในอนาคตจะมีการทำซ้ำอย่างไม่ถูกต้อง แต่ข้อมูลที่พล็อตพยายามถ่ายทอดนั้นยังคงชัดเจน
นอกจากการนำเสนอข้อความที่ชัดเจนแล้วฉันยังพยายามจดจำความคิดฟุ้งซ่านเสมอ:
ฉันได้กำหนดค่าซอฟต์แวร์การวางแผนของฉัน (matplotlib, ROOT หรือ root2matplotlib) ให้ทำตามสิทธิ์ส่วนใหญ่เป็นค่าเริ่มต้น ก่อนที่ฉันจะใช้gnuplot
ซึ่งต้องการการดูแลเป็นพิเศษที่นี่
ในสาขาฟิสิกส์มีกฎที่ควรเข้าใจได้จากรายงานฉบับย่อ / ฉบับย่อ ดังนั้นฉันจะแนะนำว่าพวกเขาควรอธิบายตนเอง
นี่ก็หมายความว่าคุณจะต้องตรวจสอบเสมอว่าผู้ชมของคุณคุ้นเคยกับพล็อตบางประเภทหรือไม่ - ฉันเคยทำผิดพลาดครั้งใหญ่โดยสมมติว่านักวิทยาศาสตร์ทุกคนรู้ว่าบ็อกซ์พล็อตคืออะไรและเสียเวลาหนึ่งชั่วโมงในการอธิบาย
นี่คือแนวทางของฉันตามข้อผิดพลาดทั่วไปที่ฉันเห็น (นอกเหนือจากจุดดีอื่น ๆ ทั้งหมดที่กล่าวถึง)
ดูที่ไลบรารีกราฟิก R, ggplot2 รายละเอียดอยู่ที่หน้าเว็บhttp://had.co.nz/ggplot2/แพ็คเกจนี้สร้างแผนการเริ่มต้นที่ดีมากซึ่งเป็นไปตามหลักการ Tufte แนวทางของ Cleveland และแพคเกจสีของ Ihaka
หากพล็อตเป็นสีให้พิจารณาว่าคนตาบอดสีอาจมีปัญหาในการจำแนกองค์ประกอบด้วยสีเพียงอย่างเดียว ดังนั้น:
นี่เป็นคำแนะนำที่ยอดเยี่ยม เราได้รวบรวมจำนวนมากของวัสดุที่http://biostat.mc.vanderbilt.edu/StatGraphCourse กลุ่มนักสถิติในอุตสาหกรรมยาสถาบันการศึกษาและองค์การอาหารและยากำลังสร้างทรัพยากรที่จะเป็นประโยชน์อย่างมากสำหรับการทดลองทางคลินิกและการวิจัยที่เกี่ยวข้อง วัสดุใหม่จำนวนมากจะถูกเปิดเผยในหนึ่งเดือน แต่มีอยู่มากมายที่นั่น - http://www.ctspedia.org/do/view/CTSpedia/PageOneStatGraph
หนังสือกราฟิกส่วนบุคคลที่ฉันชอบคือองค์ประกอบของข้อมูลกราฟโดย William Cleveland
ในแง่ของซอฟต์แวร์ในความคิดของฉันมันยากที่จะเอาชนะแพ็คเกจ ggplot2 และขัดแตะของ R Stata ยังรองรับกราฟิกที่ยอดเยี่ยมบางอย่าง
นอกจากนี้ยังขึ้นอยู่กับที่คุณไม่ต้องการเผยแพร่แผนการของคุณ คุณจะช่วยตัวเองให้เดือดร้อนมากด้วยการปรึกษากับผู้เขียนก่อนที่จะทำการแปลงใด ๆ สำหรับวารสาร
นอกจากนี้ยังบันทึกแปลงในรูปแบบที่ง่ายต่อการปรับเปลี่ยนหรือบันทึกรหัสที่คุณใช้ในการสร้าง โอกาสที่คุณจะต้องทำการแก้ไข
อย่าใช้แผนการวางระเบิดไดนาไมต์: http://pablomarin-garcia.blogspot.com/2010/02/why-dynamite-plots-are-bad.htmlใช้แผนการแปลงหรือสิ่งที่คล้ายกัน (ตระกูล boxplots)
คำตอบอื่น ๆ นั้นเกินกว่าที่จะน่าเชื่อถือดังนั้นฉันขอให้คำตอบทั่วไปมากขึ้น ฉันต่อสู้กับคำถามนี้มาระยะหนึ่งแล้ว ฉันเสนอกระบวนการนี้:
ฉันไม่เชื่อในการกล่าวอ้างผ้าห่มเช่น "ทำให้มันง่าย" - นั่นหมายความว่าอย่างไร? มันขึ้นอยู่กับผู้ชม ผู้ชมบางคนจะกินสไตล์ Tufte แต่ผู้ชมบางคนชื่นชมขยะแผนภูมิเล็กน้อยตอนนี้แล้ว บางคนเบื่อกับการกระจาย บางคนชอบพื้นหลังที่มีสีสัน มันเป็นความผิดหรือเปล่าที่จะมีส่วนร่วมกับพวกเขาเล็กน้อยแม้ว่าคุณจะประนีประนอมความ "งาม" หรือไม่? ขึ้นอยู่กับคุณที่จะตัดสินใจ
ปฏิกิริยาของผู้ชมของคุณจะเป็นข้อเสนอแนะที่สำคัญ แต่ไม่ใช่เพียงข้อเสนอแนะเดียว หากคุณพบวิธีวัดความเข้าใจก่อนและหลังการนำเสนอของคุณคุณจะเริ่มเข้าใจถึงผลกระทบที่คุณได้ทำ
คำตอบ "ถูกต้อง" จะขึ้นอยู่กับประเภทของคำถามเหล่านี้:
คุณจะใช้สื่ออะไร
คุณกำลังสร้างแปลงแบบคงที่หรือแบบโต้ตอบ?
คุณกำลังพยายามเล่าเรื่องที่กำหนดไว้ล่วงหน้า (การแสดงออก) หรือสนับสนุนการทดลอง (การสำรวจ) หรือไม่
คุณต้องการให้ผู้ชมได้รับข้อสรุปของตนเองในระดับใด
คุณต้องการให้ผู้ชมสนใจและติดตามเรื่องราวของคุณในระดับใด
คุณต้องการให้ผู้ชมท้าทายคุณในระดับใด
โดยสรุปออกแบบวัสดุของคุณโดยเจตนาให้ข้อความผู้ชมและข้อ จำกัด ของคุณ
สิ่งหนึ่งที่ฉันดูเหมือนจะจำ Tufte กล่าวขวัญที่ไม่อยู่ในคำตอบอื่น ๆ คือการทำแผนที่ - นั่นคือตำแหน่งที่ทำให้ทิศทางขนาดและอื่น ๆ บนกราฟของคุณเป็นตัวแทนของความเป็นจริง มีอะไรเกิดขึ้นบนกราฟในโลกแห่งความเป็นจริง สิ่งที่ควรจะใหญ่คือใหญ่ (โปรดจำไว้ว่าพื้นที่ควรเป็นตัวแทนของพื้นที่และไดรฟ์ข้อมูลโวลุ่มอย่าพยายามแสดงค่าสเกลาร์ตามพื้นที่ นอกจากนี้ยังนำไปใช้กับสีรูปร่าง ฯลฯ หากมีความเกี่ยวข้อง
ตัวอย่างที่น่าสนใจคือ "กระโปรงชุด" กราฟที่นี่: http://a-little-book-of-r-for-time-series.readthedocs.org/en/latest/src/timeseries.html ในขณะที่ในทางเทคนิคมันถูกต้องและความยาวกระโปรง "สูง" ครองตำแหน่งที่สูงขึ้นบนกราฟนั้นจริง ๆ แล้วค่อนข้างสับสนเนื่องจากความยาวกระโปรงเริ่มจากด้านบนและลงไป(ต่างจากมนุษย์หรือต้นไม้ซึ่งเราวัดความสูงจาก พื้น). ดังนั้นความยาวกระโปรงที่เพิ่มขึ้นจริง ๆ แล้วหมายถึงค่าที่ต่ำกว่า :
skirts <- scan("http://robjhyndman.com/tsdldata/roberts/skirts.dat",skip=5)
skirtsseries <- ts(skirts,start=c(1866))
plot.ts(skirtsseries, ylim=c(max(skirts),min(skirts)))
มีเช่นเคยความยากลำบาก ตัวอย่างเช่นโดยทั่วไปเราพิจารณาเวลาที่จะก้าวไปข้างหน้าและอย่างน้อยที่สุดเราอ่านจากซ้ายไปขวาดังนั้นกราฟอนุกรมเวลาของเราก็มักจะไหลจากซ้ายไปขวาเมื่อเวลาเพิ่มขึ้น ดังนั้นจะเกิดอะไรขึ้นถ้าคุณต้องการที่จะเป็นตัวแทนของสิ่งที่ดีที่สุดที่แสดงด้านข้าง (เช่นการวัดบางสิ่งบางอย่างตะวันออก - ตะวันตก) เมื่อเวลาผ่านไป? ในกรณีนี้คุณต้องประนีประนอมและแสดงเวลาที่เลื่อนขึ้นหรือลง (ซึ่งขึ้นอยู่กับการรับรู้ทางวัฒนธรรมอีกครั้งฉันเดา) หรือเลือกที่จะแมปตัวแปรด้านข้างของคุณเพื่อขึ้น / ลงบนกราฟของคุณ
ขึ้นอยู่กับวิธีที่จะพูดคุยเรื่องแปลง
ตัวอย่างเช่นถ้าฉันส่งแปลงสำหรับการประชุมกลุ่มที่จะดำเนินการกับผู้โทรจากสถานที่ต่างกันฉันชอบที่จะรวมพวกเขาไว้ใน Powerpoint ซึ่งตรงข้ามกับ Excel ดังนั้นจึงง่ายที่จะพลิกไปมา
สำหรับการโทรทางเทคนิคแบบตัวต่อตัวฉันจะวางบางอย่างใน excel เพื่อให้ลูกค้าสามารถย้ายพล็อตและดูข้อมูลดิบ หรือฉันสามารถป้อนค่า p ลงในเซลล์พร้อมค่าสัมประสิทธิ์การถดถอยด้านข้างเช่น
โปรดทราบว่า: แผนการมีราคาถูกโดยเฉพาะอย่างยิ่งสำหรับการนำเสนอภาพนิ่งหรือสำหรับส่งอีเมลไปยังกลุ่ม ฉันอยากให้แปลงชัดเจน 10 แปลงที่เราสามารถพลิกได้มากกว่า 5 แปลงที่ฉันพยายามใส่กลุ่มเพื่อน (เช่น "ชายและหญิง") ลงในกราฟเดียวกัน
ฉันจะเพิ่มว่าตัวเลือกของพล็อตควรสะท้อนถึงประเภทของการทดสอบทางสถิติที่ใช้ในการวิเคราะห์ข้อมูล กล่าวอีกนัยหนึ่งว่าคุณลักษณะใดของข้อมูลที่ถูกนำมาใช้ในการวิเคราะห์ควรแสดงให้เห็นด้วยสายตาดังนั้นคุณจะแสดงความหมายและข้อผิดพลาดมาตรฐานหากคุณใช้การทดสอบ t-box แต่บ็อกซ์พล็อตหากคุณใช้การทดสอบ Mann-Whitney