ทางเลือกอื่นสำหรับแกนแตกคืออะไร


28

ผู้ใช้มักถูกล่อลวงให้ทำลายค่าแกนเพื่อนำเสนอข้อมูลของคำสั่งต่าง ๆ ของขนาดบนกราฟเดียวกัน (ดูที่นี่ ) แม้ว่าวิธีนี้อาจจะสะดวก แต่ก็ไม่ใช่วิธีการแสดงข้อมูลที่ต้องการเสมอไป (อาจทำให้เข้าใจผิดได้ดีที่สุด) วิธีอื่นในการแสดงข้อมูลที่แตกต่างกันในหลายลำดับความสำคัญคืออะไร

ฉันสามารถคิดถึงวิธีการสองวิธีในการแปลงข้อมูลหรือใช้โครงข่ายขัดแตะ ตัวเลือกอื่น ๆ มีอะไรบ้าง


1
มัคคุเทศก์ Excel เหล่านั้นดูน่าขนลุกทีเดียว ...

5
คุณสามารถจินตนาการได้หรือไม่ว่าการสอนเกี่ยวกับ R มองไปที่คนที่ไม่เคยเห็นบรรทัดของรหัสในชีวิตของเขาหรือไม่? :)
Roman Luštrik

3
ตกลง แต่ฉันสามารถจินตนาการได้ว่าทุกคนที่วาดตัวแบ่งบาร์หลายสิบด้วยตนเองใน Excel และเชื่อว่ามันเป็นวิธีเดียว หรือคนใช้เวลาพยายามรวมรูปแบบในเอกสาร Word ขนาดใหญ่

1
"พ่อยกโทษให้พวกเขาเพราะพวกเขาไม่รู้ว่ากำลังทำอะไรอยู่" อยู่ในใจ :)
Roman Luštrik

3
กลุ่มทางการของ stats.stackexchange.com: The Broken Axes
Matt Parker

คำตอบ:


17

ข้าพเจ้ามีความระมัดระวังในการใช้แกนลอการิทึมบนกราฟแท่ง ปัญหาคือคุณต้องเลือกจุดเริ่มต้นของแกนและสิ่งนี้มักจะเป็นแบบสุ่ม คุณสามารถเลือกให้สองแท่งมีความสูงแตกต่างกันมากหรือเกือบจะสูงเท่ากันเพียงแค่เปลี่ยนค่าต่ำสุดของแกน กราฟสามกราฟทั้งหมดนี้พล็อตข้อมูลเดียวกัน: ข้อความแสดงแทน

ทางเลือกอื่นสำหรับแกนที่ไม่ต่อเนื่องซึ่งยังไม่มีใครพูดถึงคือการแสดงตารางค่า ในหลายกรณีตารางเข้าใจง่ายกว่ากราฟ


3
กราฟเหล่านั้นดูหลอกลวงมากเพราะคุณไม่มีแถบข้อผิดพลาดอยู่ หากคุณเพิ่มแถบข้อผิดพลาดความแตกต่างจะดูไม่สำคัญนัก หรือคุณสามารถใช้พล็อตแบบกล่องและมัสสุซึ่งส่วนใหญ่จะหลีกเลี่ยงปัญหาประเภทนี้
โก้

5
IMHO ต้นกำเนิดเป็นปัญหาของแผนภูมิแท่งและไม่มีส่วนเกี่ยวข้องกับลอการิทึม คุณสามารถเข้าถึงความประทับใจที่หลอกลวงด้วยแกนเชิงเส้น
cbeleites รองรับ Monica

@cbeleites ได้คุณสามารถสร้างกราฟแท่งที่ทำให้เข้าใจผิดด้วยแกนเชิงเส้นโดยเปลี่ยนพื้นฐาน แต่ด้วยแกนเส้นตรงเส้นฐานธรรมชาติจะเป็นศูนย์ ด้วยแกนลอการิทึมในบริบทส่วนใหญ่ไม่มีพื้นฐานทางธรรมชาติ
Harvey Motulsky

@ HarveyMotulsky: ฉันขอไม่เห็นด้วย มีคลาสทั้งหมดของข้อมูลที่อธิบายได้ดีโดยแกนบันทึกและมีพื้นฐานธรรมชาติ: การเปลี่ยนแปลง / อัตราส่วน multiplicative ในตัวอย่างของคุณบางทีสัญญาณที่ถือว่าเป็น 15x สัญญาณควบคุม หากสมมติฐานนั้นสมเหตุสมผลสำหรับแอปพลิเคชันคุณจะมีพื้นฐาน "ธรรมชาติ" สำหรับบันทึก ถ้าไม่การแปลงอีกครั้งอาจจะเหมาะสมกว่านี้ไหม
cbeleites รองรับ Monica

1
@cbeleites ฉันเห็นด้วยว่าหากตัวแปรเป็นอัตราส่วนดังนั้น 1.0 จึงเป็นค่าพื้นฐานธรรมชาติจากนั้นการแสดงให้เห็นในระดับที่เหมาะสม
Harvey Motulsky

11

แนวคิดเพิ่มเติมบางประการ:

(1) คุณไม่จำเป็นต้อง จำกัด ตัวเองกับการแปลงแบบลอการิทึม ค้นหาเว็บไซต์นี้สำหรับแท็ก "data-transformation" ข้อมูลบางอย่างให้ผลดีกับการแปลงบางอย่างเช่นรูทหรือ logit (การแปลงเช่น - บันทึก) มักจะหลีกเลี่ยงเมื่อเผยแพร่กราฟิกสำหรับผู้ชมที่ไม่ใช่ด้านเทคนิคในทางกลับกันพวกเขาสามารถเป็นเครื่องมือที่ยอดเยี่ยมสำหรับการดูรูปแบบของข้อมูล)

(2) คุณสามารถยืมเทคนิคการทำแผนที่มาตรฐานของการแทรกรายละเอียดของแผนภูมิภายในหรือถัดจากแผนภูมิของคุณ โดยเฉพาะคุณจะพล็อตค่าสุดโต่งด้วยตนเองบนแผนภูมิหนึ่งและส่วนที่เหลือทั้งหมด (หรือ) ของข้อมูลบนอีกแผนภูมิหนึ่งด้วยช่วงแกนที่ จำกัด มากขึ้นจากนั้นจัดเรียงกราฟิกสองรายการพร้อมกับตัวบ่งชี้ (ภาพและ / หรือเขียน) ของความสัมพันธ์ ระหว่างพวกเขา. ลองนึกถึงแผนที่ของสหรัฐอเมริกาที่มีอลาสก้าและฮาวายแทรกอยู่ในระดับต่างๆ (สิ่งนี้จะไม่ทำงานกับแผนภูมิทุกชนิด แต่อาจมีผลกับแผนภูมิแท่งในภาพประกอบของคุณ) [ฉันเห็นว่าคล้ายกับคำตอบล่าสุดของ mbq]

(3) คุณสามารถแสดงพล็อตที่เสียหายแบบเคียงข้างกันกับพล็อตแบบเดียวกันบนแกนที่ไม่เสียหาย

(4) ในกรณีของตัวอย่างแผนภูมิแท่งของคุณให้เลือกแกนแนวตั้งที่เหมาะสม (อาจยืดเหยียด) อย่างมากและให้ยูทิลิตี้ปรากฎว่า [นี่เป็นกลอุบายมากกว่าเทคนิคที่มีประโยชน์อย่างแท้จริง IMHO แต่มันอาจมีประโยชน์ในบางกรณีพิเศษ]

(5) เลือกสคีมาที่แตกต่างเพื่อแสดงข้อมูล แทนที่จะเป็นแผนภูมิแท่งที่ใช้ความยาวเพื่อแสดงค่าให้เลือกแผนภูมิที่พื้นที่ของสัญลักษณ์แสดงค่าตัวอย่างเช่น [เห็นได้ชัดว่าการแลกเปลี่ยนเกี่ยวข้องกันที่นี่]

การเลือกใช้เทคนิคของคุณน่าจะขึ้นอยู่กับจุดประสงค์ของพล็อตเช่นแปลงที่สร้างขึ้นสำหรับการสำรวจข้อมูลมักจะแตกต่างจากแปลงสำหรับผู้ชมทั่วไป


8

บางทีมันอาจจัดเป็นขัดแตะ แต่ฉันจะลอง; พล็อตแท่งทั้งหมดปรับขนาดให้สูงที่สุดในแผงเดียวและวางแผงอื่นที่แสดงการซูมบนอันล่าง ฉันใช้เทคนิคนี้เพียงครั้งเดียวในกรณีที่มีแผนการกระจายและผลลัพธ์ค่อนข้างดี


8

ฉันแยกปัญหาของแกนบันทึกจากปัญหาของแผนภูมิแท่ง


A=ล.ก.ผม0-ล.ก.ผมผม0

แผนภูมิแท่งจะไม่มีเหตุผลหากไม่มีแหล่งกำเนิดที่สมเหตุสมผลและคงที่ซึ่งทำหน้าที่เป็นตัวควบคุม (พื้นฐาน, ว่างเปล่า) แต่นี่ไม่มีอะไรเกี่ยวข้องกับแกนบันทึก
การใช้งานปกติเท่านั้นที่ฉันมีสำหรับแผนภูมิแท่งคือฮิสโทแกรม แต่ฉันสามารถจินตนาการได้ว่าพวกเขาทำได้ดีในการแสดงความแตกต่างกับที่มานี้ (คุณจะเห็นได้ทันทีว่าความแตกต่างนั้นเป็นบวกหรือลบ) เนื่องจากบาร์แสดงถึงพื้นที่ฉันมักจะคิดว่าบาร์ชาร์ตเป็นพื้นที่ที่ไม่ได้รับการแบ่งแยกภายใต้ส่วนโค้ง นั่นคือแกน x ควรมีความหมายของตัวชี้วัด (ซึ่งอาจเป็นกรณีที่มีเวลา แต่ไม่ใช่กับเมือง)

หากฉันพบว่าตัวเองสงสัยว่ามีจุดเริ่มต้นที่จะใช้สำหรับบันทึกของบางสิ่งที่มีต้นกำเนิด "ธรรมชาติ" ที่ 0 ฉันจะถอยกลับและคิดว่าจะเกิดอะไรขึ้น บ่อยครั้งที่ปัญหาดังกล่าวเป็นเพียงตัวบ่งชี้ว่าบันทึกไม่ใช่การเปลี่ยนแปลงที่สมเหตุสมผล

ตอนนี้แผนภูมิแท่งที่มีแกนบันทึกจะเน้นการเพิ่มหรือลดที่เกิดขึ้นในทวีคูณ ตัวอย่างที่สมเหตุสมผลที่ฉันสามารถนึกได้ตอนนี้ทุกคนมีความสัมพันธ์เชิงเส้นบางอย่างกับมูลค่าของความสนใจ แต่บางทีคนอื่นอาจหาตัวอย่างที่ดี

ดังนั้นฉันคิดว่าการแปลงข้อมูลควรมีเหตุผลด้วยความเคารพต่อความหมายของข้อมูลในมือ นี่เป็นกรณีของหน่วยเคมีกายภาพที่ฉันกล่าวถึงข้างต้น (A เป็นสัดส่วนกับความเข้มข้นและ pH มีตัวอย่างเช่นความสัมพันธ์เชิงเส้นกับแรงดันไฟฟ้าใน pH-meter) ในความเป็นจริงมันเป็นกรณีที่หน่วยบันทึกได้รับชื่อใหม่และใช้ในลักษณะเชิงเส้น

สุดท้าย แต่ไม่ท้ายสุดฉันมาจากสเป็กตรัมการสั่นสะเทือนซึ่งมีการใช้แกนหักเป็นประจำ และฉันคิดว่านี่ใช้หนึ่งในสองสามตัวอย่างที่การแตกของแกนไม่ได้หลอกลวง อย่างไรก็ตามเราไม่มีการเปลี่ยนแปลงตามลำดับความสำคัญ เราเพิ่งมีพื้นที่ที่ผิดปกติอยู่ที่ 30-40% ของช่วง x ของเรา: นี่คือตัวอย่าง: คลื่นความถี่ สำหรับตัวอย่างนี้ส่วนที่อยู่ระหว่าง 1800 - 2800 / cm ไม่สามารถมีข้อมูลที่เป็นประโยชน์ได้
ดังนั้นช่วงสเปกตรัมที่ผิดปกติจึงถูกลบออก (ซึ่งบ่งบอกถึงช่วงสเปกตรัมที่เราใช้สำหรับการสร้างแบบจำลองทางเคมี): ถอดชิ้นส่วนที่ผิดปกติออกจากสเปกตรัม

แต่สำหรับการตีความข้อมูลเราต้องการการอ่านตำแหน่ง x อย่างแม่นยำ แต่โดยทั่วไปแล้วเราไม่จำเป็นต้องใช้ทวีคูณที่ครอบคลุมช่วงที่แตกต่างกัน (เช่นมีความสัมพันธ์ดังกล่าว แต่การเชื่อมต่อส่วนใหญ่มีความซับซ้อนมากขึ้นเช่น: สัญญาณที่ 3050 / ซม. ดังนั้นเราจึงมีสารไม่อิ่มตัวหรือกลิ่นอะโรมาติก ดังนั้นจึงไม่มีโมโน, เมตาหรือแหวนอะโรมาติกที่ถูกแทนที่ 1,3,5 อัน ... )
ดังนั้นจึงเป็นการดีกว่าที่จะแสดงภาพ x ด้วยขนาดที่ใหญ่กว่า (จริง ๆ แล้วเรามักใช้แผ่นมิลลิเมตรเหมือนไกด์หรือป้ายสถานที่ที่แน่นอน) ดังนั้นเราจึงแบ่งแกนและรับค่า x ที่ใหญ่ขึ้น: สเปกตรัม - แกนหัก

ที่จริงแล้วมันเป็นเรื่องที่คล้ายกันมาก ๆ รุ่น facetted
แต่แกนที่หัก IMHO เน้นว่าขนาดของแกน x ในทั้งสองส่วนเท่ากัน IE Intervals ภายในขอบเขตที่วางแผนไว้เหมือนกัน

ในการเน้นความเข้มขนาดเล็ก (แกน y) เราจะใช้ส่วนขยายแบบขยาย:
ป้อนคำอธิบายรูปภาพที่นี่
[ ... สำหรับรายละเอียดดูส่วนขยาย (x 20) νCHเป็นสีน้ำเงิน .... ]

และนี่ก็เป็นไปได้ด้วยตัวอย่างในแปลงที่เชื่อมโยงเช่นกัน


2

แนวคิดสองข้อที่พูดพาดพิงถึง แต่ไม่ได้อธิบายอย่างชัดเจนเมื่อฉันดูคำตอบที่ยอดเยี่ยมและความคิดเห็นก็คือคุณกำลังใช้แผนภูมิแท่ง "ในลักษณะที่ไม่สอดคล้องกับการติดฉลาก" และข้อมูลปกติ / ไม่มีมิติ

พล็อตประเภท:

แผนภูมิดาว / สไปเดอร์ / เรดาร์(ลิงก์) (ลิงก์)มักจะดีมากสำหรับการเปรียบเทียบสิ่งต่าง ๆ หลายอย่างในหลาย ๆ พิกัด มีแผนการที่มีประโยชน์มากมายที่น่าเศร้าในการนำเสนอทางธุรกิจเนื่องจากผู้นำต้องการใช้ข้อสรุปในการตัดสินใจแทนที่จะใช้ข้อมูลเพื่อทำความเข้าใจและใช้ความเข้าใจในการตัดสินใจ ในธุรกิจบางครั้งมันก็ยากที่จะสร้างฉันทามติและวิธีการที่ผลลัพธ์เพียงอย่างเดียวอาจมีผลตอบแทนที่สูงขึ้นในสภาพแวดล้อมที่มีการตัดสินใจครั้งแรกที่ฉันทามติ นี่เป็นการแจ้งความนิยมของแผนภูมิแท่ง / คอลัมน์ โปรดพิจารณาตัวอย่างของประเภทกราฟอื่น ๆ ที่เป็นสิ่งที่ดีสำหรับการดึงดูดความเข้าใจ(ลิงค์)

การเปลี่ยนแปลง:

หากคุณแบ่งค่าที่คุณกำลังสร้างแผนภูมิด้วยค่า "คุณสมบัติ" จากนั้นคุณสามารถแปลงสเกลเพื่อปรับปรุงความสามารถในการอ่านโดยไม่สูญเสียข้อมูล นักไดนามิกฟลูอิดชอบตัวเลขที่ไม่มีมิติเพราะมีประโยชน์ในการพยากรณ์และความยืดหยุ่นในการใช้งาน พวกเขามองไปที่สิ่งที่ต้องการบักกิ้งแฮม Pi ทฤษฎีบทเป็นแหล่งสำหรับรูปแบบที่ผู้สมัครมิติ(ลิงค์) ตัวเลขยอดนิยมและมีประโยชน์ตัวเลขไร้มิติรวมถึงหมายเลข Reynolds, หมายเลข Mach, หมายเลข Biot, หมายเลข Grashof, Pi, หมายเลข Raleigh, หมายเลข Stokes และหมายเลข Sherwood (ลิงค์) คุณไม่จำเป็นต้องเป็นนักฟิสิกส์ที่จะรักตัวเลขที่ไร้มิติเพราะมันมีประโยชน์ในแอปพลิเคชันที่ไม่ใช่ทางฟิสิกส์ มาตรการเช่นความหนาแน่นความสม่ำเสมอความกลมและ coplanarity สามารถกำหนดรูปภาพเขตพิกเซลหรือการแจกแจงความน่าจะเป็นหลายตัวแปร อย่าเพียงแค่พิจารณาการลอการิทึมหรือระยะทางสัมพัทธ์จากค่าที่ทราบ - คุณสามารถพิจารณาการย้อนกลับของตัวเลขโดยการหาสแควร์รูทของพวกเขา

ขอให้โชคดี โปรดแจ้งให้เราทราบว่าสิ่งต่าง ๆ เกิดขึ้นได้อย่างไร


1
หน่วยงานด้านข้อมูลส่วนใหญ่คัดค้านการใช้แผนภูมิเรดาร์อย่างรุนแรง พวกเขาตีความยาก ทางเลือกที่ดีมากเป็นแผนภูมิพิกัดขนาน
Jon Peltier

@ JonPeltier - ฉันเห็นด้วย แต่ Excel ไม่ได้ (ในเวลาที่ฉันตอบ) มีวิธีที่สะอาดในการทำแผนภูมิพิกัดแบบขนานดังนั้นจึงเป็นไปได้ว่าสิ่งที่ผู้ชมของเขาจะต้องดิ้นรนต่อสู้เพื่อทำความเข้าใจอย่างมากมาย
EngrStudent - Reinstate Monica

1

วิธีการแก้ปัญหาแกนหักทำงานได้ดีที่สุดเมื่อมีการแบ่งที่ชัดเจนข้ามพล็อตและการกำหนดให้ติดฉลากเพื่อให้มีช่องว่างที่ชัดเจน ข้อดีของการทำเช่นนี้คือเครื่องชั่งจะได้รับการเก็บรักษาไว้ในค่าสองชุด พล็อตแผงที่มีตาชั่งที่แตกต่างกันอาจไม่ถ่ายทอดความผันแปรที่สัมพันธ์กันภายในกลุ่มต่ำและสูง ฉันชอบแนวคิดเรื่องการย่อ / ขยายซึ่งฉันตั้งโปรแกรมไว้สำหรับการกระจาย แต่ไม่ได้คิดที่จะใช้สำหรับแผนการแปลง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.