จะแสดงโครงเรื่องของกล่องที่มีค่าผิดพลาดรุนแรงได้อย่างไร?


17

ฉันสามารถใช้แนวทางบางอย่างเกี่ยวกับการนำเสนอข้อมูลบางอย่าง

พล็อตแรกนี้เป็นการเปรียบเทียบการควบคุมกรณีสำหรับ cytokine IL-10 ฉันได้ตั้งแกน y ด้วยตนเองเพื่อรวม 99% ของข้อมูล

IL-10 พร้อมแกน Y แบบแมนนวล

เหตุผลที่ฉันตั้งค่าด้วยตนเองนี้เป็นเพราะกลุ่มเคสมีค่าผิดปกติมาก ด้วยค่าผิดปกติ

ผู้ทำงานร่วมกันของฉันลังเลที่จะทำการลบข้อมูลในชุดข้อมูลของเราออกไป ฉันโอเคกับมัน แต่พวกเขาไม่ต้องการ นั่นเป็นทางออกที่ชัดเจน แต่ถ้าฉันจะเก็บข้อมูลทั้งหมดและไม่ลบค่าผิดปกตินี้ฉันจะแสดง boxplot นี้อย่างเหมาะสมได้อย่างไร แกนแยก? เป็นที่ยอมรับหรือไม่ที่จะใช้เพียงกราฟแรกและทราบว่าสร้างขึ้นเพื่อรวมข้อมูลทั้งหมดหรือไม่ (ตัวเลือกนี้รู้สึกไม่สุจริตสำหรับฉัน) คำแนะนำใด ๆ ที่จะดี


5
ทำไมไม่แสดงทั้งสองแปลง?
Alexis

คำตอบ:


24

ฉันจะบอกว่าด้วยข้อมูลเช่นนี้คุณต้องแสดงผลลัพธ์ในระดับที่แปลง นั่นเป็นสิ่งจำเป็นครั้งแรกและเป็นปัญหาที่สำคัญกว่าวิธีการวาดพล็อตกล่องอย่างแม่นยำ

แต่ฉันก้องสะท้อน Frank Harrell ในการกระตุ้นบางสิ่งที่ให้ข้อมูลมากกว่าพล็อตเรื่องกล่องเล็ก ๆ น้อย ๆ ถึงแม้จะมีบางจุดที่ระบุได้ คุณมีพื้นที่เพียงพอที่จะแสดงข้อมูลเพิ่มเติม นี่คือหนึ่งในหลายตัวอย่างกล่องไฮบริดและพล็อตเชิงควอนตัม ในข้อมูลของคุณมีการเปรียบเทียบสองกลุ่ม

ป้อนคำอธิบายรูปภาพที่นี่

ฉันจะรับสองจุดนี้ทีละคนแล้วพูดมากขึ้น

สเกลที่ถูกเปลี่ยนรูป

ในกรณีที่ง่ายที่สุดค่าทั้งหมดของคุณอาจเป็นค่าบวกและคุณควรลองใช้สเกลลอการิทึมก่อน

หากคุณมีศูนย์ที่แน่นอนมาตราส่วนรากที่สองหรือลูกบาศก์รูทจะยังคงปรับปรุงความเบ้มาก บางคนมีความสุขกับบันทึก (ค่า + ค่าคงที่) โดยที่ค่าคงที่มักจะเป็น 1 ซึ่งเป็นวิธีการจัดการกับศูนย์

ผลกระทบของแผนการแปลงกล่องที่ใช้มาตราส่วนแปลงร่างนั้นมีความละเอียดอ่อน

หากคุณใช้หลักการทั่วไปของ Tukey ในการแสดงคะแนนทุกจุดนอกเหนือจากควอไทล์ชั้นบน + 1.5 IQR หรือควอไทล์ต่ำ - 1.5 IQR ดังนั้นเนื้อหาที่คำนวณได้จะถูกคำนวณในสเกลที่แปลง นั่นไม่เหมือนกับการคำนวณขีด จำกัด เหล่านั้นบนสเกลดั้งเดิมจากนั้นทำการแปลง

ฉันอยากจะสนับสนุนสิ่งที่ดูเหมือนว่าจะยังคงเป็นแบบแผนของชนกลุ่มน้อยในการเลือกปริมาณสำหรับปลายหนวด ข้อดีอย่างหนึ่งของหลาย ๆ อย่างก็คือการแปลง quantile = quantile of transform อย่างน้อยที่สุดก็เพียงพอสำหรับวัตถุประสงค์ด้านกราฟิกในกรณีส่วนใหญ่ (การพิมพ์ขนาดเล็กคือเมื่อใดก็ตามที่คำนวณปริมาณโดยการประมาณเชิงเส้นระหว่างสถิติคำสั่งที่อยู่ติดกัน)

การประชุมเชิงปริมาณนี้ได้รับการแนะนำอย่างชัดเจนโดยคลีฟแลนด์ (1985) สำหรับเร็กคอร์ดแปลงกล่องที่ปรับปรุงพร้อมกล่องสำหรับควอไทล์กล่องทินเนอร์ไปจนถึงอ็อกเทเลนอก (12.5 และ 87.5% คะแนน) และตัดทอนข้อมูลที่ใช้ในทางภูมิศาสตร์และภูมิอากาศโดย (เช่น) Matthews (1936) และ Grove (1956) ชื่อ "แผนภาพการกระจาย"

มากกว่าแปลงกล่อง

แผนการแปลงกล่องถูกคิดค้นขึ้นใหม่โดย Tukey ราวปี 1970 และได้รับการส่งเสริมอย่างเห็นได้ชัดที่สุดในหนังสือปี 1977 ของเขา จุดประสงค์ของเขาส่วนใหญ่คือการโปรโมตกราฟที่สามารถวาดได้อย่างรวดเร็วโดยใช้ปากกา (cil) และกระดาษในการสำรวจอย่างไม่เป็นทางการ เขายังแนะนำวิธีในการระบุค่าผิดปกติที่อาจเกิดขึ้นได้ นั่นเป็นเรื่องปกติ แต่ตอนนี้เราทุกคนสามารถเข้าถึงคอมพิวเตอร์ได้ไม่ยากเลยที่จะวาดกราฟที่แสดงถ้าไม่ใช่ข้อมูลทั้งหมดอย่างน้อยก็มีรายละเอียดมากกว่านี้ บทบาทสรุปของพล็อตกล่องมีประโยชน์ แต่กราฟสามารถแสดงโครงสร้างที่ละเอียดได้เช่นกันในกรณีที่น่าสนใจหรือสำคัญ (และสิ่งที่นักวิจัยคิดว่าไม่น่าสนใจหรือไม่สำคัญอาจทำให้ผู้อ่านประทับใจมากกว่า)

มีที่ว่างมากมายสำหรับความไม่เห็นด้วยอย่างสุภาพเกี่ยวกับสิ่งที่ดีที่สุด แต่กล่องเปล่าได้ถูกขายออกไปค่อนข้างมากในมุมมองของฉัน

ผู้ใช้ Stata สามารถค้นหาเพิ่มเติมเกี่ยวกับโปรแกรมที่ดึงตัวเลขในโพสต์ Statalistนี้ ผู้ใช้ซอฟต์แวร์อื่นไม่ควรพบปัญหาในการวาดสิ่งที่ดีหรือดีกว่า (เหตุใดจึงใช้ซอฟต์แวร์นั้น)

คลีฟแลนด์, WS 1985 องค์ประกอบของข้อมูลกราฟ มอนเทอเรย์แคลิฟอร์เนีย: วัดส์เวิร์ ธ

Grove, AT 1956 การพังทลายของดินในไนจีเรีย ใน Steel, RW and Fisher, CA (Eds) บทความเกี่ยวกับภูมิศาสตร์ในดินแดนเขตร้อนของอังกฤษ ลอนดอน: George Philip, 79-111

Matthews, HA 1936 มุมมองใหม่ของฝนที่อินเดียคุ้นเคย นิตยสารทางภูมิศาสตร์แห่งสกอตแลนด์ 52: 84-97

Tukey, JW 1977 การวิเคราะห์ข้อมูลเชิงสำรวจ Reading, MA: Addison-Wesley


1
ฉันไม่เคยเห็นการตีข่าวดังกล่าวของแผนการแปลงและ ECDF มาก่อน เจ๋งจริงๆ! คุณคิดอย่างไรเกี่ยวกับการซ้อนทับ ECDF สองตัวในแผงแยกต่างหาก
Frank Harrell

2
@ Frank Harrell ขอบคุณ การซ้อนทับเป็นความคิดที่ดีเช่นกัน ดูตัวอย่างเช่นstata-journal.com/sjpdf.html?articlenum=gr0018สำหรับตัวอย่างในงานของฉัน
นิคค็อกซ์

14

ที่จะไม่นำอะไรออกไปจากคำตอบที่ยอดเยี่ยมของ Nick ซึ่งฉันคิดว่าคุ้มค่ากับการติ๊กและ upvote - แต่ฉันต้องการสำรวจความเป็นไปได้บางอย่าง

ด้วยข้อมูลที่มีความเบ้อย่างหนักในหลายขนาดของคำสั่งการวางแผนในบันทึกขนาดมักจะเปิดเผย; โปรดทราบว่าคุณยังสามารถมีเครื่องหมายถูกและเครื่องหมายถูกได้ในค่าดั้งเดิม (ฉันเห็นด้วยกับคะแนนของนิคที่เกี่ยวข้องกับการเปลี่ยนแปลงดังนั้นฉันจะไม่ขยายเพิ่มเติมในเรื่องนั้น)

ตัวเลือกอื่นนอกเหนือจากการแปลงคือการทำบางสิ่งเช่นพล็อตที่สองของคุณ แต่รวมถึงการบ่งชี้ค่าทั้งหมดที่ไม่ได้วางแผน:

  ป้อนคำอธิบายรูปภาพที่นี่

ด้วยวิธีนี้คุณจะไม่ลบค่าผิดปกติเพียงแค่แสดงค่าต่างกัน

อย่างไรก็ตามฉันเข้าร่วมกับ Frank และ Nick ในการแนะนำให้ใช้การแสดงผลที่มีข้อมูลมากกว่า boxplot ธรรมดา - การรวมกันของ boxplot กับ quantile plot ในการโพสต์ของ Nick ดูเหมือนว่าเป็นความคิดที่ดีโดยเฉพาะอย่างยิ่ง เหมือนที่นี่) กล่องที่เกี่ยวข้องแทนที่จะอยู่ข้าง:

  ป้อนคำอธิบายรูปภาพที่นี่

หากคุณไม่ได้ทำอะไรแบบนั้น (แค่ใช้กล่องสี่เหลี่ยมธรรมดาพูด) ฉันจะแนะนำกล่องที่แคบกว่ามาก


3
ยิ่งไปกว่านั้นการวางควอไทล์และกล่องก็น่าสนใจเช่นกัน มันขีดเส้นใต้ว่าพล็อตกล่องคือการลดพล็อตเชิงปริมาณแม้ว่าบางพล็อตกล่องอาจดูเหมือนซ้ำซ้อน สำหรับการเน้นที่ความสัมพันธ์ระหว่างกราฟทั้งสองให้ดูเช่น Parzen, E. 1979 การสร้างแบบจำลองข้อมูลเชิงสถิติแบบไม่อิงพารามิเตอร์ วารสารสมาคมสถิติอเมริกัน 74: 105-121
นิคค็อกซ์

คุณมีชุดข้อมูลของ OP หรือไม่? หรือคุณกำลังขูดกราฟ / แกล้งทำมัน?
นิคค็อกซ์

2
@Nick เพียงแกล้งมันโดยทั่วไป; ฉันคัดลอกจุดสุดยอดได้อย่างมีประสิทธิภาพ (เพียงแค่มือมีน้อยมาก) จากนั้นสร้างค่าต่ำกว่าควอไทล์ตอนบนโดยการสุ่มตัวอย่างจากเครื่องแบบ 3 ชุดระหว่างค่าที่ทราบ (ควอไทล์ 3 และต่ำสุด) และระหว่างควอไทล์บนและท้าย จากเคราบนที่มีการยกกำลังจากนั้นก็เพิ่มจุดสุดยอดใน อย่างน้อยนั่นคือส่วนสำคัญของความคิด จุดที่สูงที่สุดจะไม่ถูกต้องดังนั้นค่าที่พิมพ์บนพล็อตของฉันเป็นเหมือนตัวอย่าง
Glen_b -Reinstate Monica

@Glen_b ฉันสามารถถามคำถามแยกต่างหากได้หากคุณต้องการ แต่วิธีใดที่คุณใช้ในการวางพล็อตเชิงปริมาณด้วย boxplot
Tavrock

@Tavrock มันเป็นเวลาสองปีครึ่งแล้วที่ฉันเขียนมันดังนั้นฉันจึงเดา สิ่งที่ชัดเจนที่ต้องทำคือเรียกpointsให้แสดงค่า quantile (มันดูเหมือนอะไรบางอย่างตามแนวของxs=sort(x); points(ppoints(xs),xs)boxplot แต่เมื่อตรวจสอบอย่างใกล้ชิดจุดที่อยู่ด้านล่าง boxplot ดังนั้นมันอาจจะเป็นพล็อต boxplot ด้วย = TRUE หรือ อาจได้รับ boxplot แล้วให้คะแนนแล้ว boxplot ด้านบน ... อาจจะ
Glen_b

5

ฉันชอบพล็อตกล่องแบบขยายหรือพล็อตไวโอลินเนื่องจากมีข้อมูลมากขึ้น ฉันขยายสเกลกล่องแปลงขยายเป็น 0.01 และ 0.99 เชิงปริมาณของตัวอย่างรวม ดูhttp://biostat.mc.vanderbilt.edu/wiki/pub/Main/StatGraphCourse/graphscourse.pdfสำหรับรายละเอียด

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.