เป็นวิธีที่ดีของกราฟิกที่แสดงจำนวนดาต้าพอยน์ที่จับคู่จำนวนมากคืออะไร?


9

ในเขตข้อมูลของฉันวิธีปกติในการพล็อตข้อมูลที่จับคู่นั้นเป็นชุดของส่วนของเส้นที่ลาดเอียงบาง ๆ ซ้อนทับมันด้วยค่ามัธยฐานและ CI ของค่ามัธยฐานของทั้งสองกลุ่ม:

ป้อนคำอธิบายรูปภาพที่นี่

อย่างไรก็ตามพล็อตประเภทนี้กลายเป็นเรื่องยากที่จะอ่านเนื่องจากจำนวนดาต้าพอยน์มีขนาดใหญ่มาก (ในกรณีของฉันฉันมีตามลำดับ 10,000 คู่):

ป้อนคำอธิบายรูปภาพที่นี่

การลดอัลฟ่าช่วยได้บ้าง แต่ก็ยังไม่ดีนัก ในขณะที่ค้นหาวิธีแก้ปัญหาฉันพบบทความนี้และตัดสินใจลองใช้ 'เส้นคู่ขนานพล็อต' อีกครั้งมันทำงานได้ดีมากสำหรับดาต้าพอยน์จำนวนน้อย:

ป้อนคำอธิบายรูปภาพที่นี่

แต่มันก็ยิ่งยากที่จะทำให้เรื่องแบบนี้ดูดีเมื่อมีขนาดใหญ่มาก:ยังไม่มีข้อความ

ป้อนคำอธิบายรูปภาพที่นี่

ฉันคิดว่าฉันสามารถแสดงการแจกแจงของทั้งสองกลุ่มแยกต่างหากเช่นกับบ็อกซ์พล็อตหรือไวโอลินและพล็อตบรรทัดที่มีแถบข้อผิดพลาดด้านบนแสดงสองค่ามัธยฐาน / CIs แต่ฉันไม่ชอบความคิดนั้น ลักษณะการจับคู่ของข้อมูล

ฉันยังไม่กระตือรือร้นในความคิดของพล็อตกระจาย 2D: ฉันต้องการการเป็นตัวแทนที่กะทัดรัดกว่าและเป็นแนวคิดหนึ่งที่ค่าของทั้งสองกลุ่มถูกพล็อตตามแกนเดียวกัน เพื่อความสมบูรณ์นี่คือข้อมูลที่มีลักษณะเหมือนการกระจายแบบสองมิติ:

ป้อนคำอธิบายรูปภาพที่นี่

ไม่มีใครรู้วิธีที่ดีกว่าในการแสดงข้อมูลที่จับคู่กับขนาดตัวอย่างที่มีขนาดใหญ่มาก? คุณสามารถเชื่อมโยงฉันกับตัวอย่างได้ไหม

แก้ไข

ขออภัยฉันชัดเจนว่าไม่ได้ทำงานได้ดีพอที่จะอธิบายสิ่งที่ฉันกำลังมองหา ใช่พล็อตกระจายแบบ 2D ทำงานได้และมีหลายวิธีที่สามารถปรับปรุงให้ดีขึ้นเพื่อถ่ายทอดความหนาแน่นของคะแนนได้ดีขึ้น - ฉันสามารถกำหนดรหัสจุดตามการประมาณความหนาแน่นของเคอร์เนลได้ฉันสามารถสร้างฮิสโตแกรม 2D ได้ ฉันสามารถพล็อตรูปทรงที่ด้านบนของจุดเป็นต้น ฯลฯ ...

อย่างไรก็ตามฉันคิดว่านี่เกินความจริงสำหรับข้อความที่ฉันพยายามสื่อ ฉันไม่สนใจเกี่ยวกับการแสดงความหนาแน่นของคะแนน 2 มิติต่อ se - ทั้งหมดที่ฉันต้องทำคือการแสดงให้เห็นว่าค่าสำหรับ 'บาร์' โดยทั่วไปมีขนาดใหญ่กว่าที่สำหรับ 'จุด' ในวิธีที่ง่ายและชัดเจนที่สุดเท่าที่จะทำได้ และโดยไม่สูญเสียธรรมชาติของข้อมูลที่จับคู่ โดยหลักการแล้วฉันต้องการพล็อตค่าที่จับคู่สำหรับทั้งสองกลุ่มตามแกนเดียวกันมากกว่าแกนฉากมุมฉากเนื่องจากมันทำให้ง่ายต่อการเปรียบเทียบด้วยสายตา

อาจไม่มีตัวเลือกที่ดีไปกว่าพล็อตกระจาย แต่ฉันต้องการทราบว่ามีทางเลือกอื่นที่อาจใช้งานได้หรือไม่


1
คุณได้ลองพล็อตค่าที่สอดคล้องกันของbarในแนวนอนและdotบนแกนตั้งเป็น scatterplot หรือไม่?
จนถึง Hoffmann

@TillHoffmann ใช่ฉันพูดถึงในตอนท้ายของคำถาม มันอาจเป็นตัวเลือกที่ดีที่สุดที่ฉันมีอยู่ในขณะนี้ แต่ฉันอยากได้ภาพที่มีขนาดกะทัดรัดยิ่งขึ้นและแบบที่แสดงถึงคุณค่าของทั้งสองกลุ่มในแกนเดียวกัน (บางทีฉันอาจเรียกร้องอย่างไม่มีเหตุผล ... ) ฉันจะเพิ่ม scatterplot ลงในคำถามของฉัน
ali_m

ขอโทษที่ฉันพลาด คุณกำลังสร้างข้อมูลสังเคราะห์ของคุณในขณะนี้อย่างไร?
จนถึง Hoffmann

2
คุณสามารถอธิบายสิ่งที่คุณหมายถึงโดยการเป็นตัวแทน "กะทัดรัด"? Scatterplot นั้นเหนือกว่าผู้อื่นอย่างชัดเจนในแง่ของการแสดงความสัมพันธ์เช่นเดียวกับข้อมูลที่ผิดปกติในพื้นที่เล็ก ๆ มันจะเติบโตได้ดีกว่าเมื่อขนาดของชุดข้อมูลเพิ่มขึ้น (10,000 สแกตเตอร์ไม่ใหญ่สำหรับสแกตเตอร์) คุณพูดถึงกราฟิกที่แตกต่างกันมากมายจนเป็นไปไม่ได้ที่จะอนุมานสิ่งที่คุณต้องการจริงๆ โปรดบอกวัตถุประสงค์ของการสร้างภาพข้อมูลของคุณ: คุณหวังว่าจะเรียนรู้หรือสื่อข้อมูลประเภทใด คุณตั้งใจจะรับรู้และเข้าใจอย่างถูกต้องและรวดเร็วแค่ไหน?
whuber

1
@whuber ขออภัยที่ไม่ชัดเจน สิ่งที่ฉันหวังคือเป็นวิธีในการแสดงข้อมูลเช่นว่าค่าของทั้งสองกลุ่มจะถูกพล็อตพร้อมกันแทนที่จะเป็นแกนฉากมุมฉาก (ตามที่พวกเขาอยู่ในพล็อต ข้อความนั้นง่ายมาก - โดยทั่วไปค่าสำหรับ 'บาร์' จะสูงกว่าค่าสำหรับ 'จุด' นอกเหนือจากนั้นฉันไม่สนใจอย่างมากที่จะแสดงความหนาแน่นของการแจกแจงถึงแม้ว่าฉันต้องการจะบอกว่ามีตัวอย่างจำนวนมากในคู่
ali_m

คำตอบ:


7

ด้วยวิธีที่ฉันเข้าใจเป้าหมายของคุณฉันจะคำนวณความแตกต่างที่จับคู่ ( bars - dots) จากนั้นวางแผนความแตกต่างเหล่านี้ในพล็อตการประมาณความหนาแน่นของเคอร์เนล คุณสามารถเพิ่มการรวมกันของ (1) เส้นแนวตั้งที่สอดคล้องกับความแตกต่างเป็นศูนย์ (2) ตัวเลือกใด ๆ ของเปอร์เซนต์ไทล์

สิ่งนี้จะเน้นว่าส่วนใดของข้อมูลมีbarsมากdotsเกินไปและโดยทั่วไปแล้วความแตกต่างที่สังเกตคืออะไร

(ผมเคยคิดว่าคุณไม่ได้สนใจในการแสดงที่เกิดขึ้นจริงค่าดิบbarsและdotsในพล็อตเดียวกัน.)

หนึ่งสามารถวางแผนความมั่นใจหรือช่วงเวลาที่น่าเชื่อถือหลังเพื่อระบุว่าความแตกต่างเหล่านี้มีความสำคัญ (H / T @MrMeritology!)


การเพิ่มคำตอบนี้: คุณยังสามารถวางแผนช่วงความมั่นใจสำหรับความแตกต่างของคู่ซึ่งจะแสดงให้เห็นว่าความแตกต่างนั้นสำคัญหรือไม่
Mrer วิทยาวิทยา

มีคู่มากมายมันน่าสนใจที่จะดูว่าความแตกต่างนั้นขึ้นอยู่กับ "จุดเริ่มต้น" เช่นกันดังนั้นคุณสามารถใส่แบบจำลองเช่นหรืออาจเป็นคำที่มีกำลังสอง! กราฟิกให้วางแผน paisr ตามที่คุณแสดง แต่ลด alpha และ color ขึ้นอยู่กับความชันYB=μ+สาขา(YA)+Δ(YA-Y¯A
kjetil b halvorsen

2

ด้วยหลายคู่คุณมีความเป็นไปได้ที่จะตรวจสอบโครงสร้างอย่างลึกซึ้งยิ่งขึ้นเช่นถ้าความแตกต่างขึ้นอยู่กับ "จุดเริ่มต้น" !YB-YAYA

คุณสามารถใส่แบบจำลองเช่น และคุณสามารถเพิ่มคำกำลังสอง หรือคุณสามารถแทนที่คำเชิงเส้น + สมการกำลังสองด้วย spline โดยใช้แบบจำลองการเติมทั่วไป (หรือเส้นโค้งการถดถอย)

YB=μ+สาขา(YA)+Δ(YA-Y¯A)+ε
+Δ2(YA-Y¯A)2

ในทางกราฟิกคุณสามารถแสดงเส้นตามที่คุณแสดงโดยลดปัจจัยอัลฟา (*) อาจลดลงอีกโดยแสดงตัวอย่างของเส้นแบบสุ่มเท่านั้น จากนั้นคุณสามารถระบายสีเส้นตามความชัน ...

สำหรับแผนการ Bland-Altman ที่กล่าวถึงในข้อคิดเห็นโดย Nick Cox ให้ดูตัวอย่างของข้อตกลงระหว่างวิธีที่มีการสังเกตหลายครั้งต่อบุคคล หรือดูผ่านแท็ก.

(*) ปัจจัยอัลฟาที่นี่คือพารามิเตอร์กราฟิกที่สร้างจุดในพล็อตที่โปร่งใสดังนั้นจุดที่พล็อตแรกไม่ได้ถูกบดบังโดยสิ้นเชิงในภายหลัง


1
ในจิตวิญญาณที่คล้ายกันฉันคิดว่าการวางแผนความแตกต่าง (A B) กับค่าเฉลี่ย (A + B) / 2 เป็นอุปกรณ์ทั่วไปในหลายสาขา ชื่อที่ติดอยู่ในสถิติทางการแพทย์คือ "แผนการอุเบกขา - อัลท์แมน" แม้ว่าผู้แต่งจะไม่อ้างสิทธิ์ในการสร้างสรรค์ -
Nick Cox

1

ฉันต้องการพล็อตกระจาย 2D ฉันจะวาดเส้นอ้างอิงเป็นสีเทาอ่อนเพื่อให้มีความเปรียบต่างมากขึ้นในภูมิภาคที่มีผู้คนหนาแน่น เพื่อบรรเทาความแออัดให้วาดเครื่องหมายที่ไม่มีขอบลดอัลฟาลดขนาดเครื่องหมาย

ที่กล่าวว่าถ้าคุณมีความสนใจมากขึ้นในคู่ทั่วไปกว่าในปีกของการกระจายให้ลองสายพล็อตรวมสะสมของเมื่อเทียบกับผลรวมสะสมของdots barsพล็อตยังคงเป็น 2D แต่มีหมึกน้อยกว่ามาก หากต้องการบันทึกพื้นที่การพล็อตคุณอาจหมุนการติดตาม 45 °เพื่อให้เฟรมทำหน้าที่เป็นทิศทางการอ้างอิง

เนื้อเรื่องนั้นจะแสดงแนวโน้มใด ๆ ในข้อมูล sqrt(bars*dots)หากกระบวนการเป็นที่รู้จักกันนิ่งจัดเรียงคู่โดยเช่นค่าเฉลี่ยเรขาคณิตของพวกเขา


0

ฉันแนะนำให้พล็อตบรรทัดตามที่คุณมีสำหรับค่ามัธยฐานและควอไทล์หรือเปอร์เซนต์มากเท่าที่คุณต้องการสำหรับเรื่องนั้น ค่ามัธยฐานอาจยังคงหนา / มองเห็นได้ดีกว่าเส้นเปอร์เซ็นต์อื่น ๆ สิ่งนี้จะช่วยรักษาความสามารถในการดูว่าข้อมูลทำงานอย่างไรในการกระจายโดยไม่ลดทอนความเรียบง่ายและความคุ้นเคยของพล็อตที่ใช้ในเขตข้อมูลของคุณในปัจจุบัน

นอกจากนี้ด้วยขนาดตัวอย่างสูงแนวโน้มค่าเฉลี่ยหรือค่ามัธยฐานที่มีแถบข้อผิดพลาดน่าจะเพียงพอเนื่องจากคุณจะเพลิดเพลินกับทฤษฎีบทขีด จำกัด กลางอย่างละเอียด สนามชีวการแพทย์ยังขึ้นอยู่กับแผนการแปลงที่จับคู่ด้วย แต่นี่เป็นกรณีตัวอย่างเนื่องจากขนาดของกลุ่มตัวอย่างอาจอยู่ในลำดับที่ 10-20 ดังนั้นจึงเป็นสิ่งสำคัญที่จะต้องเห็นภาพจุดยกระดับศักยภาพ


0

คำแนะนำแรกของฉันคือพล็อตกระจาย

หาก 10,000 จุดที่กระจายอย่างไม่สม่ำเสมอในพล็อตของคุณยังคงเป็นเมฆมากให้พิจารณาแผนที่ความร้อน สีของพิกเซลที่ x = 10.5, y = 11.5 จะระบุจำนวนครั้งที่มีค่าระหว่าง 10.45 ถึง 10.55 ในแผนที่ระหว่าง 11.45 ถึง 11.55: 0 = white = RGB (255,255,255), 1 = blue = RGB (0, 0,255), 2 = RGB (1,0,254), ... 256 และสูงกว่า = RGB (255,0,0) = แดง


นั่นทำให้ฉันเป็นตัวแทนเดียวกันกับการกระจายแบบ 2 มิติยกเว้นความละเอียดที่น้อยลง ฉันอาจจะลงเอยด้วยการทำอะไรแบบนี้ แต่ฉันก็หวังว่าจะได้ภาพที่มีขนาดกะทัดรัดมากขึ้นซึ่งจะทำการพล็อตค่าของทั้งสองกลุ่มในแกนเดียวกันแทนที่จะเป็นแกนฉากมุมฉาก
ali_m

1
เมื่อมองไปที่พล็อตกระจายของคุณฉันเห็นว่าคุณกำลังสูญเสียข้อมูลจำนวนมากในใจกลางของ "จุดหมึก" ของคุณ คุณต้องทำอะไรบางอย่างโดยใช้การแปลง (ลอการิทึม?) หรือแผนที่เฮลธ์ที่ฉันแนะนำ
Dirk Horsten

ขออภัย! คำแนะนำของคุณเหมาะสมอย่างยิ่ง - ฉันแค่ไม่ได้ทำงานที่ดีพอที่จะอธิบายสิ่งที่ฉันกำลังมองหา ใช่พล็อตสองมิติ (กระจายความร้อนแผนผังเส้นโค้ง ฯลฯ ) จะทำงานได้ดีในการแสดงความหนาแน่นของจุดตัวอย่าง แต่ฉันคิดว่านั่นเป็นข้อมูลที่มากกว่าที่ฉันต้องการแสดงจริง ๆ สิ่งที่ฉันต้องทำคือแสดงให้เห็นว่าค่าของ 'บาร์' โดยทั่วไปนั้นสูงกว่าค่าสำหรับ 'จุด' ฉันกำลังมองหาวิธีที่ง่ายที่สุดในการแสดงสิ่งนี้ในขณะที่รักษาลักษณะของข้อมูลที่จับคู่ไว้
ali_m

เส้นทแยงมุมของโครงเรื่องไม่ได้บอกทิศทางที่ดีเพียงพอหรือไม่?
Dirk Horsten

ไม่ แต่บางทีฉันอาจมีความคาดหวังที่ไม่สมเหตุสมผล :-)
ali_m
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.