วิธีการมองเห็นความแตกต่างที่ดีที่สุดในหลาย ๆ สัดส่วนในสามกลุ่ม?


18

ฉันพยายามเปรียบเทียบว่าสิ่งพิมพ์ข่าวที่แตกต่างกันสามฉบับครอบคลุมหัวข้อต่าง ๆ อย่างไร (พิจารณาผ่านโมเดลหัวข้อ LDA) ฉันมีสองวิธีที่เกี่ยวข้องในการทำเช่นนั้น แต่ได้รับคำติชมจำนวนมากจากเพื่อนร่วมงานว่านี่ไม่ใช่วิธีที่ง่ายมาก ฉันหวังว่าจะมีใครบางคนที่นั่นมีความคิดที่ดีกว่าสำหรับการแสดงภาพนี้

ในกราฟแรกฉันแสดงสัดส่วนของแต่ละหัวข้อในแต่ละสิ่งพิมพ์เช่น:

สัดส่วนสำหรับหัวข้อและสิ่งพิมพ์ทั้งหมด

มันค่อนข้างตรงไปตรงมาและใช้งานง่ายสำหรับคนเกือบทุกคนที่ฉันเคยคุยด้วย อย่างไรก็ตามมันยากที่จะเห็นความแตกต่างระหว่างสิ่งตีพิมพ์ หนังสือพิมพ์ฉบับใดครอบคลุมหัวข้อใดเพิ่มเติม

เพื่อให้ได้สิ่งนี้ฉันวาดกราฟความแตกต่างระหว่างการตีพิมพ์ที่มีสัดส่วนหัวข้อสูงสุดและลำดับที่สองสูงที่สุดตามสีของสิ่งพิมพ์ที่มีคะแนนสูงสุด แบบนี้:

ความแตกต่างระหว่างหัวข้อที่หนึ่งและสองสูงสุด

ยกตัวอย่างเช่นบาร์ขนาดใหญ่สำหรับฟุตบอลคือระยะห่างระหว่างอัลอาห์รามอังกฤษและเดลินิวส์อียิปต์ (อันดับ 2 ในการรายงานข่าวฟุตบอล) และเป็นสีแดงเพราะอัลอาห์รามเป็น # 1 ในทำนองเดียวกันการทดลองมีสีเขียวเนื่องจาก Egypt Independent มีสัดส่วนที่สูงที่สุดและขนาดของแถบคือระยะห่างระหว่าง Egypt Independent และ Daily News Egypt (# 2 อีกครั้ง)

ความจริงที่ฉันต้องอธิบายว่าทั้งหมดในสองย่อหน้าเป็นสัญญาณที่ค่อนข้างแน่ใจว่ากราฟล้มเหลวในการทดสอบความพอเพียง มันยากที่จะบอกสิ่งที่เกิดขึ้นจริงโดยเพียงแค่มองมัน

คำแนะนำทั่วไปเกี่ยวกับวิธีเน้นสิ่งพิมพ์ที่โดดเด่นสำหรับแต่ละหัวข้อด้วยวิธีที่เข้าใจง่ายกว่านี้?

แก้ไข: ข้อมูลจะเล่นกับ:นี่คือdputผลลัพธ์จาก R , เช่นเดียวกับไฟล์ CSV

แก้ไข 2:นี่คือเวอร์ชันพล็อตจุดเริ่มต้นโดยมีขนาดของจุดที่เป็นสัดส่วนกับสัดส่วนของหัวข้อในคลังข้อมูล (ซึ่งเป็นวิธีการเรียงลำดับหัวข้อเดิม) แม้ว่าฉันจะต้องปรับแต่งมันเพิ่มอีกนิด แต่ก็รู้สึกได้ง่ายกว่าที่ฉันเคยทำมาก่อน ขอบคุณทุกคน!

พล็อตจุด


1
ฉันเพิ่งเพิ่มข้อมูล (สำหรับ R และ CSV) ฉันยังไม่ได้ดำเนินการเสร็จสิ้นการเลือกสีที่ดีเลย (เพราะฉะนั้น Christmasy สีแดง / สีเขียว) แต่ฉันตระหนักถึงปัญหาสีตาบอด :)
แอนดรู

1
การกล่าวถึง "สัดส่วน" เป็นบิตของปลาเฮอริ่งแดงที่นี่เนื่องจากข้อมูลไม่ได้สัดส่วนจริง ๆ และที่สำคัญกว่านั้นไม่มีวิธีการแก้ปัญหาแบบกราฟิกที่ขึ้นอยู่กับสัดส่วนของข้อมูล สิ่งนี้เป็นสิ่งที่ดีเพราะโซลูชันมีความเกี่ยวข้องกับข้อมูลที่หลากหลาย แต่อย่าเข้าใจผิด
Nick Cox

(+1) คำถามที่ดีรวมถึงชุดข้อมูลที่สามารถดาวน์โหลดได้และการติดตามอย่างรวดเร็ว!
chl

แอนดรูว์เกี่ยวกับการแก้ไขล่าสุดของคุณฉันคิดว่ามันจะดีกว่ากับเส้นกริดแนวตั้ง พวกเขาสร้างรูปแบบตัวตรวจสอบ แต่ไม่เพิ่มคุณค่ามากนักโดยสมมติว่าคุณไม่สนใจที่จะอ่านค่าที่แม่นยำจากกราฟ
xan

หากไม่มีเส้นแนวตั้ง
แอนดรู

คำตอบ:


18

ขอขอบคุณที่ทำให้การเข้าถึงข้อมูลและชุดข้อมูลที่น่าสนใจและความท้าทายด้านกราฟิก

คำแนะนำหลักของฉันคือแผนภูมิจุด (คลีฟแลนด์)

ป้อนคำอธิบายรูปภาพที่นี่

รายละเอียดที่สำคัญที่สุดที่ฉันอยากจะเน้น:

  1. การวางซ้อนที่นี่ช่วยให้และเปรียบเทียบได้ง่ายขึ้น

  2. ลำดับของหัวข้อในจอแสดงผลของคุณค่อนข้างที่จะระบุ ไม่มีลำดับตามธรรมชาติ (เช่นเวลาพื้นที่ตัวแปรที่เรียงลำดับ) ฉันจะเรียงลำดับตามตัวแปรตัวใดตัวหนึ่งเสมอเพื่อให้กรอบงาน สิ่งที่ควรใช้อาจเป็นเรื่องของการตัดสินใจของนักวิจัย ความเป็นไปได้อีกอย่างก็คือการสั่งซื้อในการวัดความแตกต่างระหว่างเอกสารเพื่อให้หัวข้อที่ได้รับความครอบคลุมที่คล้ายกันอยู่ที่ปลายด้านหนึ่งและผู้ที่ได้รับความคุ้มครองที่แตกต่างกันที่ปลายอีกด้าน

  3. เครื่องหมายเปิดหรือสัญลักษณ์จุดช่วยให้การทับซ้อนหรือตัวตนได้รับการแก้ไขดีกว่าเครื่องหมายปิดหรือแข็งหรือสัญลักษณ์ซึ่งในกรณีที่เลวร้ายที่สุดปิดบังหรือปิดกั้นซึ่งกันและกัน (ทางเลือกที่อาจใช้งานได้ดีที่นี่คือตัวอักษรเช่น A, D และ I สำหรับหนังสือพิมพ์สามฉบับ)

มีขอบเขตชัดเจนมากสำหรับการปรับปรุงการออกแบบของฉัน ตัวอย่างเช่นตัวอักษรใหญ่เกินไปและ / หรือหนักเกินไปหรือไม่ ในทางกลับกันส่วนหัวจะต้องสามารถอ่านได้ง่ายมิฉะนั้นกราฟจะเกิดความล้มเหลว

บางจุดเล็กกว่าตัวเลือก:

สีแดงและสีเขียวบนกราฟของคุณเป็นการผสมสีที่ควรหลีกเลี่ยง เมื่อใช้เครื่องหมายที่แตกต่างกันการเลือกสีมีความสำคัญน้อยกว่าเล็กน้อย

ข เห็บแนวนอนบนกราฟของคุณเบี่ยงเบนความสนใจ ในทางตรงกันข้ามจำเป็นต้องใช้เส้นกริดบนของฉัน แต่ฉันพยายามทำให้มันไม่สร้างความรำคาญโดยใช้เส้นที่บางและเบา

×

แผนภูมิจุด Cleveland เป็นส่วนใหญ่

คลีฟแลนด์, WS 1984 วิธีกราฟิกในการนำเสนอข้อมูล: ตัวแบ่งขนาดเต็ม, แผนภูมิจุดและการบันทึกแบบหลายค่า สถิติชาวอเมริกัน 38: 270-80

คลีฟแลนด์, WS 1985 องค์ประกอบของข้อมูลกราฟ มอนเทอเรย์แคลิฟอร์เนีย: วัดส์เวิร์ ธ

คลีฟแลนด์, WS 1994 องค์ประกอบของข้อมูลกราฟ การประชุมสุดยอดนิวเจอร์ซีย์: โฮบาร์ตกด

ผู้นำคนหนึ่ง (มีชื่อเสียงมากกว่าสถิติสำหรับการทำงานที่แตกต่างกันมาก !!!) คือ

Pearson, ES 1956. บางแง่มุมของเรขาคณิตของสถิติ: การใช้การนำเสนอด้วยภาพเพื่อทำความเข้าใจทฤษฎีและการประยุกต์ใช้สถิติทางคณิตศาสตร์ วารสารสมาคมสถิติ Royal A 119: 125-146

สำหรับผู้ที่สนใจกราฟถูกเตรียมใน Stata หลังจากอ่านใน. csv พร้อมรหัส

graph dot (asis) prop , over(pub) over(label, sort(1)) asyvars 
marker(1, ms(Oh)) marker(2, ms(+)) marker(3, ms(Th)) linetype(line)   
lines(lc(gs12) lw(vthin)) scheme(s1color) 

มันเยี่ยมมาก - ขอบคุณ! แต่น่าเสียดายที่ร้อยละไม่เพิ่มขึ้นเพราะอะไรเป็นค่ามาตรฐานวิธีจากคลังเอกสารขนาดใหญ่ (เช่นเอกสารทุกฉบับในสิ่งพิมพ์แต่ละเล่มประกอบด้วยการรวมกันของ 20 หัวข้อค้นพบโดยLDA - แสดงวิธีการปกติ ... ดังนั้น ตัวเลขขนาดเล็ก)
Andrew

นอกจากนี้หัวข้อจะเรียงลำดับตามสัดส่วนในคลังข้อมูล การปกครองอียิปต์เป็นหัวข้อที่ปรากฏโดยทั่วไปในขณะที่เบ็ดเตล็ดเป็นหัวข้อที่หายาก แต่การใช้ลำดับนั้นทำให้จุด / สัญลักษณ์ยากขึ้นเล็กน้อยในการติดตาม
Andrew

มันเยี่ยมมาก! ขอบคุณ! ฉันอัปเดตโพสต์ดั้งเดิมเพื่อให้สอดคล้องกับข้อเสนอแนะของคุณและเพิ่มสัดส่วนของคลังข้อมูล
แอนดรู

(+6) คำตอบที่ดี! และมันก็ดีเสมอที่มีการอ้างอิงและโค้ดที่ทำซ้ำได้
chl

@chl ขอบคุณมากสำหรับความคิดเห็นชื่นชมและชื่อเสียงพิเศษ
Nick Cox

14

พล็อตจุดจาก Nick Cox น่าจะดีที่สุดสำหรับภาพที่สมบูรณ์ หากคุณต้องการเน้นความสัมพันธ์แรกกับความสัมพันธ์ที่สองจริง ๆ นี่คือการปรับเปลี่ยนในแผนภูมิของคุณที่จะชดเชยแถบส่วนต่างด้วยความยาวของแถบที่สอง

ป้อนคำอธิบายรูปภาพที่นี่

และสำหรับมุมมองภาพใหญ่อื่น ๆ คุณสามารถลองทำอะไรเช่นแผนภูมิความชันหรือพล็อตพิกัดขนาน บรรทัดอาจแออัดเกินไปที่นี่ แต่อาจใช้งานได้หากคุณต้องการเน้นในส่วนย่อยของหัวข้อ

ป้อนคำอธิบายรูปภาพที่นี่

นอกจากนี้คุณอาจลองhelpmeviz.comซึ่งมุ่งเน้นไปที่คำถามที่เฉพาะเจาะจงมาก ได้แก่ ข้อมูลนี้


! ที่น่าสนใจ จุดนาที: ชื่อแกนหรือป้ายกำกับ "สัดส่วน" ไม่ตรงกับหน่วยของ%
Nick Cox

โอ้นี่น่าสนใจจริงๆ ฉันจะเล่นกับสิ่งนี้เพื่อดูว่ามันสามารถเติมเต็มจุดแผนภูมิ
Andrew

2

Instict แรกของฉันคือการแนะนำให้พล็อตโมเสค ; มันกราฟแต่ละหมวดหมู่ย่อยเป็นรูปสี่เหลี่ยมผืนผ้าที่หนึ่งมิติหมายถึงการนับรวมสำหรับหมวดหมู่หลักและมิติอื่น ๆ แสดงส่วนแบ่งตามสัดส่วนของหมวดหมู่ย่อย มีแพ็คเกจ R ที่จะวาดมันแต่มันก็ค่อนข้างตรงไปตรงมาสำหรับเครื่องมือกราฟระดับต่ำกว่า

อย่างไรก็ตามพล็อตโมเสค (เช่นกราฟแท่งแบบซ้อนเปอร์เซ็นต์) ทำงานได้ดีที่สุดหากมีเพียง 2 หรือ 3 หมวดหมู่ในมิติที่คุณต้องการเปรียบเทียบสัดส่วน ดังนั้นพวกเขาจะทำงานได้ดีถ้าคุณต้องการที่จะเปรียบเทียบความแตกต่างระหว่างหัวข้อในสัดส่วนของบทความที่อยู่ในแต่ละสามหนังสือพิมพ์แต่ไม่มากสำหรับการใช้งานที่คุณตั้งใจจะเปรียบเทียบความแตกต่างระหว่างสามหนังสือพิมพ์ในสัดส่วนของความคุ้มครองสำหรับแต่ละหัวข้อ ความแตกต่างที่ลึกซึ้ง แต่สำคัญ!

สำหรับสิ่งที่คุณต้องการเน้นผมคิดว่ากราฟที่มีประสิทธิภาพมากที่สุดคือกราฟแท่งที่จัดเรียงง่ายที่สุดอย่างหนึ่ง ผู้คนจำนวนมากเข้าใจกราฟแท่งมากกว่าแผนภูมิจุด คุณจะเห็นว่าคุณกำลังเปรียบเทียบปริมาณที่มีขนาดแตกต่างกันและค่าที่คุณต้องการเปรียบเทียบนั้นเป็นแบบเคียงข้างกัน

อย่างไรก็ตามหากคุณต้องการเน้นความแตกต่างของสัดส่วนคุณสามารถสร้างกราฟแท่งที่จัดกลุ่มแบบกำหนดเองปรับเปลี่ยนเพื่อจัดตำแหน่งแต่ละกลุ่มเพื่อให้ค่ามัธยฐานต่อหมวดหมู่สอดคล้องกับแกนแทนที่จะเป็นค่าศูนย์:

                  Difference in proportion of coverage
                     per Newspaper,
                     relative to category median 
                     (narrow bars)
    ____-0.1%____0_____0.1%____0.2%_____
                 |
        |********|*****
A       |~~~~~~~~|
        |####    |
                 |
            |****|**********
B           |~~  |
            |####|
                 |
         |*****  |
C        |~~~~~~~|~~~~~
         |#######|
                 |
     |***        |
D    |~~~~~~~~~~~|
     |###########|##
                 |
0.2%_____0.1%____0_____
Median proportion of coverage 
   per category, all papers
   (large bars)

โปรดทราบว่าแท่งในแต่ละกลุ่มยังคงจัดตำแหน่งเพื่อเปรียบเทียบขนาดได้ง่ายและตอนนี้แนวพื้นฐานของแต่ละกลุ่มอยู่ในตำแหน่งทางด้านซ้ายของแกนตามค่ามัธยฐานของกลุ่มนั้นในขณะที่แท่งที่อยู่ทางด้านขวาของแกนนั้นเท่ากัน ไปยังกราฟแท่งที่สองของคุณที่แสดงความแตกต่างระหว่างสองหมวดหมู่แรก

ไม่ว่าคุณจะใช้กราฟแท่งแบบจัดกลุ่มมาตรฐานหรือกราฟที่ปรับค่าชดเชยเช่นด้านบนคุณยังคงสามารถนำแนวคิดจากโมเสกแปลงและสร้างความกว้างของแต่ละแท่งตามสัดส่วนกับจำนวนบทความทั้งหมดสำหรับหนังสือพิมพ์นั้น (ดังนั้นขนาดของ แถบเป็นสัดส่วนกับจำนวนบทความในหนังสือพิมพ์ในหมวดนั้น)

เนื่องจากสถิติการทดสอบของคุณเป็นคุณสมบัติของการเปรียบเทียบแต่ละรายการไม่ใช่ของแต่ละค่าฉันไม่คิดว่ามันมีประโยชน์ในการปรับขนาดจุดข้อมูลทุกจุดตามความสำคัญ แต่ฉันจะมีไอคอนถัดจากแต่ละกลุ่มแทนความสำคัญ สำหรับสิ่งพิมพ์ทางวิชาการมาตรฐาน*/ **/ ***มีความคุ้นเคย แต่คุณสามารถสร้างสรรค์ได้หากคุณต้องการแสดงสถิติอย่างต่อเนื่อง


แนวคิดหลักที่นี่คือการจัดกลุ่มบาร์ในแนวตั้ง นั่นเป็นการออกแบบที่ใช้กันอย่างแพร่หลาย แต่มีความหมายถึง 60 บาร์ในแนวตั้งแทนที่จะเป็น 20 ในต้นฉบับของโปสเตอร์ แม้ว่าคุณจะสามารถปรับความกว้างของบาร์ได้อย่างชัดเจน แต่ฉันคิดว่าคุณจะต้องมีพื้นที่ว่างมากขึ้นในกรณีนี้โดยเฉพาะอย่างยิ่งเมื่อคุณต้องการเพิ่มช่องว่างระหว่างกลุ่ม
Nick Cox

@NickCox นั่นเป็นข้อเสียเมื่อเทียบกับแผนภูมิดั้งเดิมที่มีขนาดกะทัดรัดยิ่งขึ้นแม้ว่าคุณจะสามารถหมุนกราฟทั้งหมด 90 องศาได้หากตัวเลขที่เน้นแนวนอนเหมาะสมกับการจัดวางโดยรวมของคุณ
AmeliaBR

คุณทำได้ แต่ 60 บาร์ก็ยากจากซ้ายไปขวาเช่นกันและฉลาก 20 รายการเช่น "กลุ่มภราดรภาพมุสลิมและการเมือง" จะต้องอ่านต่อไป ...
Nick Cox

คุณอาจสามารถทำให้มันทำงานได้โดยให้บาร์อยู่ในกลุ่มด้านบนของกันและกันแทนที่จะเป็นแบบเคียงข้างกัน ยากที่จะพูดโดยไม่ได้เห็นการเยาะเย้ย (และศิลปะ ASCII ของฉันไม่เก่งในการถ่ายทอดรูปลักษณ์และความรู้สึก) มันจะใช้งานได้ง่ายน้อยลงเพราะมันไม่คุ้นเคยกับโครงสร้างและอาจนำไปสู่ความสับสนได้หากแท่งสองแท่งใกล้เคียงกัน แต่ถ้าเป็นทางเลือกคือแท่งกว้างหนึ่งพิกเซล ...
AmeliaBR

ดังนั้นคุณกำลังเข้าใกล้ข้อเสนอแนะในคำตอบของฉันของแผนภูมิจุด
Nick Cox

1

คุณลองแผนภูมิฟองแล้วหรือยัง https://code.google.com/apis/ajax/playground/?type=visualization#bubble_chart

แต่ละหัวข้ออาจเป็นวงกลมและแต่ละวงอาจเป็นแผนภูมิวงกลมของเปอร์เซ็นต์ที่แต่ละช่องข่าวครอบคลุมหัวข้อ ขนาดของวงกลมสามารถระบุความครอบคลุมสัมพัทธ์ของหัวข้อ เช่นถ้ามีการเขียนบทความเกี่ยวกับน้ำมันมากกว่าวัฒนธรรมแล้ววงน้ำมันจะมีขนาดเส้นผ่าศูนย์กลางใหญ่กว่า


[X,Y]

1
@NickStauner ฉันไม่เห็นคำถามที่แก้ไขแล้วด้วยชุดข้อมูลเมื่อฉันตอบคำถามนี้ในตอนแรก พิกัดไม่ได้มีความหมายมากนัก แต่เป็นตัวเลขที่ตีพิมพ์ วงกลมสามารถจัดกลุ่มตามหัวข้อหรือตามขนาดเส้นผ่าศูนย์กลาง ฉันไม่รู้ว่าทำไมเปอร์เซ็นต์ถูกใช้ตั้งแต่แรกเพราะตัวเลขมีขนาดเล็กมาก
rocinante
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.