ฉันพยายามเปรียบเทียบว่าสิ่งพิมพ์ข่าวที่แตกต่างกันสามฉบับครอบคลุมหัวข้อต่าง ๆ อย่างไร (พิจารณาผ่านโมเดลหัวข้อ LDA) ฉันมีสองวิธีที่เกี่ยวข้องในการทำเช่นนั้น แต่ได้รับคำติชมจำนวนมากจากเพื่อนร่วมงานว่านี่ไม่ใช่วิธีที่ง่ายมาก ฉันหวังว่าจะมีใครบางคนที่นั่นมีความคิดที่ดีกว่าสำหรับการแสดงภาพนี้
ในกราฟแรกฉันแสดงสัดส่วนของแต่ละหัวข้อในแต่ละสิ่งพิมพ์เช่น:
มันค่อนข้างตรงไปตรงมาและใช้งานง่ายสำหรับคนเกือบทุกคนที่ฉันเคยคุยด้วย อย่างไรก็ตามมันยากที่จะเห็นความแตกต่างระหว่างสิ่งตีพิมพ์ หนังสือพิมพ์ฉบับใดครอบคลุมหัวข้อใดเพิ่มเติม
เพื่อให้ได้สิ่งนี้ฉันวาดกราฟความแตกต่างระหว่างการตีพิมพ์ที่มีสัดส่วนหัวข้อสูงสุดและลำดับที่สองสูงที่สุดตามสีของสิ่งพิมพ์ที่มีคะแนนสูงสุด แบบนี้:
ยกตัวอย่างเช่นบาร์ขนาดใหญ่สำหรับฟุตบอลคือระยะห่างระหว่างอัลอาห์รามอังกฤษและเดลินิวส์อียิปต์ (อันดับ 2 ในการรายงานข่าวฟุตบอล) และเป็นสีแดงเพราะอัลอาห์รามเป็น # 1 ในทำนองเดียวกันการทดลองมีสีเขียวเนื่องจาก Egypt Independent มีสัดส่วนที่สูงที่สุดและขนาดของแถบคือระยะห่างระหว่าง Egypt Independent และ Daily News Egypt (# 2 อีกครั้ง)
ความจริงที่ฉันต้องอธิบายว่าทั้งหมดในสองย่อหน้าเป็นสัญญาณที่ค่อนข้างแน่ใจว่ากราฟล้มเหลวในการทดสอบความพอเพียง มันยากที่จะบอกสิ่งที่เกิดขึ้นจริงโดยเพียงแค่มองมัน
คำแนะนำทั่วไปเกี่ยวกับวิธีเน้นสิ่งพิมพ์ที่โดดเด่นสำหรับแต่ละหัวข้อด้วยวิธีที่เข้าใจง่ายกว่านี้?
แก้ไข: ข้อมูลจะเล่นกับ:นี่คือdput
ผลลัพธ์จาก R , เช่นเดียวกับไฟล์ CSV
แก้ไข 2:นี่คือเวอร์ชันพล็อตจุดเริ่มต้นโดยมีขนาดของจุดที่เป็นสัดส่วนกับสัดส่วนของหัวข้อในคลังข้อมูล (ซึ่งเป็นวิธีการเรียงลำดับหัวข้อเดิม) แม้ว่าฉันจะต้องปรับแต่งมันเพิ่มอีกนิด แต่ก็รู้สึกได้ง่ายกว่าที่ฉันเคยทำมาก่อน ขอบคุณทุกคน!