การแสดงจุดแยกของหลาย ๆ ชุด


30

มีรูปแบบการสร้างภาพข้อมูลที่ดีสำหรับการแสดงจุดตัดทับซ้อนของหลาย ๆ ชุดหรือไม่?

ฉันกำลังคิดอะไรบางอย่างเช่นเวนไดอะแกรม แต่อย่างใดอาจทำให้ตัวเองดีขึ้นสำหรับชุดจำนวนมากเช่น 10 หรือมากกว่า Wikipedia แสดงชุด Venn diagrams ที่สูงขึ้น แต่แม้กระทั่งแผนภาพ 4 ชุดนั้นมีความจำเป็นอย่างมาก

ฉันเดาว่าผลลัพธ์สุดท้ายของข้อมูลคือชุดจำนวนมากจะไม่ทับซ้อนกันดังนั้นจึงเป็นไปได้ที่ไดอะแกรมของ Venn จะใช้ได้ แต่ฉันต้องการหาเครื่องมือคอมพิวเตอร์ที่สามารถสร้างสิ่งนั้นได้ ดูเหมือนว่าฉันจะเหมือนกับชาร์ตของ Google ไม่อนุญาตให้มีหลายชุด


1
เกี่ยวข้อง แต่สำหรับชุดจำนวนน้อย (สำหรับการอ้างอิง): stats.stackexchange.com/questions/4211/ …

คำตอบ:


18

เมื่อคุณมีชุดจำนวนมากฉันจะลองสิ่งที่เป็นเส้นตรงและแสดงลิงก์โดยตรง (เช่นกราฟเครือข่าย) Flare และ Protovis ทั้งคู่มียูทิลิตี้เพื่อจัดการการสร้างภาพข้อมูลเหล่านี้

ดูคำถามนี้สำหรับตัวอย่างเช่นนี้:

ข้อความแสดงแทน


(+1) คำตอบที่ดี! - ฉันชอบกราฟิกโดยเฉพาะ ฉันสงสัยว่ามีวิธีการทำเช่นนี้ใน R หรือไม่?
suncoolsu

1
ฉันไม่ทราบวิธีที่จะทำ; แพ็คเกจ webvis ของฉันมีกระดาษห่อสำหรับ Protovis แต่มันก็เป็นงานที่ต้องทำมากมายเพื่อให้ได้กราฟิคนี้ บทความนี้แนะนำ "arc diagram" ซึ่งเกี่ยวข้อง: ieg.ifs.tuwien.ac.at/~aigner/teaching/ws06/infovis_ue/papers/…
เชน

1
@suncoolsu แผนภาพแพคเกจ R อาจทำเช่นเดียวกันกับ "อาร์คแผนภาพ" เชนชี้ไป ดูเหมือนว่าจะเป็นการยากที่จะได้รับ "เว็บพล็อต" เพื่อให้ดูเหมือนภาพด้านบน cran.r-project.org/web/packages/diagram/vignettes/diagram.pdf
Andy W

และแอนดี้ ขอบคุณสำหรับคำตอบ @Shane ฉันเห็นแพ็คเกจ webvis ของคุณแล้ว แต่ฉันยังต้องสำรวจต่อไป ฉันชอบกราฟโพรโทวิสเป็นจำนวนมาก พวกเขามีเว็บไซต์ที่ยอดเยี่ยม
suncoolsu

1
กราฟที่ดี แต่ไม่ตอบคำถามเริ่มต้นเนื่องจากคุณไม่สามารถแสดงจุดตัดของชุดตั้งแต่ 3 ชุดขึ้นไป มีความแตกต่างของมันหรือไม่?
nassimhddd

11

สิ่งนี้จะไม่แข่งขันกับคำตอบของ @ Shane เนื่องจากการแสดงแบบวงกลมเหมาะสำหรับการแสดงความสัมพันธ์ที่ซับซ้อนกับชุดข้อมูลมิติสูง

venn()K=4

K=4

สำหรับการอ้างอิงเพิ่มเติมคุณอาจสนใจ

Kestler et al., ไดอะแกรมทั่วไปของ Venn: วิธีใหม่ในการแสดงภาพความสัมพันธ์ทางพันธุกรรมที่ซับซ้อนชุด , ชีวสารสนเทศศาสตร์, 21 (8), 1592-1595 (2004)

เวนไดอะแกรมมีข้อ จำกัด ในแง่นี้ฉันชอบวิธีการที่ดำเนินการโดย Robert Kosara ในSightings: A Vennerable ChallengeหรือParallel Sets (แต่ดูการสนทนานี้ในบล็อกของ Andrew Gelman)


มันดูดี. ฉันจะรักมันถ้ามันจะยอมรับตัวเลขที่ไม่ใช่ ดูเหมือนว่าเราจะต้องแปลงข้อมูลของพวกเขาเป็นรายการตัวเลขก่อน
eastafri

เพื่อประโยชน์ในทางปฏิบัติมันจะยอดเยี่ยมที่จะรวมถึงบางส่วนของ screengrabs
user5783745

7

เราได้พัฒนาวิธีการเมทริกซ์ที่ใช้สำหรับชุดแยกเรียกว่าอารมณ์เสียคุณสามารถตรวจสอบได้ที่http://vcg.github.io/upset/ นี่คือตัวอย่าง:

ภาพหน้าจอ UpSet

เมทริกซ์ทางด้านซ้ายจะระบุถึงจุดตัดที่แถวหมายถึงแถวสุดท้ายที่นี่คือการตัดกันของประเภทภาพยนตร์ "Action, Adventure, and Children" แถบทางด้านขวาแสดงขนาดของจุดตัดสี่ในตัวอย่างนี้

นอกจากนี้คุณยังสามารถลงจุดคุณลักษณะของทางแยกหรือตัวเลือกอื่น ๆ ได้จากเว็บไซต์เพื่อดูรายละเอียด

ตอนนี้ยังมีเวอร์ชั่นสแตติกสำหรับ R ที่คุณสามารถหาได้จากเว็บไซต์ที่กล่าวถึงข้างต้นหรือไปที่นี่: https://github.com/hms-dbmi/UpSetR/

รายงานที่ทันสมัยเกี่ยวกับการสร้างภาพข้อมูลชุดสามารถดูได้ที่http://www.cvast.tuwien.ac.at/SetViz - สิ่งเหล่านี้ส่วนใหญ่เป็นข้อมูลเชิงวิชาการและไม่ได้มาพร้อมรหัสที่พร้อมใช้งาน


1
สำหรับฉันแล้วภาพที่คุณโพสต์นั้นเป็นตัวอย่างของการ overplotting โดยมีข้อมูลมากเกินไปในพล็อตเดียว ...
ทิม

1
@ Tim ในขณะที่ฉันเข้าใจสิ่งที่คุณพูดมันไม่ได้ overplotting จริง ๆ เพราะองค์ประกอบภาพทั้งหมดสามารถมองเห็นได้ชัดเจนและแยกออกจากกัน คุณสามารถโต้แย้งพล็อตที่ซับซ้อนเกินกว่าที่จะมองเห็นได้อย่างง่ายดาย แต่สิ่งนี้อาจเกี่ยวข้องกับคุณที่ไม่ได้รับการฝึกฝนในการใช้พล็อต - ไม่ใช่การสร้างภาพข้อมูลทั้งหมดสามารถหรือควรมุ่งเป้าไปที่ผู้ใช้ที่ไม่ผ่านการฝึกอบรม ความสามารถในการปรับขนาดของ venn diagrams ไม่ดี)
ThomasP85

@ ThomasP85 มีงานวิจัยมากมายที่แสดงให้เห็นว่าผู้คนไม่ดีในการแปลความหมายของภาพ (แม้แต่ "ผู้เชี่ยวชาญ") รวมถึงสิ่งพื้นฐานเช่นแผนภูมิวงกลม ในกรณีส่วนใหญ่การสร้างภาพข้อมูลที่ซับซ้อนนำไปสู่การตีความผิดและความเข้าใจผิด
ทิม

@Tim ฉันยอมรับว่าเรียบง่ายดีกว่าเสมอ แต่บางครั้งคำถามที่ซับซ้อนอาจมีคำตอบที่ซับซ้อน เหตุผลที่คำถามนี้ถูกโพสต์ในตอนแรกก็คือว่าถึงวันนี้ไม่ใช่เทคนิคการสร้างภาพอย่างง่ายที่น่าสนใจเพื่อจัดการกับการแยกชุดจำนวนมาก คำตอบที่ได้รับการยอมรับนั้นเกี่ยวข้องกับทางแยก 2 องศาเท่านั้นซึ่งเมื่อจำนวนชุดเพิ่มขึ้นจะมีขนาดเล็กลงและเล็กลงของจำนวนทางแยกทั้งหมด
ThomasP85

... และตัวอย่างของคุณที่มีแผนภูมิวงกลมเกี่ยวข้องกับความจริงที่ว่ามนุษย์ (ผู้เชี่ยวชาญหรือไม่) มีความน่ากลัวในการเปรียบเทียบมุมซึ่งเป็นสาเหตุที่ไม่ควรใช้แผนภูมิวงกลม :-)
ThomasP85
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.