วิธีที่ดีในการแสดงข้อมูลจำนวนมากแบบกราฟิก


15

ฉันกำลังทำงานในโครงการที่มีตัวแปร 14 ตัวและการสังเกตการณ์ 345,000 ครั้งสำหรับข้อมูลที่อยู่อาศัย (สิ่งต่าง ๆ เช่นปีที่สร้างขึ้นวิดีโอสแควร์ราคาขายเขตที่อยู่อาศัย ฯลฯ ) ฉันกังวลกับการพยายามค้นหาเทคนิคกราฟิกที่ดีและไลบรารี R ที่มีเทคนิคการพล็อตที่ดี

ฉันได้เห็นสิ่งที่เป็น ggplot และขัดแตะจะทำงานได้ดีและฉันกำลังคิดที่จะทำไวโอลินสำหรับตัวแปรเชิงตัวเลขของฉัน

แพคเกจอื่นใดที่ผู้คนจะแนะนำให้แสดงตัวแปรตัวเลขหรือตัวประกอบจำนวนมากในรูปแบบที่ชัดเจนขัดเงาและที่สำคัญที่สุดคือรวบรัด?


"ชัดเจนขัดเงาและที่สำคัญที่สุดคือรวบรัด" ฟังดูเหมือน ggplot2 สำหรับฉัน
Brandon Bertelsen

1
ฉันกำลังมองหาไม่เพียง แต่สำหรับไลบรารี R แต่ยังรวมถึงกราฟประเภทใดประเภทหนึ่ง ความรู้เกี่ยวกับกราฟของฉันนั้น จำกัด อยู่ที่การกระจายกล่องคิวคิวฮิสโตแกรมไวโอลินการประมาณความหนาแน่นของเคอร์เนล ฯลฯ กราฟที่คลุมเครือเล็กน้อยใด ๆ ที่สามารถเปิดเผยข้อมูลเกี่ยวกับข้อมูลได้มากกว่าที่น่าอัศจรรย์
Christopher Aden

2
พิกัดขนานเสียงเหมือนที่จะพูดถึงอีก วิธีการลดขนาดอาจช่วยได้เช่นกัน
Tal Galili

คำตอบ:


13

"กราฟ" ที่ดีที่สุดเห็นได้ชัดว่ายังไม่มีใครพูดถึง: ทำแผนที่ ข้อมูลที่อยู่อาศัยขึ้นอยู่กับตำแหน่งเชิงพื้นที่ (ตามที่เห็นเก่าเกี่ยวกับอสังหาริมทรัพย์) ดังนั้นสิ่งแรกที่ต้องทำคือการทำแผนที่รายละเอียดที่ชัดเจนของแต่ละตัวแปร การทำสิ่งนี้ให้ดีด้วยหนึ่งในสามของล้านคะแนนนั้นต้องใช้ GIS ที่มีความแข็งแกร่งทางอุตสาหกรรมซึ่งสามารถทำให้กระบวนการทำงานสั้นลงได้ หลังจากนั้นจึงเหมาะสมที่จะทำและแปลงความน่าจะเป็นและ boxplots เพื่อสำรวจการแจกแจงแบบไม่แปรและวางแผนพล็อตเมทริกซ์ scatterplot และพล็อตแผนภาพพเนจรพเนจร ฯลฯ เพื่อสำรวจการพึ่งพา - แต่แผนที่จะแนะนำสิ่งที่จะสำรวจทันที ความสัมพันธ์ของข้อมูลและวิธีการแบ่งข้อมูลออกเป็นส่วนย่อยที่มีความหมายทางภูมิศาสตร์


ความคิดที่ดี! ฉันมีละติจูดและลองจิจูดของดาต้าพ้อยท์ทั้งหมดแล้วดังนั้นงานดังกล่าวจะค่อนข้างประถม ฉันคิดว่าห้องสมุดแผนที่จะเป็นวิธีที่ดีในการไปเว้นแต่จะมีสิ่งที่ดีกว่า
Christopher Aden

2
@Christopher นอกจากนี้คุณยังสามารถทำเช่นนี้กับggplot2(ESP. ถ้าคุณไม่จำเป็นต้องวาดขอบเขตประเทศ) had.co.nz/ggplot2/coord_map.html มิฉะนั้นmaps, gmapsจะดีกว่า นอกจากนี้ยังมีGeoXpและอินเตอร์เฟส R ไปยัง GRASS BTW, Mondrian มีปลั๊กอินสำหรับข้อมูลทางภูมิศาสตร์ :)
chl

การกำหนดคำตอบที่ดีที่สุดอาจเป็นเรื่องยากเมื่อมีข้อเสนอแนะที่ดีหลายประการ แต่ฉันรู้สึกว่านี่เป็นทิศทางที่ถูกต้องโดยคำนึงถึง "รวบรัด" ฉันจะลอง ggplot2 และดูแผนที่ GeoXp และ Mondrian ขอบคุณสำหรับความคิดกราฟเชิงพื้นที่!
Christopher Aden

บางโพ สต์ที่ยอดเยี่ยมเกี่ยวกับแผนที่blog.revolutionanalytics.com/2012/07/…stevendkay.wordpress.com/2010/04/21/…
Chris Beeley

ผมเคยประสบความสำเร็จที่ดีกับlattice's และlevelplot contourplotแพคเกจfieldsมีคุณสมบัติที่ดีรวมถึงquiltplotสิ่งที่ดีถ้าข้อมูลของคุณไม่ได้อยู่ในตารางอย่างเคร่งครัด นอกจากนี้ยังมีฟังก์ชั่นเดือยแผ่นแบบบางTpsเพื่อให้ข้อมูลที่ไม่ gridded ราบรื่นกับตาราง สำหรับซอฟต์แวร์ GIS โดยเฉพาะ GRASS ก็ไม่มีเหตุผลที่ฉันจะชอบ QGIS
Wayne

6

ฉันขอแนะนำให้ดูที่GGobiซึ่งมีอินเตอร์เฟส R อย่างน้อยก็เพื่อวัตถุประสงค์ในการสำรวจ มีจำนวนการแสดงผลกราฟิกที่มีประโยชน์อย่างยิ่งสำหรับการจัดการกับการสังเกตจำนวนมากและตัวแปรและสำหรับการเชื่อมโยงเหล่านี้เข้าด้วยกัน คุณอาจต้องการที่จะเริ่มต้นด้วยการดูบางส่วนของวิดีโอภายใต้ "ชมการสาธิต" ส่วนในเรียนรู้ GGobiหน้า

ปรับปรุง

ลิงค์ไปยังเครื่องมือของ Hadley Wickham สำหรับ GGobi ตามที่ chl แนะนำในความคิดเห็น:

  • DescribeDisplay "R package ที่ให้วิธีในการสร้างกราฟิก ggobi ใน R"
  • clusterfly "สำรวจผลการรวมกลุ่มในมิติสูง"
  • rggobi "แพ็คเกจ R ที่ให้การเชื่อมต่อที่ง่ายดายกับ GGobi"

1
@ars ให้เพิ่มนายอำเภอเครื่องมือ R เพื่อเพิ่มประสบการณ์ GGobi เช่นและDescribeDisplay clusterfly
chl

สวัสดี ars อย่างที่ฉันเขียนในคำตอบของฉัน - ประสบการณ์ของฉันกับ ggobi คือมันไม่ได้จัดการชุดข้อมูลขนาดใหญ่ได้ดี คุณมีประสบการณ์อื่นด้วยหรือไม่
Tal Galili

@Tal ปัญหามาจากการไม่พึ่งพาสัญลักษณ์สำหรับการแสดง / การแสดงผลหน้าจอซึ่งเป็นเรื่องปกติของกราฟิกฐาน R สิ่งนี้ถูกกล่าวถึงในการประชุม DSC ล่าสุด ( j.mp/bpOhBH ) ที่จริงแล้วมีโครงการอย่างต่อเนื่องโดยมี Qt เป็นแบ็กเอนด์และพอร์ตใหม่ของ GGobi เพื่อปรับปรุงการแสดงผลแบบโต้ตอบของชุดข้อมูลขนาดใหญ่
chl

1
@Tal: ประสบการณ์ของฉันคือมันค่อนข้างช้าเมื่อรีเฟรช / วาดมุมมองใหม่เช่นเมื่อเพิ่มตัวแปรหรือลากเพื่อจัดเรียงจอแสดงผลใหม่ใน PCP ยังคงสามารถใช้งานได้แม้ว่าจะไม่เป็นแบบโต้ตอบตามที่โฆษณาด้วยข้อมูลขนาดใหญ่ @chl: ดีจริง ๆ ที่จะรู้ขอบคุณ!
ARS

1
@ars @Tal ต่อไปนี้เป็นลิงก์ในส่วนต่อประสาน Qt สำหรับ R ( j.mp/d1AJp7 ) และ GGobi ( j.mp/cUOvfp ) ดูที่เก็บ Github ของ Hadley!
chl

6

ฉันรู้สึกว่าคุณกำลังถามคำถามสองข้อ: 1) การสร้างภาพข้อมูลประเภทใดที่จะใช้และ 2) แพ็คเกจ R สามารถผลิตได้

ในกรณีที่ประเภทของกราฟที่จะใช้มีจำนวนมากและขึ้นอยู่กับความต้องการของคุณ (เช่นประเภทของตัวแปร - ตัวเลขปัจจัยทางภูมิศาสตร์ ฯลฯ และประเภทของการเชื่อมต่อที่คุณสนใจที่จะแสดง):

  • หากคุณมีตัวแปรตัวเลขหลายตัวคุณอาจต้องการใช้เมทริกซ์การกระจายกระจาย (ดูที่นี่ )
  • หากคุณมีตัวแปรปัจจัยจำนวนมากคุณอาจต้องการใช้เมทริกซ์พล็อตกระจายสำหรับปัจจัย (ดูที่นี่ )
  • นอกจากนี้คุณยังสามารถไปกับการทำบางพิกัดขนานมีมี หลาย วิธีที่จะทำมันในอาร์
  • สำหรับช่วงกว้างของสิ่งอำนวยความสะดวกแบบกราฟิกใน R มีลักษณะที่เป็นมุมมองงานกราฟิก

ตอนนี้เกี่ยวกับวิธีการทำ ปัญหาหนึ่งที่มีจุดข้อมูลจำนวนมากคือเวลาจนกว่าพล็อตจะถูกสร้างขึ้น ggplot2, iplots, ggobi ไม่ค่อยดีสำหรับจุดข้อมูลมากเกินไป (อย่างน้อยจากประสบการณ์ของฉัน) ในกรณีนี้คุณอาจต้องการที่จะมุ่งเน้นไปที่สิ่งอำนวยความสะดวกกราฟิก R หรือตัวอย่างข้อมูลของคุณและที่จะใช้เครื่องมืออื่น ๆ ทั้งหมด หรือคุณสามารถหวังว่าคนที่กำลังพัฒนา iplots มาก (หรือAcinonyx ) จะเข้าสู่ขั้นตอนการปล่อยล่วงหน้า


ขอบคุณสำหรับลิงค์เกี่ยวกับrflowcytและ Acinonyx
chl

BTW, rflowcytได้เลิกกับรุ่นล่าสุดของ Bioconductor flowVizก็จะแนะนำในขณะนี้เพื่อการใช้งาน latticeอย่างไรก็ตามทั้งพึ่งพา
chl

คำตอบที่ละเอียดมาก Tal! เวลาการสร้างพล็อตไม่ควรเป็นปัญหาใหญ่ ฉันทำกราฟส่วนใหญ่ด้วยแพ็คเกจพื้นฐานและปัญหาของการมีกราฟดูดีขึ้นเมื่อฉันตัดสินใจใช้กราฟสำหรับกระดาษ ฉันพิจารณาใช้ scatterplot matrix สำหรับตัวแปรตัวเลข แต่เนื่องจากส่วนใหญ่เป็นหน่วยที่แตกต่างกัน (บางหน่วยเป็นดอลลาร์และอื่น ๆ ในตารางฟุต) ข้อมูลที่มีค่าเพียงอย่างเดียวที่ฉันจะได้รับคือแนวโน้มทั่วไป แต่มีตัวเลขประมาณ 8 ตัวแปร 8x8 SPM ค่อนข้างรก
Christopher Aden

3

Mondrianมีคุณสมบัติแบบอินเทอร์แอคทีฟและจัดการชุดข้อมูลที่มีขนาดค่อนข้างใหญ่ (อยู่ใน Java)

Paraviewรวมถึง 2D / 3D ได้แก่ คุณสมบัติ


ขอบคุณสำหรับห้องสมุดใหม่สองแห่ง ความขัดแย้งหลักของฉันกับสองสิ่งนี้คือฉันกำลังส่งรายงานของฉันผ่านทางกระดาษสำเนาดังนั้นกราฟิกแบบอินเทอร์แอคทีฟอาจไม่ได้ใช้อย่างเต็มที่ กราฟิกของ Mondrian ดูค่อนข้างซับซ้อน ฉันจะให้มันดู
Christopher Aden

@Christopher สำหรับ Mondrian คุณมีเวอร์ชัน R ที่เทียบเท่าผ่านการiplotsอ้างถึงโดย @Tal เกี่ยวกับ Paraview คุณมีตัวเลือกในการบันทึกภาพหน้าจอของ viz ของคุณ DescribeDisplayเป็นวิธีที่จะไปสำหรับการส่งออกการสร้างภาพแบบไดนามิกจาก GGobi, cran.r-project.org/web/packages/DescribeDisplay/index.html
chl

-3

ฉันต้องการที่จะนำความสนใจของคุณ, พิกัดขนาน: เรขาคณิตหลายมิติของภาพและแอปพลิเคชั่นของมันซึ่งมีความก้าวหน้าและแอปพลิเคชั่นล่าสุดในสาขานี้

หนังสือเล่มนี้ได้รับการยกย่องจากสตีเฟ่นฮอว์คิงท่ามกลางคนอื่น ๆ พื้นผิวมีการอธิบาย (ใช้เป็นคู่) โดยเวกเตอร์ปกติของพวกเขาที่จุดของมัน มันมีแอพพลิเคชั่นควบคุมการจราจรทางอากาศ (การหลีกเลี่ยงการชนกันโดยอัตโนมัติ - 3 สิทธิบัตรในสหรัฐอเมริกา), การทำเหมืองข้อมูลหลายตัวแปร (บนชุดข้อมูลจริงที่มีตัวแปรหลายร้อยตัว), การเพิ่มประสิทธิภาพ Multiobjective, การควบคุมกระบวนการ ข้อมูล.


5
สวัสดีอัลเฟรดขอบคุณสำหรับการเข้าร่วมเว็บไซต์นี้ออกมาเป็นบิตโปรโมชัน บางทีคุณอาจมีตัวอย่างคล้ายกับชุดข้อมูลของ OP (ตัวแปร 14 ตัวและการสังเกต 345,000 ครั้ง) ที่คุณสามารถจัดเตรียมรูปภาพและอธิบาย / สาธิตว่าพิกัดขนานนั้นมีประโยชน์อย่างไร แผนภูมิพิกัดขนานแบบคงที่จำนวนมากที่ฉันเห็นด้วยการสังเกตหลายครั้งดูเหมือนว่าปาเก็ตตี้บนจานฉันสงสัยว่าคุณมีความเข้าใจที่ดีขึ้นเกี่ยวกับวิธีการทำความเข้าใจข้อมูล N ขนาดใหญ่
Andy W

สวัสดีแอนดี้ฉันไม่ได้มีตัวอย่างกับข้อสังเกตมากมาย ใน
อัลเฟรดอินเซลเบิร์ก

สวัสดีแอนดี้ฉันไม่ได้มีตัวอย่างกับข้อสังเกตมากมาย การโต้ตอบเป็นสิ่งจำเป็นสำหรับการสำรวจข้อมูล ฉันทำงานกับชุดข้อมูลที่มีตัวแปร 800 ตัวและการสังเกต 10,000 ครั้งในเครือข่ายโทรศัพท์เซลลูลาร์เพื่อค้นหาความล้มเหลว "ลึกลับ" เมื่อใช้ตัวแยกประเภทและการโต้ตอบ 11 ตัวพบว่ามีความรับผิดชอบและติดตามพวกมันย้อนหลังในเวลาที่ตรวจพบกิจกรรมที่ไม่เหมาะสมในเครือข่าย 3-4 ก่อนที่จะสังเกตเห็นความล้มเหลว
Alfred Inselberg
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.