การสร้างภาพข้อมูลเชิงโต้ตอบจะมีประโยชน์เมื่อใด


17

ในขณะที่เตรียมการพูดคุยฉันจะให้เร็ว ๆ นี้ฉันเพิ่งเริ่มขุดเป็นสองเครื่องมือสำคัญ (ฟรี) สำหรับการสร้างภาพข้อมูลแบบโต้ตอบ: GGobiและMondrian - ทั้งสองมีความสามารถที่หลากหลาย

ฉันต้องการขอความช่วยเหลือจากคุณในการสื่อสาร (ทั้งกับตัวเองและสำหรับผู้ชมในอนาคตของฉัน) เมื่อใดที่การใช้แปลงแบบโต้ตอบมีประโยชน์เมื่อใด สำหรับการสำรวจข้อมูล (สำหรับตัวเราเอง) และการนำเสนอข้อมูล (สำหรับ "ลูกค้า")

สำหรับเมื่ออธิบายข้อมูลไปยังไคลเอนต์ฉันสามารถดูค่าของภาพเคลื่อนไหวสำหรับ:

  • ใช้ "ระบุ / เชื่อมโยง / แปรง" เพื่อดูว่าจุดข้อมูลใดในกราฟคืออะไร
  • นำเสนอการวิเคราะห์ความอ่อนไหวของข้อมูล (เช่น: "ถ้าเราลบจุดนี้นี่คือสิ่งที่เราจะได้รับ)
  • แสดงผลของกลุ่มต่าง ๆ ในข้อมูล (เช่น: "ลองดูกราฟของเราสำหรับผู้ชายและผู้หญิงตอนนี้")
  • แสดงเอฟเฟกต์ของเวลา (หรืออายุหรือโดยทั่วไปให้มิติอื่นกับงานนำเสนอ)

สำหรับการสำรวจข้อมูลด้วยตัวเองฉันสามารถเห็นคุณค่าของการระบุ / การเชื่อมโยง / การแปรงเมื่อทำการสำรวจค่าในชุดข้อมูลที่เรากำลังทำงานอยู่

แต่ในอีกสองตัวอย่างนี้ฉันไม่แน่ใจว่าเทคนิคเหล่านี้ใช้งานได้จริงอย่างไร โดยเฉพาะอย่างยิ่งสำหรับการสำรวจข้อมูลของเราเอง!

อาจเป็นที่ถกเถียงกันอยู่ว่าส่วนที่ตอบโต้นั้นดีสำหรับการสำรวจ (ตัวอย่าง) พฤติกรรมที่แตกต่างของกลุ่ม / กลุ่มที่แตกต่างกันในข้อมูล แต่เมื่อ (ในทางปฏิบัติ) ฉันเข้าหาสถานการณ์เช่นนี้สิ่งที่ฉันมักจะทำคือการเรียกใช้กระบวนการทางสถิติที่เกี่ยวข้อง (และการทดสอบหลังการเฉพาะกิจ) - และสิ่งที่ฉันพบว่ามีนัยสำคัญฉันจะวางแผนด้วยสีที่ชัดเจน กลุ่มที่เกี่ยวข้อง จากสิ่งที่ฉันเห็นนี่เป็นวิธีที่ปลอดภัยกว่าแล้ว "สงสัย" ข้อมูล (ซึ่งอาจนำไปสู่การขุดลอกข้อมูลได้ง่าย (ขอบเขตของการเปรียบเทียบหลายรายการที่จำเป็นสำหรับการแก้ไขนั้นไม่ชัดเจน)

ฉันมีความสุขมากที่ได้อ่านประสบการณ์ / ความคิดของคุณในเรื่องนี้

(คำถามนี้อาจเป็น wiki - ถึงแม้ว่ามันจะไม่ใช่อัตนัยก็ตามและคำตอบที่ได้รับการคิดมาอย่างดีจะชนะเครื่องหมาย "answer" ของฉัน :))


3
อย่างน้อยในกรณีของฉันฉันค่อนข้างอยู่ในเรือลำเดียวกัน ฉันขอบคุณ Mondrian และทำให้มันทันสมัย ​​แต่เมื่อฉันสำรวจชุดข้อมูลใหม่มันมีแนวโน้มที่จะอยู่ใน R ซึ่งมีการโต้ตอบน้อยลง แต่โดยรวมมีความยืดหยุ่นมากขึ้น ฉันเริ่มเขียนคำตอบแบบเต็มและรู้ว่าฉันกำลังพูดในทางทฤษฎีและไม่ใช่จากประสบการณ์จริง
เวย์น

คำตอบ:


8

นอกเหนือจากการเชื่อมโยงข้อมูลเชิงปริมาณหรือเชิงคุณภาพเข้ากับรูปแบบเชิงพื้นที่ตามที่แสดงโดย @whuber ฉันต้องการพูดถึงการใช้ EDA ด้วยการแปรงและการเชื่อมโยงแปลงต่างๆเข้าด้วยกันเพื่อการวิเคราะห์ข้อมูลระยะยาวและมิติสูง

ทั้งคู่ถูกกล่าวถึงในหนังสือที่ยอดเยี่ยมกราฟิกแบบอินเทอร์แอคทีฟและไดนามิกสำหรับการวิเคราะห์ข้อมูลด้วย R และ GGobiโดย Dianne Cook และ Deborah F. Swayne (Springer UseR !, 2007) ที่คุณรู้แน่นอน ผู้เขียนมีการอภิปรายที่ดีเกี่ยวกับ EDA ในบทที่ 1 แสดงให้เห็นถึงความจำเป็นที่ EDA จะ "บังคับให้เราคาดไม่ถึง" โดยอ้างถึง John Tukey (หน้า 13): การใช้จอแสดงผลแบบโต้ตอบและแบบไดนามิกนั้นไม่ใช่การดักฟังข้อมูล การตรวจสอบ (เช่นสรุปข้อมูลแบบกราฟิกอย่างหมดจด) แต่มันถูกมองว่าเป็นการสอบสวนแบบโต้ตอบของข้อมูลซึ่งอาจนำหน้าหรือเสริมการสร้างแบบจำลองทางสถิติตามสมมติฐานที่บริสุทธิ์

การใช้ GGobi ร่วมกับส่วนต่อประสาน R ( rggobi ) ยังช่วยแก้ปัญหาวิธีสร้างกราฟิกสแตติกสำหรับรายงานระดับกลางหรือสิ่งพิมพ์ขั้นสุดท้ายแม้จะใช้Projection Pursuit (หน้า 26-34) ด้วยแพ็คเกจDescribeDisplayหรือggplot2

ในบรรทัดเดียวกันไมเคิลเป็นมิตรได้สนับสนุนยาวการใช้งานของการแสดงข้อมูลในหมวดหมู่การวิเคราะห์ข้อมูลซึ่งได้รับแบบสุดขั้วส่วนใหญ่อยู่ในแพคเกจซีดี แต่ยังอยู่ในที่ใหม่กว่าvcdExtraแพคเกจ (รวม ได้แก่ แบบไดนามิก. ผ่านRGLแพคเกจ) ซึ่ง ทำหน้าที่เป็นกาวระหว่างแพคเกจvcdและgnmสำหรับการขยายโมเดลบันทึกการเชิงเส้น เขาเพิ่งให้เป็นบทสรุปที่ดีของการทำงานว่าในช่วงCarme 6ประชุมความก้าวหน้าในการแสดงผลหมวดหมู่ข้อมูลโดยใช้ VCD, GNM และแพคเกจ vcdExtra ใน R

ดังนั้น EDA สามารถคิดได้ว่าเป็นการให้คำอธิบายด้วยภาพของข้อมูล (ในแง่ที่ว่ามันอาจอธิบายรูปแบบที่ไม่คาดคิดในข้อมูลที่สังเกต) ก่อนที่จะมีวิธีการสร้างแบบจำลองทางสถิติอย่างหมดจดหรือขนานกับมัน นั่นคือ EDA ไม่เพียง แต่ให้วิธีการที่เป็นประโยชน์สำหรับการศึกษาโครงสร้างภายในของข้อมูลในมือ แต่มันอาจช่วยในการปรับแต่งและ / หรือสรุปแบบจำลองทางสถิติที่ใช้กับมัน มันเป็นสิ่งสำคัญในสิ่งที่biplotsอนุญาตให้ทำเช่น แม้ว่าพวกเขาจะไม่ได้ใช้เทคนิคการวิเคราะห์หลายมิติต่อ seพวกเขาเป็นเครื่องมือสำหรับการแสดงผลภาพจากการวิเคราะห์หลายมิติ (โดยให้การประมาณของความสัมพันธ์เมื่อพิจารณาบุคคลทั้งหมดเข้าด้วยกันหรือตัวแปรทั้งหมดเข้าด้วยกันหรือทั้งสองอย่าง) คะแนนปัจจัยสามารถนำมาใช้ในการสร้างแบบจำลองที่ตามมาแทนตัวชี้วัดเดิมเพื่อลดมิติหรือเพื่อให้เป็นตัวแทนระดับกลาง

sidenote

ที่มีความเสี่ยงที่จะล้าสมัยฉันยังคงใช้xlispstat( Luke Tierney ) เป็นครั้งคราว มันมีฟังก์ชั่นที่เรียบง่ายและมีประสิทธิภาพสำหรับการแสดงผลแบบอินเทอร์แอคทีฟปัจจุบันยังไม่มีในกราฟิก R ฉันไม่ทราบความสามารถที่คล้ายกันใน Clojure + Incanter (+ Processing)


8

เชื่อมโยงแบบไดนามิกของกราฟิกเป็นธรรมชาติและมีประสิทธิภาพสำหรับการวิเคราะห์ข้อมูลการสำรวจอวกาศหรือESDA โดยทั่วไปแล้วระบบ ESDA จะเชื่อมโยงแผนที่เชิงปริมาณอย่างน้อยหนึ่งแผนที่ (เช่นแผนที่ choropleth ) กับมุมมองแบบตารางและกราฟิกสถิติของข้อมูลพื้นฐาน ความสามารถบางอย่างดังกล่าวเป็นส่วนหนึ่งของระบบ GIS บนเดสก์ท็อปไม่กี่รายการเป็นเวลาประมาณ 15 ปีโดยเฉพาะอย่างยิ่งArcView 3 (ผลิตภัณฑ์เชิงพาณิชย์ที่เลิกผลิต) ซอฟต์แวร์GeoDaฟรีมอบความสามารถบางอย่างภายในสภาพแวดล้อมที่ออกแบบมาสำหรับการสำรวจข้อมูลเชิงพื้นที่และการวิเคราะห์เชิงสถิติ มันเป็น clunky พร้อมอินเทอร์เฟซแบบแปลก ๆ และกราฟิกที่ไม่ขัดเงา แต่ไม่มีข้อบกพร่อง

การใช้ EDA นี้เป็นการหลีกเลี่ยงการคัดค้านว่าการทดสอบทางสถิติอาจจะดีกว่าการสำรวจเชิงโต้ตอบเนื่องจากในหลาย ๆ สถานการณ์ส่วนใหญ่ไม่มีรูปแบบทางสถิติที่ชัดเจนไม่มีการทดสอบทางสถิติที่เห็นได้ชัด (หรือเหมาะสม) และการทดสอบสมมติฐานมักไม่เกี่ยวข้อง: ผู้คนต้องการที่จะเห็นสิ่งที่เกิดขึ้น , ที่มันเกิดขึ้นและจะสังเกตเห็นความสัมพันธ์ทางสถิติระหว่างตัวแปรในบริบทเชิงพื้นที่ ไม่ใช่การวิเคราะห์ข้อมูลทั้งหมดหรือควรประกอบด้วยขั้นตอนอย่างเป็นทางการ


สวัสดี Whuber ตัวอย่าง ESDA ของคุณเป็นตัวอย่างที่ดีมากขอบคุณ! หากคุณ (หรือคนอื่น ๆ ) สามารถแนะนำตัวอย่างอื่น ๆ เมื่อกระบวนการทางการมีความเกี่ยวข้องน้อยกว่า - สิ่งนี้จะเป็นประโยชน์มากที่สุด
Tal Galili

7

การแสดงภาพเชิงโต้ตอบสำหรับฉันนั้นมีประโยชน์สำหรับการสำรวจของฉันเองเท่านั้นหรือเมื่อทำงานกับไคลเอนต์ที่ลงมือปฏิบัติจริง ๆ เมื่อจัดการกับการนำเสนอครั้งสุดท้ายฉันชอบที่จะเลือกกราฟแบบคงที่ที่ทำให้จุดของฉันดีที่สุด มิฉะนั้นลูกค้าสามารถได้รับฟุ้งซ่านโดยสิ้นเชิงปัจจัย gee-whiz

ประโยชน์ที่ใหญ่ที่สุดที่ฉันได้รับจากมันคือระดับความเร็วที่ปลดปล่อยให้ฉันตรวจสอบมากกว่าที่ฉันจะทำได้หากฉันหยุดเขียนโปรแกรมโซลูชัน JMP เป็นหนึ่งในเครื่องมือโปรดของฉันเนื่องจากมันรวมสิ่งที่ฉันต้องการไว้ในอินเทอร์เฟซเดียวให้มาก ฉันคิดว่าคนส่วนใหญ่ที่เป็นโปรแกรมเมอร์ทางสถิติที่ดีลอง JMP (หรือ GGobi เป็นต้น) ในระยะเวลาอันสั้นเกินไปที่จะทำได้ดีจริงๆ โดยเฉพาะอย่างยิ่ง JMP จะทำให้คุณประทับใจที่คุณรู้โดยเพียงแค่ดูเมนูต่างๆ อย่างไรก็ตามการทำงานผ่านคู่มือเป็นสิ่งจำเป็นอย่างยิ่งในการเปิดเผยพลังทั้งหมดของมัน

คุณพูดถึงข้อกังวลหลักของฉันเกี่ยวกับความเร็วในระดับนี้แม้ว่า: คุณจะจบลงโดยไม่รู้ว่าค่า p ของคุณมีความหมายว่าอย่างไร ในเวลาเพียงไม่กี่นาทีคุณสามารถตรวจสอบความสัมพันธ์หลายร้อยภาพได้ ทำการทดสอบสมมติฐานหลังจากทั้งหมดที่ทำให้เข้าใจผิดโดยสิ้นเชิง แต่ฉันเห็นคนทำตลอดเวลา

ฟีเจอร์ที่ฉันชอบใน GGobi คือการฉายตามที่คุณระบุประเภทของรูปแบบที่คุณต้องการในพื้นที่มิติสูงจากนั้นคุณนั่งลงและดู "ไล่" เป้าหมายนั้น สิ่งที่ยอดเยี่ยม!


2
+1 ข้อสังเกตเกี่ยวกับการนำเสนอครั้งสุดท้ายทำให้นึกถึงการพูดคุย TED ในปี 2549 ที่มีชื่อเสียงของ Hans Rosling ( ted.com/talks/… ) Re: ประเด็นเกี่ยวกับการตรวจสอบ "ยิ่งกว่านั้น" ฉันนึกถึงว่าทนายความในที่เก็บสะสมถามฉันเกี่ยวกับวิธีการตรวจสอบข้อมูลที่สำรองพยานหลักฐานของฉันและใบหน้าของเธอหล่นเมื่อเธอเรียนรู้การทำงานแบบโต้ตอบและ ดังนั้นจึงไม่มีการพิมพ์หรือบันทึก (ซึ่งเธอสามารถหมายศาลตรวจสอบและพยายามที่จะหลอกลวง) ;-)
whuber

JMP เป็นหนึ่งในแอพพลิเคชั่นสถิติที่สวยที่สุด นักสถิติควรเรียนรู้วิธีใช้อย่างแน่นอนหากสร้างความประทับใจให้ลูกค้า มันแพง แต่ราคาถูกถ้าคุณเป็นนักเรียนหรือพนักงานที่โรงเรียน / วิทยาลัย / มหาวิทยาลัย
Neil McGuigan
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.