การเหลือบมองครั้งแรกอย่างรวดเร็วที่ชุดข้อมูล


10

กรุณาให้อภัยความไม่รู้ของฉัน แต่ ...

ฉันพบตัวเองอยู่ในสถานการณ์ที่ฉันต้องเผชิญกับข้อมูลใหม่ ๆ มากมายที่ฉันพยายามหา ข้อมูลนี้มักจะมีลักษณะดังนี้:

Date     Number1  Number2  Category1  Category2
20120125      11      101        Dog      Brown
20120126      21       90        Cat      Black
20120126      31      134        Cat      Brown
(...)

โดยทั่วไปในครั้งแรกที่ฉันไม่สามารถบอกได้ว่ามีแนวโน้มใด ๆ ที่นี่หรือไม่ ความสัมพันธ์ระหว่างคอลัมน์ต่าง ๆ อาจไม่สำคัญมาก แต่ฉันจะดีใจถ้าฉันไม่ต้องสร้างพล็อตด้วยตนเองสำหรับทุกชุดของคอลัมน์ / หมวดหมู่ที่เป็นไปได้

มีเครื่องมือที่จะยอมรับตารางของข้อมูลพร้อมกับข้อมูลที่คอลัมน์ควรจะถือว่าเป็นตัวเลขวันที่และหมวดหมู่แล้วดำเนินการพล็อต:

  • ความสัมพันธ์ระหว่างแต่ละคอลัมน์สองคอลัมน์
  • ความสัมพันธ์ระหว่างแต่ละคอลัมน์สองคอลัมน์โดยมีเส้นแนวโน้มแยกกันสำหรับแต่ละหมวดหมู่
  • แต่ละคอลัมน์ตัวเลขเป็นอนุกรมเวลา
  • แต่ละคอลัมน์ตัวเลขเป็นอนุกรมเวลาคั่นด้วยหมวดหมู่
  • เป็นต้น

ในที่สุดสิ่งนี้จะสร้างแปลงจำนวนมากซึ่งส่วนใหญ่จะแสดงเพียงเสียงรบกวน ตามหลักการแล้วเครื่องมือสามารถทำคะแนนพล็อตตามความสัมพันธ์และในที่สุดก็แสดงสไลด์โชว์โดยเริ่มจากพล็อตการให้คะแนนสูงสุด นี่จะไม่สมบูรณ์มาก แต่มีประโยชน์อย่างรวดเร็วก่อนที่ชุดข้อมูล

ดังนั้น? มีเครื่องมือที่ทุกคนใช้สำหรับสิ่งนี้และฉันไม่รู้เกี่ยวกับมันหรือเป็นสิ่งที่เราต้องทำหรือไม่?


ขอบคุณมากสำหรับคำตอบของคุณ ฉันสละเวลาเพื่อทดสอบเครื่องมือแต่ละอย่างที่คุณพูดถึงข้อมูลของฉัน ฉันจะเลือกคำตอบหลังการทดสอบ ฉันเดาว่ามันแย่เกินไปที่ฉันจะเลือกไม่ได้อีกแล้ว :)
postrational

คำตอบ:


15

@Ondrej และ @Michelle ได้ให้ข้อมูลที่ดีบางอย่างที่นี่ ฉันสงสัยว่าฉันสามารถมีส่วนร่วมด้วยการพูดถึงประเด็นที่ไม่ได้กล่าวถึงในที่อื่น ฉันจะไม่เอาชนะตัวเองเกี่ยวกับการไม่สามารถรวบรวมข้อมูลจากรูปแบบตารางได้มากโดยทั่วไปตารางจะไม่เป็นวิธีที่ดีในการนำเสนอข้อมูล (เช่นGelman et al., การเปลี่ยนตารางเป็นกราฟ ) ในทางกลับกันการขอเครื่องมือที่จะสร้างกราฟที่ถูกต้องทั้งหมดโดยอัตโนมัติเพื่อช่วยให้คุณสำรวจชุดข้อมูลใหม่เกือบจะเหมือนกับการขอเครื่องมือที่จะทำให้คุณคิด (อย่าเข้าใจผิดว่าฉันรู้ว่าคำถามของคุณชัดเจนว่าคุณไม่ได้ไปไกลขนาดนั้นฉันแค่หมายความว่าจะไม่มีเครื่องมือจริงๆ) การสนทนาที่ดีที่เกี่ยวข้องกับสิ่งนี้สามารถพบได้ที่นี่

สิ่งเหล่านี้ได้รับการกล่าวว่าฉันต้องการพูดคุยเล็กน้อยเกี่ยวกับชนิดของแปลงที่คุณอาจต้องการใช้ในการสำรวจข้อมูลของคุณ พล็อตที่แสดงในคำถามจะเป็นการเริ่มต้นที่ดี แต่เราอาจสามารถเพิ่มประสิทธิภาพได้เล็กน้อย ในการเริ่มต้นด้วยการสร้าง "พล็อตจำนวนมาก" คู่ของตัวแปรที่มีความสัมพันธ์อาจไม่เหมาะ Scatterplot แสดงความสัมพันธ์ของส่วนต่างระหว่างสองตัวแปรเท่านั้น ความสัมพันธ์ที่สำคัญมักถูกซ่อนอยู่ในชุดค่าผสมของตัวแปรหลายตัว ดังนั้นวิธีแรกที่จะพัฒนาวิธีนี้คือการสร้างเมทริกซ์กระจายที่แสดง scatterplots แบบ pairwise ทั้งหมดพร้อมกัน การฝึกอบรม Scatterplot สามารถปรับปรุงได้หลายวิธี: เช่นพวกเขาสามารถรวมกับแปลงความหนาแน่นของเคอร์เนลที่ไม่เปลี่ยนแปลงตัวแปรของการกระจายของตัวแปรแต่ละตัวสามารถใช้เครื่องหมาย / สีที่แตกต่างกันในการวางแผนกลุ่มต่าง ๆ และสามารถประเมินความสัมพันธ์แบบไม่เชิงเส้นได้ scatterplot.matrixฟังก์ชั่นในแพคเกจรถใน R สามารถทำทุกสิ่งเหล่านี้เป็นอย่างดี (ตัวอย่างสามารถมองเห็นลงครึ่งหนึ่งหน้าเชื่อมโยงดังกล่าว)

อย่างไรก็ตามในขณะที่การฝึกอบรม scatterplot เป็นการเริ่มต้นที่ดีพวกเขายังคงแสดงเฉพาะส่วนที่ยื่นออกมา มีสองสามวิธีในการพยายามก้าวข้ามสิ่งนี้ หนึ่งคือการสำรวจแปลงสามมิติโดยใช้แพคเกจrglในอาร์วิธีการอื่นคือการใช้พล็อตตามเงื่อนไข coplotsสามารถช่วยในเรื่องความสัมพันธ์ระหว่างตัวแปร 3 หรือ 4 ตัวพร้อมกัน วิธีที่มีประโยชน์โดยเฉพาะอย่างยิ่งคือการใช้เมทริกซ์การกระจายเชิงโต้ตอบ(แม้ว่าจะต้องใช้ความพยายามมากขึ้นในการเรียนรู้) เช่นโดย 'การแปรง' การแปรงช่วยให้คุณสามารถเน้นจุดหรือจุดในเฟรมหนึ่งของเมทริกซ์และจุดเหล่านั้นจะถูกเน้นพร้อมกันในเฟรมอื่นทั้งหมด เมื่อเลื่อนแปรงไปรอบ ๆ คุณจะเห็นว่าตัวแปรทั้งหมดเปลี่ยนแปลงกันอย่างไร UPDATE: ความเป็นไปได้ว่าผมได้ลืมที่จะกล่าวถึงก็คือการใช้พล็อตพิกัดขนาน สิ่งนี้มีข้อเสียในการไม่ทำให้ตัวแปรตอบสนองของคุณแตกต่างกัน แต่อาจมีประโยชน์ตัวอย่างเช่นในการตรวจสอบความสัมพันธ์ระหว่างตัวแปร X ของคุณ

ฉันยังอยากจะชมเชยคุณสำหรับการตรวจสอบข้อมูลของคุณเรียงตามวันที่รวบรวม แม้ว่าข้อมูลจะถูกรวบรวมตลอดเวลา แต่ผู้คนก็ไม่ทำเช่นนี้เสมอไป พล็อตกราฟเส้นเป็นสิ่งที่ดี แต่ผมขอแนะนำให้คุณเสริมว่าด้วยกราฟของautocorrelationsและautocorrelations บางส่วน ใน R ฟังก์ชั่นสำหรับสิ่งเหล่านี้acfและpacfตามลำดับ

ฉันรู้ว่าทั้งหมดนี้ไม่ได้ตอบคำถามของคุณในแง่ที่ให้เครื่องมือที่จะทำการแปลงทั้งหมดให้คุณโดยอัตโนมัติ แต่สิ่งหนึ่งที่บ่งบอกว่าคุณไม่ต้องทำหลาย ๆ แปลงตามที่คุณกลัว ตัวอย่างเช่น scatterplot matrix เป็นโค้ดหนึ่งบรรทัด นอกจากนี้ใน R, มันควรจะเป็นไปได้ที่จะเขียนฟังก์ชัน / บางรหัสนำมาใช้ใหม่สำหรับตัวเองที่จะเป็นบางส่วนโดยอัตโนมัติบางนี้ (เช่นฉันสามารถจินตนาการฟังก์ชั่นที่ใช้ในรายการของตัวแปรและวันที่สั่งซื้อได้, ประเภทพวกเขา เปิดหน้าต่างใหม่สำหรับแต่ละรายการที่มีบรรทัด, acf และ pacf)


คะแนนที่ยอดเยี่ยมเช่นเคย :)
มิเชล

2
(+1) อย่าพลาดggobiและmarginal.plotจากแพ็คเกจlatticeExtra
chl

7

ความสัมพันธ์ระหว่างคอลัมน์ตัวเลขแต่ละคู่สามารถแสดงในเมทริกซ์สหสัมพันธ์ มันไม่จำเป็นต้องเป็นตัวเลขอย่างหมดจดมันสามารถใช้รหัสสีเพื่อให้สามารถประเมินผลได้อย่างรวดเร็ว ตรวจสอบแพ็คเกจcorrplotสำหรับ R

สำหรับการวิเคราะห์เพิ่มเติมRattleเป็นเครื่องมือ GUI ที่มีประโยชน์

หากคุณค้นหา Stack Exchange โดยใช้คำหลัก "corrplot" หรือมากกว่า "Rattle" คุณจะพบหลายหัวข้อที่เครื่องมือเหล่านี้และตัวเลือกอื่น ๆ ได้รับการคุ้มครอง เช่นเดียวกับคนนี้

โชคดี!


4

@ Endrej ให้คำแนะนำที่ดีดังนั้นฉันจะเน้นคำถามของคุณเกี่ยวกับวิธีที่ซอฟต์แวร์ปฏิบัติต่อข้อมูลที่นำเข้า ด้วยข้อมูลตัวอักษร "หมวดหมู่ 1" และ "หมวดหมู่ 2" ซอฟต์แวร์จะถือว่าสิ่งเหล่านี้เป็นกลุ่มหรือปัจจัยโดยอัตโนมัติเนื่องจากการดำเนินการทางคณิตศาสตร์ไม่สามารถดำเนินการกับข้อมูลชิ้นส่วนเหล่านี้ได้ ซึ่งหมายความว่าคุณจะถูกป้องกันไม่ให้ป้อนสิ่งใด ๆ จากหมวดหมู่เหล่านั้น (หรือคุณจะได้รับข้อผิดพลาดหากคุณลองใช้ไวยากรณ์หรือบรรทัดคำสั่งแทนที่จะใช้ระบบเมนู) ในการวิเคราะห์ที่ต้องใช้ตัวเลข

สำหรับข้อมูลเช่น "หมายเลข 1" และ "หมายเลข 2" ของคุณซอฟต์แวร์จะอ่านค่าเหล่านี้เป็นตัวเลข หากคุณมีกลุ่ม / ปัจจัยใด ๆ ที่มีข้อมูลตัวเลขล้วนคุณจะต้องสั่งซอฟต์แวร์ของคุณว่าเป็นกลุ่ม / ปัจจัย

บางครั้งวันที่สามารถนำเข้าไม่ดีในซอฟต์แวร์สถิติ เมื่อคุณนำเข้าข้อมูลของคุณแล้วคุณจะเห็นว่าชนิดข้อมูลในซอฟต์แวร์ทางสถิติของคุณกำลังแสดงรูปแบบ "date" บางรูปแบบสำหรับ "Date" ถ้าคุณเห็นชนิดข้อมูลเป็นอะไรอื่นนอกเหนือจากวันที่คุณมีปัญหา แม้ว่ามันจะแสดงเป็นวันที่ให้ตรวจสอบการนำเข้าของแถวที่คุณมีวันเช่นวันที่ 13 หรือ 25 ของเดือน - ขึ้นอยู่กับวิธีการตั้งค่าซอฟต์แวร์บางครั้งการจัดรูปแบบวันที่อเมริกัน / อังกฤษทำให้ข้อมูลที่น่ากลัวจากการนำเข้า เนื่องจากการกลับรายการของวัน / เดือน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.