สำรวจความสัมพันธ์ระหว่างตัวแปรค่อนข้างคลุมเครือ แต่เป้าหมายทั่วไปอีกสองข้อในการตรวจสอบโปรยสเปิร์ตแบบนี้ที่ฉันคิดว่าน่าจะเป็น
- ระบุกลุ่มแฝงแฝง (ของตัวแปรหรือกรณี)
- ระบุค่าผิดปกติ (ในพื้นที่ univariate, bivariate หรือหลายตัวแปร)
ทั้งสองลดข้อมูลลงในบทสรุปการจัดการมากขึ้น แต่มีเป้าหมายที่แตกต่างกัน ระบุกลุ่มแฝงที่มักจะลดขนาดในข้อมูล (เช่นผ่าน PCA) แล้วสำรวจว่าตัวแปรหรือกลุ่มเคสรวมกันในพื้นที่ที่ลดลงนี้หรือไม่ ดูตัวอย่าง Friendly (2002) หรือ Cook et al (1995)
การระบุค่าผิดปกติอาจหมายถึงการปรับแบบจำลองให้เหมาะสมและวางแผนการเบี่ยงเบนจากตัวแบบ (เช่นการพล็อตส่วนที่เหลือจากตัวแบบการถดถอย) หรือลดข้อมูลลงในส่วนประกอบหลักและเน้นเฉพาะจุดที่เบี่ยงเบนจากตัวแบบ เช่นบ็อกซ์พล็อตในหนึ่งหรือสองมิติโดยทั่วไปจะแสดงเฉพาะจุดที่อยู่นอกบานพับ (Wickham & Stryjewski, 2013) การพล็อตสิ่งที่เหลือมีคุณสมบัติที่ดีที่มันควรจะแปลงให้เรียบ (Tukey, 1977) ดังนั้นหลักฐานใด ๆ ของความสัมพันธ์ในเมฆจุดที่เหลือคือ "น่าสนใจ" คำถามเกี่ยวกับ CVมีคำแนะนำที่ดีเยี่ยมในการระบุค่าผิดปกติหลายตัวแปร
วิธีการทั่วไปในการสำรวจ SPLOMS ขนาดใหญ่ดังกล่าวคือการไม่ได้พล็อตทั้งหมดของแต่ละจุด แต่บางชนิดของการสรุปง่ายและแล้วบางทีจุดที่เบี่ยงเบนไปส่วนใหญ่มาจากการสรุปนี้เช่นวงรีความเชื่อมั่น, สรุป scagnostic (วิลกินสันและพินัยกรรม 2008) สองตัวแปร กล่องแปลงแปลงโครง ด้านล่างนี้เป็นตัวอย่างของการพล็อตจุดไข่ปลาที่กำหนดความแปรปรวนร่วมและการวางซ้อนทับเรียบเพื่ออธิบายการเชื่อมโยงเชิงเส้น
(ที่มา: statmethods.net )
ทั้งสองวิธีพล็อตเชิงโต้ตอบที่ใช้งานได้จริงและมีตัวแปรจำนวนมากน่าจะต้องใช้การคัดแยกอัจฉริยะ (Wilkinson, 2005) และวิธีที่ง่ายในการกรองตัวแปร (นอกเหนือจากการแปรง / เชื่อมโยงความสามารถ) ชุดข้อมูลใด ๆ ที่เหมือนจริงจะต้องมีความสามารถในการแปลงแกน (เช่นพล็อตข้อมูลในสเกลลอการิทึมแปลงข้อมูลโดยการรูทเป็นต้น) ขอให้โชคดีและอย่ายึดติดกับเนื้อเรื่องเดียว!
อ้างอิง
- Cook, Dianne, Andreas Buja, Javier Cabrera และ Catherine Hurley 2538. แกรนด์ทัวร์และการติดตามการฉาย วารสารการคำนวณและสถิติแบบกราฟิก 4 (3): 155-172
- ไมเคิลเป็นมิตร 2002. Corrgrams: Exploratory แสดงสำหรับเมทริกซ์สหสัมพันธ์ นักสถิติชาวอเมริกัน 56 (4): 316-324 รูปแบบไฟล์ PDF preprint
- Tukey, John 2520 การวิเคราะห์ข้อมูลเชิงสำรวจ Addison-Wesley การอ่านหนังสือ
- Wickham, Hadley & Lisa Stryjewski 2013 40 ปีของ boxplots
- Wilkinson, Leland & Graham พินัยกรรม 2551. การแจกแจงแบบ Scagnostic วารสารคอมพิวเตอร์และสถิติเชิงสถิติ 17 (2): 473-491
- Wilkinson, Leland 2005 ไวยากรณ์ของกราฟิก สปริงเกอร์ นิวยอร์กนิวยอร์ก