ข้อมูลการจับกุมของสหรัฐพร้อมกับ R เป็นเพียงตัวอย่างที่นี่ แต่ผมทราบว่าการคำนวณภาระในคำถามที่มาจาก PCA ของที่เมทริกซ์ความแปรปรวน นั่นคือที่ใดที่หนึ่งระหว่างกฎเกณฑ์และไร้สาระเนื่องจากตัวแปรวัดในระดับที่แตกต่างกัน
ประชากรในเมืองดูเหมือนว่าร้อยละ แคลิฟอร์เนียเป็น 91% และสูงสุด
ตัวแปรอาชญากรรมทั้งสามนั้นดูเหมือนจะเป็นจำนวนการจับกุมสำหรับอาชญากรรมที่แสดงถึงขนาดของประชากร (น่าจะเป็นช่วงระยะเวลาหนึ่ง) สันนิษฐานว่าเป็นเอกสารที่ไม่ว่าจะมีการจับกุมต่อ 1,000 หรือ 10,000 หรืออะไรก็ตาม
ค่าเฉลี่ยของตัวแปรจู่โจมในหน่วยที่กำหนดคือประมาณ 171 และค่าเฉลี่ยการสังหารอยู่ที่ประมาณ 8 ดังนั้นคำอธิบายของการโหลดของคุณคือส่วนใหญ่รูปแบบเป็นสิ่งประดิษฐ์: ขึ้นอยู่กับตัวแปรที่แตกต่างกันมาก
ดังนั้นแม้ว่าจะมีความรู้สึกในข้อมูลที่ว่ามีการจับกุมอีกหลายครั้งสำหรับการถูกทำร้ายร่างกายมากกว่าการฆาตกรรม ฯลฯ ความจริงที่รู้ (หรือไม่น่าแปลกใจ) ที่เป็นที่รู้จักนั้นครอบงำการวิเคราะห์
สิ่งนี้แสดงให้เห็นว่าคุณต้องคิดเกี่ยวกับสิ่งที่คุณทำใน PCA
หากคุณทำสิ่งนี้เพิ่มเติม:
ฉันขอยืนยันว่าเปอร์เซ็นต์ในเมืองดีกว่าจากการวิเคราะห์ มันไม่ใช่อาชญากรรมที่ต้องเป็นคนในเมือง แน่นอนมันอาจใช้พร็อกซีสำหรับตัวแปรที่มีอิทธิพลต่ออาชญากรรม
PCA ที่ใช้เมทริกซ์สหสัมพันธ์จะทำให้เข้าใจได้ง่ายขึ้นในมุมมองของฉัน ความเป็นไปได้อีกอย่างคือการทำงานกับลอการิทึมของอัตราการจับกุมไม่ใช่อัตราการจับกุม (ค่าทั้งหมดเป็นค่าบวก; ดูด้านล่าง)
หมายเหตุ: คำตอบ @ random_guy ของจงใจใช้เมทริกซ์ความแปรปรวนร่วม
นี่คือสถิติสรุปบางส่วน ฉันใช้ Stata แต่มันก็ไม่สำคัญ
Variable | Obs Mean Std. Dev. Min Max
-------------+--------------------------------------------------------
urban_pop | 50 65.54 14.47476 32 91
murder | 50 7.788 4.35551 .8 17.4
rape | 50 21.232 9.366384 7.3 46
assault | 50 170.76 83.33766 45 337