ประเมินความสัมพันธ์ (มองเห็น) อย่างรวดเร็วระหว่างข้อมูลหมวดหมู่ที่ได้รับคำสั่งใน R หรือไม่


11

ฉันกำลังมองหาความสัมพันธ์ระหว่างคำตอบของคำถามต่าง ๆ ในแบบสำรวจ ("อืมลองดูว่าคำตอบของคำถาม 11 มีความสัมพันธ์กับคำถาม 78 หรือไม่" คำตอบทั้งหมดเป็นหมวดหมู่ (ส่วนใหญ่มีตั้งแต่ "ไม่มีความสุขมาก" ถึง "มีความสุขมาก") แต่มีคำตอบไม่กี่ชุด ส่วนใหญ่สามารถพิจารณาลำดับที่ดังนั้นลองพิจารณากรณีนี้ที่นี่

เนื่องจากฉันไม่สามารถเข้าถึงโปรแกรมสถิติเชิงพาณิชย์ได้ฉันต้องใช้ R

ฉันลองRattle (แพ็คเกจการขุดข้อมูลฟรีแวร์สำหรับ R ดีมาก) แต่น่าเสียดายที่มันไม่รองรับข้อมูลที่เป็นหมวดหมู่ แฮ็คหนึ่งที่ฉันสามารถใช้ได้คือการนำเข้าในแบบสำรวจที่เขียนโค้ดซึ่งมีตัวเลข (1..5) แทนที่จะเป็น "ไม่มีความสุขมาก" ... "มีความสุข" และปล่อยให้ Rattle เชื่อว่าเป็นข้อมูลตัวเลข

ฉันกำลังคิดที่จะพล็อตกระจายและมีขนาดจุดตามสัดส่วนของตัวเลขสำหรับแต่ละคู่ หลังจาก googling ฉันพบhttp://www.r-statistics.com/2010/04/correlation-scatter-plot-matrix-for-ordered-categorical-data/แต่ดูเหมือนว่าซับซ้อนมาก (สำหรับฉัน)

ฉันไม่ใช่นักสถิติ (แต่เป็นโปรแกรมเมอร์) แต่มีการอ่านบางอย่างในเรื่องนี้และถ้าฉันเข้าใจอย่างถูกต้องRho ของ Spearmanจะเหมาะสมที่นี่

ดังนั้นคำถามสั้น ๆ สำหรับผู้ที่รีบร้อน: มีวิธีที่จะทำแบบ Rho ของ Spearman ใน Rหรือไม่? พล็อตเป็นที่นิยมในเมทริกซ์ของตัวเลขเพราะง่ายต่อการลูกตาและยังสามารถรวมอยู่ในวัสดุ

ขอบคุณล่วงหน้า.

PS ฉันไตร่ตรองสักครู่ว่าจะโพสต์สิ่งนี้บนไซต์ SO หลักหรือที่นี่ หลังจากค้นหาทั้งสองเว็บไซต์เพื่อหาค่าสหสัมพันธ์ฉันรู้สึกว่าไซต์นี้เหมาะสำหรับคำถาม


2
คุณฟังดูเหมือนว่า R จะด้อยกว่าซอฟต์แวร์ที่เหมาะสม :)
Roman Luštrik

สำหรับฉันมันฟังดูสมเหตุสมผลที่จะใช้เพียร์สันกับช่วงเวลาที่สัมพันธ์กัน (สมมติว่ามีข้อมูลต่อเนื่อง) ในกรณีของคุณ (สมมติว่ามีคะแนนเพียงพอในสเกลของคุณและไม่ใช่จุดกึ่งกลางที่ไม่รู้) ฟิลด์ทั้งหมดภายในจิตวิทยา (เช่นบุคลิกภาพหรือจิตวิทยาสังคม) ส่วนที่เหลือ (สำเร็จ) บนสมมติฐานที่ว่าคำตอบสำหรับรายการเดียวในเช่นระดับห้าจุด (หรือเจ็ดจุด) ตั้งแต่ระดับ UN-X ถึง X มาก ถือว่าเป็นอย่างต่อเนื่อง ดูเพิ่มเติมที่หัวข้อนี้: stats.stackexchange.com/questions/539/…
Henrik

@romunov: ไม่แน่ใจว่าคุณได้รับความประทับใจที่ฉันเชื่อว่า R จะด้อยกว่า s / w อื่น ๆ แต่มันไม่ใช่กรณีทั้งหมด
wishihadabettername

ฉันแค่เป็นคนฉลาด ฉันหวังว่าจะไม่มีความรู้สึกที่ยากลำบาก :)
Roman Luštrik

คำตอบ:


19

การแสดงภาพความสัมพันธ์ที่ดีอีกแบบหนึ่งถูกเสนอโดยชุดโปรแกรมcorrplotให้สิ่งต่าง ๆ ดังนี้: ข้อความแสดงแทน

มันเป็นแพ็คเกจที่ยอดเยี่ยม

ลองดูคำตอบที่นี่มันอาจจะดีสำหรับคุณที่จะรู้

ท้ายสุดหากคุณมีข้อเสนอแนะว่าโค้ดในโพสต์ที่คุณอ้างถึงนั้นง่ายกว่านี้ได้อย่างไร - โปรดแจ้งให้เราทราบ


1
ขอบคุณ Tal ฉันจะลอง corrplot ทันที ฉันก็หวังว่าฉันจะรู้วิธีทำให้โซลูชันของคุณง่ายขึ้น (ซึ่งฉันเชื่อมโยงกับคำถาม) แต่ฉันเป็นแค่มือใหม่ใน R เพื่อให้คุณรู้มากกว่าฉัน ฉันจะอัปเดตคำถามเพื่ออธิบายวิธีแก้ปัญหาที่ซับซ้อนสำหรับฉัน
Wishihadabettername

โครงเรื่องดูดี มันให้ภาพรวมที่ดีของขนาดและทิศทางของความสัมพันธ์ ในกรณีของตัวแปรจัดหมวดหมู่แบบ 5 จุดอาจเป็นประโยชน์ในการวัดความสัมพันธ์อื่นนอกเหนือจากสหสัมพันธ์ของเพียร์สัน: เช่นความสัมพันธ์ของ polychoric ขนาดของสหสัมพันธ์แบบเพียร์สันของตัวแปรจัดหมวดหมู่แบบเรียงลำดับได้รับอิทธิพลบ้างโดยค่าเฉลี่ยของตัวแปรทั้งสอง
Jeromy Anglim

3

แนวคิดการวางแผนเพิ่มเติมสองประการคือ:


ดอกทานตะวันเป็นทางออกที่สนุก การใช้กระวนกระวายใจเป็นสิ่งที่ฉันพยายามเมื่อแรกที่ฉันดูที่หัวข้อ แต่ฉันพบว่ามันไม่ได้มีประสิทธิภาพเพียงพอสำหรับการพล็อตของเมทริกซ์สหสัมพันธ์ ...
Tal Galili

ใช่กระวนกระวายใจอาจยุ่งกับ scattermatrix ที่มีตัวแปรมากมาย ฉันคิดว่าประโยชน์ของกระวนกระวายใจและดอกทานตะวันก็คือคุณจะได้เห็นข้อมูลดิบ
Jeromy Anglim

มีมติเห็นชอบ (ฉันรักกระวนกระวายใจเพียงแค่ไม่ได้สำหรับการนี้ :))
Tal Galili
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.