แพ็คเกจ R สำหรับการระบุความสัมพันธ์ระหว่างตัวแปร [ปิด]


13

มีแพ็คเกจ R ที่ฉันสามารถใช้เพื่อสำรวจว่ามีความสัมพันธ์ระหว่างตัวแปรหรือไม่?

โดยทั่วไปเมื่อฉันกำลังมองหารูปแบบที่ฉันดูที่ความสัมพันธ์แล้วพล็อตด้าน จากนั้นฉันใช้การแปลงบางอย่างกับตัวแปรในข้อมูลด้วยตนเอง ฉันสงสัยว่าฉันสามารถเร่งกระบวนการนี้ผ่านแพ็คเกจ R ได้หรือไม่


หากคุณมีกระบวนการของคุณเองคุณสามารถหมุนแพ็คเกจของคุณเองได้ หรือเป็นเพียงฟังก์ชั่นที่นำกลับมาใช้ใหม่ได้ในบางไฟล์ที่โหลดไว้ที่จุดเริ่มต้นของสคริปต์
Brandon Bertelsen

คำตอบ:


9

AFAIK เลขที่ จะแม่นยำมากขึ้นผมไม่ทราบว่าของแพคเกจ R เดียวที่จะทำส่วนหนึ่งของสิ่งที่เรียกว่าสำรวจวิเคราะห์ข้อมูล (EDA) สำหรับคุณผ่านการเรียกใช้ฟังก์ชันเดียว - ฉันคิดว่าของใหม่การแสดงออกและการเปิดเผยแง่มุม กล่าวถึงใน Hoaglin, Mosteller และทูกี, การทำความเข้าใจแข็งแกร่งและสำรวจวิเคราะห์ข้อมูล Wiley-Interscience ปี 1983 โดยเฉพาะ

อย่างไรก็ตามมีทางเลือกที่ดีใน R โดยเฉพาะเกี่ยวกับการสำรวจข้อมูลแบบอินเทอร์แอคทีฟ (ดูที่นี่สำหรับการสนทนาที่น่าสนใจ: การสร้างภาพข้อมูลเชิงโต้ตอบเมื่อใดที่มีประโยชน์ในการใช้? ) ฉันคิดได้

  • iplotsหรือทายาทAcinonyxสำหรับการสร้างภาพแบบโต้ตอบ (ช่วยให้การแปรงฟันแผนการเชื่อมโยงและชอบ) (บางส่วนของฟังก์ชันเหล่านี้สามารถพบได้ในlatticistแพคเกจ; สุดท้ายRGL . เป็นที่ดีสำหรับการสร้างภาพ 3 มิติแบบโต้ตอบ)
  • ggobiสำหรับการแสดงผลแบบอินเทอร์แอคทีฟและไดนามิกรวมถึงการลดข้อมูล (Multidimensional scaling) และProjection Pursuit

นี่เป็นเพียงการสำรวจข้อมูลแบบโต้ตอบ แต่ฉันจะบอกว่านี่เป็นสาระสำคัญของ EDA อย่างไรก็ตามเทคนิคข้างต้นอาจช่วยในการสำรวจความสัมพันธ์แบบ bivariate หรือลำดับสูงกว่าระหว่างตัวแปรตัวเลข สำหรับข้อมูลที่จัดหมวดหมู่แพ็คเกจvcdเป็นตัวเลือกที่ดี (ตารางการสร้างภาพและสรุป) จากนั้นฉันจะบอกว่าแพ็คเกจมังสวิรัติและade4มาก่อนสำหรับการสำรวจความสัมพันธ์ระหว่างตัวแปรของชนิดข้อมูลแบบผสม

ในที่สุดการทำ data dataใน R คืออะไร? (ลองใช้คำหลักนี้ในRseek )


(+1) ยินดีที่ได้พบคุณตอบกลับคำถาม!
whuber

+1 Btw: พิมพ์ผิดเล็ก ๆ น้อย ๆ - Acinonyx (ฉัน & y ถูกย้าย)
Iterator

@Iterator ขอบคุณสำหรับการจับตัวพิมพ์ผิด (ฉัน +1 การตอบกลับของคุณดีแล้วที่คุณอ้างถึงกระดาษของ Wilkinson)
chl

2
นอกจากนี้loonยังมีwaddella.github.io/loon Credit ไปที่ @hadleywickham เพื่อชี้เรื่องนี้
Ari B. Friedman

11

หากคุณเพียงต้องการดูอย่างรวดเร็วว่าตัวแปรในชุดข้อมูลของคุณมีความสัมพันธ์กันอย่างไรให้ดูที่ฟังก์ชั่นคู่ () หรือดีกว่านั้นฟังก์ชั่น pairs.panels () ในแพคเกจโรคจิต ฉันเขียนเกี่ยวกับฟังก์ชั่นการจับคู่ที่นี่เล็กน้อย

การใช้ฟังก์ชั่นจับคู่ () หรือ psych :: pairs.panels () มันค่อนข้างง่ายที่จะสร้างเมทริกซ์กระจาย

pairs.panels(iris[-5], bg=c("blue","red","yellow")[iris$Species], pch=21,lm=TRUE)

ป้อนคำอธิบายรูปภาพที่นี่


7

ตรวจสอบscagnosticsแพคเกจและงานวิจัยเดิม นี่เป็นเรื่องที่น่าสนใจมากสำหรับความสัมพันธ์แบบแยกคู่ สำหรับความสัมพันธ์หลายตัวแปรการติดตามการฉายเป็นขั้นตอนแรกที่ดีมาก

โดยทั่วไปความเชี่ยวชาญด้านโดเมนและข้อมูลจะแคบและปรับปรุงวิธีการของคุณในการตรวจสอบความสัมพันธ์อย่างรวดเร็ว


7

chart.Correlationฟังก์ชั่นในPerformanceAnalyticsให้ฟังก์ชันการทำงานคล้ายกับ plot.pairs ฟังก์ชัน @Stephen อร์เนอร์กล่าวนอกจากจะคล่องตัวด้วยฟังก์ชั่นเหลืองมากกว่ารูปแบบเชิงเส้นและความสำคัญสำหรับความสัมพันธ์

library(PerformanceAnalytics)
chart.Correlation(iris[-5], bg=c("blue","red","yellow")[iris$Species], pch=21)

แผนภูมิ


5

หากคุณกำลังมองหาการแปลงที่เป็นไปได้ที่จะทำงานกับสหสัมพันธ์ดังนั้นเครื่องมือที่ยังไม่ได้รับการกล่าวถึงอาจมีประโยชน์aceซึ่งสามารถพบได้ในacepackแพ็คเกจ (และแพ็คเกจอื่น ๆ เช่นกัน) นี่เป็นกระบวนการที่ใช้ร่วมกันเพื่อทดลองการแปลงรูปแบบต่าง ๆ (โดยใช้ smoothers) เพื่อค้นหาการเปลี่ยนแปลงเพื่อเพิ่มความสัมพันธ์ระหว่างชุดของตัวแปร x และตัวแปร ay การพล็อตการแปลงสามารถแนะนำการแปลงที่มีความหมาย


2

คุณสามารถใช้ฟังก์ชัน DCOR ในแพ็คเกจ 'พลังงาน' เพื่อคำนวณการพึ่งพาแบบไม่เชิงเส้นที่เรียกว่าความสัมพันธ์ของระยะทางและพล็อตข้างต้น ปัญหาเกี่ยวกับความสัมพันธ์ของ Pearson ก็คือมันสามารถตรวจพบความสัมพันธ์เชิงเส้นตรงระหว่างตัวแปรเท่านั้น ตรวจสอบให้แน่ใจว่าคุณเลือกพารามิเตอร์การเขียนสำหรับดัชนีในฟังก์ชัน DCOR ที่กล่าวไว้

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.