วิธีรับความสัมพันธ์ระหว่างตัวแปรเด็ดขาดสองประเภทกับตัวแปรเด็ดขาดและตัวแปรต่อเนื่องได้อย่างไร


63

ฉันกำลังสร้างแบบจำลองการถดถอยและฉันจำเป็นต้องคำนวณด้านล่างเพื่อตรวจสอบความสัมพันธ์

  1. ความสัมพันธ์ระหว่างตัวแปรเด็ดขาด 2 ระดับหลายระดับ
  2. ความสัมพันธ์ระหว่างตัวแปรเด็ดขาดหลายระดับและตัวแปรต่อเนื่อง
  3. VIF (ปัจจัยเงินเฟ้อความแปรปรวน) สำหรับตัวแปรเด็ดขาดหลายระดับ

ฉันเชื่อว่ามันผิดที่จะใช้สัมประสิทธิ์สหสัมพันธ์ของเพียร์สันสำหรับสถานการณ์ข้างต้นเพราะเพียร์สันใช้ได้กับตัวแปร 2 ตัวต่อเนื่องเท่านั้น

กรุณาตอบคำถามด้านล่าง

  1. สัมประสิทธิ์สหสัมพันธ์ใดดีที่สุดสำหรับกรณีข้างต้น
  2. การคำนวณ VIF ใช้งานได้เฉพาะกับข้อมูลต่อเนื่องดังนั้นทางเลือกอื่นคืออะไร
  3. ฉันต้องตรวจสอบสมมติฐานอะไรก่อนที่ฉันจะใช้สัมประสิทธิ์สหสัมพันธ์ที่คุณแนะนำ
  4. วิธีการนำไปใช้ใน SAS & R

4
ฉันว่าCV.SEเป็นสถานที่ที่ดีกว่าสำหรับคำถามเกี่ยวกับสถิติเชิงทฤษฎีมากกว่านี้ ถ้าไม่ฉันจะบอกว่าคำตอบสำหรับคำถามของคุณขึ้นอยู่กับบริบท บางครั้งมันก็สมเหตุสมผลที่จะปรับหลายระดับให้เป็นตัวแปรจำลองเวลาอื่นก็คุ้มที่จะทำแบบจำลองข้อมูลของคุณตามการแจกแจงแบบมัลติโนเมียลและอื่น ๆ
แฟน

มีการจัดหมวดหมู่ตัวแปรของคุณหรือไม่ ถ้าใช่สิ่งนี้จะมีผลต่อประเภทความสัมพันธ์ที่คุณต้องการค้นหา
nassimhddd

ฉันต้องเผชิญกับปัญหาเดียวกันในการวิจัยของฉัน แต่ฉันไม่พบวิธีที่ถูกต้องในการแก้ปัญหานี้ ดังนั้นหากคุณสามารถกรุณาใจดีพอที่จะให้ฉันอ้างอิงที่คุณได้พบ
user89797

คุณหมายถึง p-value เหมือนกันกับสัมประสิทธิ์สหสัมพันธ์ r หรือไม่?
Ayo Emma

การแก้ปัญหาข้างต้นด้วย ANOVA สำหรับเด็ดขาดและต่อเนื่องเป็นสิ่งที่ดี สะอึกเล็ก ๆ ยิ่งค่า p-value ยิ่งเล็กลงเท่าใดก็จะพอดีกับตัวแปรทั้งสอง ไม่ใช่วิธีอื่น ๆ
myudelson

คำตอบ:


73

ตัวแปรสองหมวดหมู่

การตรวจสอบว่าตัวแปรเด็ดขาดสองอย่างนั้นสามารถทำได้ด้วยการทดสอบความเป็นอิสระของ Chi-Squared

นี่คือการทดสอบ Chi-Squareทั่วไป: ถ้าเราสมมติว่าตัวแปรสองตัวนั้นมีความเป็นอิสระค่าของตารางฉุกเฉินสำหรับตัวแปรเหล่านี้ควรจะกระจายอย่างสม่ำเสมอ จากนั้นเราตรวจสอบว่าห่างจากค่าจริงเท่ากัน

นอกจากนี้ยังมีV ของ Crammerที่เป็นตัววัดความสัมพันธ์ที่ตามมาจากการทดสอบนี้

ตัวอย่าง

สมมติว่าเรามีสองตัวแปร

  • เพศ: ชายและหญิง
  • เมือง: บลัวและทัวร์

เราสังเกตข้อมูลต่อไปนี้:

ค่าที่สังเกตได้

เพศและเมืองเป็นอิสระหรือไม่ มาทำแบบทดสอบไคสแควร์กัน สมมติฐานว่างเปล่า: พวกเขาเป็นอิสระสมมติฐานทางเลือกคือพวกเขามีความสัมพันธ์ในบางวิธี

ภายใต้สมมติฐาน Null เราถือว่าการกระจายแบบสม่ำเสมอ ดังนั้นค่าคาดหวังของเรามีดังต่อไปนี้

ค่าที่คาดหวัง

ดังนั้นเราจึงเรียกใช้การทดสอบไคสแควร์และค่า p ที่เกิดขึ้นที่นี่สามารถมองเห็นได้เป็นการวัดความสัมพันธ์ระหว่างตัวแปรสองตัวนี้

ในการคำนวณ Crammer's V อันดับแรกเราจะหาค่า normalizing chi-squared-max ซึ่งโดยทั่วไปแล้วจะเป็นขนาดของกลุ่มตัวอย่างแล้วหารไคสแควร์โดยใช้มันและหารากที่สอง

crammers v

R

tbl = matrix(data=c(55, 45, 20, 30), nrow=2, ncol=2, byrow=T)
dimnames(tbl) = list(City=c('B', 'T'), Gender=c('M', 'F'))

chi2 = chisq.test(tbl, correct=F)
c(chi2$statistic, chi2$p.value)

ที่นี่ค่า p คือ 0.08 - ค่อนข้างเล็ก แต่ก็ยังไม่เพียงพอที่จะปฏิเสธสมมติฐานของความเป็นอิสระ ดังนั้นเราจึงบอกได้ว่า "ความสัมพันธ์" ที่นี่คือ 0.08

เราคำนวณ V:

sqrt(chi2$statistic / sum(tbl))

และได้ 0.14 (ยิ่งเล็กลง, ความสัมพันธ์ลดลง)

พิจารณาชุดข้อมูลอื่น

    Gender
City  M  F
   B 51 49
   T 24 26

สำหรับเรื่องนี้มันจะให้ดังต่อไปนี้

tbl = matrix(data=c(51, 49, 24, 26), nrow=2, ncol=2, byrow=T)
dimnames(tbl) = list(City=c('B', 'T'), Gender=c('M', 'F'))

chi2 = chisq.test(tbl, correct=F)
c(chi2$statistic, chi2$p.value)

sqrt(chi2$statistic / sum(tbl))

ค่า p คือ 0.72 ซึ่งอยู่ใกล้กับ 1 มากที่สุดและ v คือ 0.03 - ใกล้เคียงกับ 0 มาก

หมวดหมู่ vs ตัวแปรตัวเลข

สำหรับประเภทนี้เรามักจะทำการทดสอบความแปรปรวนแบบทางเดียว : เราคำนวณความแปรปรวนในกลุ่มและความแปรปรวนภายในกลุ่มจากนั้นทำการเปรียบเทียบ

ตัวอย่าง

เราต้องการศึกษาความสัมพันธ์ระหว่างไขมันที่ดูดซึมจากโดนัทกับชนิดของไขมันที่ใช้ในการผลิตโดนัท (ตัวอย่างมาจากที่นี่ )

โดนัท

มีการพึ่งพาระหว่างตัวแปรหรือไม่? สำหรับการที่เราทำการทดสอบ ANOVA และดูว่าค่า p เป็นเพียง 0.007 - ไม่มีความสัมพันธ์ระหว่างตัวแปรเหล่านี้

R

t1 = c(164, 172, 168, 177, 156, 195)
t2 = c(178, 191, 197, 182, 185, 177)
t3 = c(175, 193, 178, 171, 163, 176)
t4 = c(155, 166, 149, 164, 170, 168)

val = c(t1, t2, t3, t4)
fac = gl(n=4, k=6, labels=c('type1', 'type2', 'type3', 'type4'))

aov1 = aov(val ~ fac)
summary(aov1)

ผลผลิตคือ

            Df Sum Sq Mean Sq F value  Pr(>F)   
fac          3   1636   545.5   5.406 0.00688 **
Residuals   20   2018   100.9                   
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1

เราก็สามารถใช้ค่า p เป็นตัวชี้วัดความสัมพันธ์ได้เช่นกัน

อ้างอิง


1
ขอบคุณ Alexey สำหรับรายละเอียด จากการวิจัยเพิ่มเติมพบว่าฉันพบความสัมพันธ์ระหว่างโพลีเซียมและโพลีคลอริก วิธีการของคุณดีกว่าสิ่งเหล่านี้อย่างไร โปรดอธิบาย
GeorgeOfTheRF

1
ฉันไม่ได้ตระหนักถึงสิ่งเหล่านี้ขอโทษ
Alexey Grigorev

คำตอบ Fasntastic โดย @Alexey ฉันอ่านความสัมพันธ์ของ polychoric / polyseries ออนไลน์หลังจากอ่านความคิดเห็นของคุณ เป็นเทคนิคในการประมาณค่าสหสัมพันธ์ระหว่างตัวแปรแฝงสองตัวจากตัวแปรที่สังเกตได้สองตัว ฉันไม่คิดว่านั่นคือสิ่งที่คุณขอและมันก็ไม่สามารถเทียบได้กับคำตอบของ Alexey
KarthikS

1
ตัวอย่างแรกของคุณไม่เกี่ยวกับเด็ดขาดเทียบกับเด็ดขาด แต่มันเป็นเด็ดขาดเทียบกับตัวเลขในความเป็นจริงคุณกำลังดูเมืองกับจำนวนของเพศชาย (หญิงตามลำดับ) ซึ่งเป็นตัวเลข เด็ดเดี่ยวเทียบกับเด็ดขาดจะพูดเมืองเทียบกับสีของดวงตาหรือรูปร่างหรือสิ่งอื่นใด แต่ไม่ว่ามันจะเป็นจำนวนตัวแทนของเพศ
เริ่ม

1
@AlexeyGrigorev หากข้อมูลของเราไม่กระจายตามปกติควรkruskal-wallicใช้แทนone-way anova? ขอบคุณล่วงหน้า.
ebrahimi
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.