ฉันจะศึกษา“ ความสัมพันธ์” ระหว่างตัวแปรต่อเนื่องและตัวแปรเด็ดขาดได้อย่างไร


19

การวัด "สหสัมพันธ์" ที่มีความหมายเพื่อศึกษาความสัมพันธ์ระหว่างตัวแปรทั้งสองประเภทนี้คืออะไร?

ใน R ทำอย่างไร?


1
ก่อนที่คุณจะถามว่า "คุณเรียนอย่างไร" คุณควรมีคำตอบว่า "คุณกำหนดได้อย่างไร" :-) BTW ถ้าคุณคาดการณ์ตัวแปรเด็ดขาดเป็นตัวเลขจำนวนเต็มคุณสามารถทำความสัมพันธ์ได้แล้ว
อยากรู้อยากเห็น

2
@Tomas ถ้าคุณทำเช่นนั้นความแข็งแรงโดยประมาณของความสัมพันธ์ขึ้นอยู่กับวิธีการที่คุณได้ตัดสินใจที่จะติดป้ายจุดซึ่งเป็นชนิดที่น่ากลัว :)
มาโคร

@Macro คุณพูดถูก - เป็นอีกเหตุผลที่ดีที่มีคำจำกัดความที่ดี!
อยากรู้อยากเห็น

@Macro ยกเว้นว่าฉันเข้าใจผิดจุดของคุณไม่ได้ ความสัมพันธ์นั้นไม่มีความอ่อนไหวต่อการแปลงเชิงเส้น ดังนั้น cor (X, Y) = cor (a + bX, Y) สำหรับขอบเขต a และ b การติดฉลากใหม่ของ 0/1 เมื่อ 1/11 ไม่ได้เกี่ยวข้องกับความสัมพันธ์โดยใช้ var นั้นหรือการแปลงเชิงเส้น
Alexis

@Curious ดูความคิดเห็นของฉันต่อมาโครด้านบน และหมายเหตุ: (1) X <- sample(c(0,1),replace=TRUE,size=100)(2) Y <- X + rnorm(100,0.5)(3) corr(Y,X)(4) X <- 1 + 10*X(5) corr(X,Y): ผลลัพธ์เดียวกันสำหรับความสัมพันธ์ทั้งสอง!
Alexis

คำตอบ:


19

เดี๋ยวเราจะเพิกเฉยต่อปัญหาต่อเนื่อง / ไม่ต่อเนื่อง ความสัมพันธ์โดยทั่วไปวัดความแข็งแกร่งของความสัมพันธ์เชิงเส้นระหว่างตัวแปรและดูเหมือนว่าคุณกำลังขอวิธีอื่นในการวัดความแข็งแกร่งของความสัมพันธ์ คุณอาจจะสนใจในการมองที่ความคิดจากทฤษฎีสารสนเทศ โดยเฉพาะผมคิดว่าคุณอาจต้องการที่จะดูข้อมูลร่วมกัน ข้อมูลร่วมกันทำให้คุณมีวิธีการวัดปริมาณการรู้สถานะของตัวแปรหนึ่งจะบอกคุณเกี่ยวกับตัวแปรอื่น ๆ ฉันคิดว่าคำจำกัดความนี้ใกล้เคียงกับความหมายของคนส่วนใหญ่เมื่อพวกเขาคิดถึงความสัมพันธ์

สำหรับตัวแปรที่แยกกันสองตัว X และ Y การคำนวณมีดังนี้:

ผม(X;Y)=ΣYYΣxXพี(x,Y)เข้าสู่ระบบ(พี(x,Y)พี(x)พี(Y))

สำหรับตัวแปรต่อเนื่องสองตัวเรารวมเข้าด้วยกันแทนที่จะใช้ผลรวม:

ผม(X;Y)=YXพี(x,Y)เข้าสู่ระบบ(พี(x,Y)พี(x)พี(Y))dxdY

กรณีการใช้งานเฉพาะของคุณนั้นใช้แยกกันและแยกกันอย่างต่อเนื่อง ฉันคิดว่ามันจะง่ายกว่าที่จะแปลงตัวแปรตัวใดตัวหนึ่งให้เป็นประเภทอื่น วิธีโดยทั่วไปจะทำอย่างไรที่จะdiscretizeตัวแปรอย่างต่อเนื่องของคุณลงในถังขยะที่ไม่ต่อเนื่อง

มีหลายวิธีในการแยกข้อมูล (เช่นช่วงเวลาเท่ากัน) และฉันเชื่อว่าแพ็คเกจเอนโทรปีควรเป็นประโยชน์สำหรับการคำนวณ MI หากคุณต้องการใช้ R


1
ขอบคุณ แต่ MI ที่เกี่ยวข้องกับ corr = 1 สูงเพียงใดและ MI ที่สอดคล้องกับ corr = 0 ต่ำเพียงใด
Luna

MI มีค่าต่ำสุดคือ 0 และ MI = 0 หากตัวแปรนั้นมีความเป็นอิสระ MI ไม่มีขอบเขตบนคงที่ (ขอบเขตบนสัมพันธ์กับเอนโทรปีของตัวแปร) ดังนั้นคุณอาจต้องการดูหนึ่งในเวอร์ชันปกติหากเป็นสิ่งสำคัญสำหรับคุณ
Michael McGowan

6

หากตัวแปรเด็ดขาดเป็นอันดับและคุณเก็บตัวแปรต่อเนื่องไว้ในช่วงความถี่สองสามครั้งคุณสามารถใช้แกมมาได้ นอกจากนี้ยังมีให้สำหรับข้อมูลที่จับคู่ไว้ในรูปแบบลำดับคือเอกภาพของ Kendal, Stuart's tau และ Somerset D ทั้งหมดนี้มีอยู่ใน SAS โดยใช้ Proc Freq ฉันไม่ทราบวิธีคำนวณโดยใช้รูทีน R นี่คือลิงค์ไปยังงานนำเสนอที่ให้ข้อมูลรายละเอียด: http://faculty.unlv.edu/cstream/ppts/QM722/measuresofassociation.ppt#260,5, วิธีการสมาคมสำหรับตัวแปรที่กำหนดและลำดับ


1

ตัวแปรเด็ดขาดเป็นเพียงชุดของตัวแปรตัวบ่งชี้ มันเป็นความคิดพื้นฐานของทฤษฎีการวัดว่าตัวแปรดังกล่าวไม่แปรเปลี่ยนไปจากการจัดหมวดหมู่ใหม่ดังนั้นจึงไม่สมเหตุสมผลที่จะใช้การติดฉลากตัวเลขของหมวดหมู่ในการวัดความสัมพันธ์ระหว่างตัวแปรอื่น (เช่น 'ความสัมพันธ์') . ด้วยเหตุผลนี้และการวัดความสัมพันธ์ระหว่างตัวแปรต่อเนื่องและตัวแปรเด็ดขาดควรขึ้นอยู่กับตัวแปรตัวบ่งชี้ที่ได้มาจากหลัง

XผมφP(ผม=1)

โอโวลต์(ผม,X)=E(ผมX)-E(ผม)E(X)=φ[E(X|ผม=1)-E(X)],

ซึ่งจะช่วยให้:

โอRR(ผม,X)=φ1-φE(X|ผม=1)-E(X)S(X).

XผมφXผม=1


1,...,mC=kผมkผม(=k)

โอRR(ผมk,X)=φk1-φkE(X|=k)-E(X)S(X).

โอRR(,X)(โอRR(ผม1,X),...,โอRR(ผมม.,X))

Σkโอโวลต์(ผมk,X)=0Xม.-1


(x1,1),...,(xn,n)

φ^k1nΣผม=1nผม(ผม=k).

E^(X)x¯1nΣผม=1nxผม.

E^(X|=k)x¯k1nΣผม=1nxผมผม(ผม=k)/φ^k.

S^(X)sX1n-1Σผม=1n(xผม-x¯)2.

X


0

mpmi ของแพ็คเกจ R มีความสามารถในการคำนวณข้อมูลร่วมกันสำหรับตัวพิมพ์แบบผสมได้อย่างต่อเนื่องและไม่ต่อเนื่อง แม้ว่าจะมีตัวเลือกทางสถิติอื่น ๆ เช่น (จุด) สัมประสิทธิ์สหสัมพันธ์ biserial เพื่อเป็นประโยชน์ที่นี่มันจะเป็นประโยชน์และขอแนะนำอย่างยิ่งในการคำนวณข้อมูลร่วมกันเพราะมันสามารถตรวจสอบการเชื่อมโยงอื่นที่ไม่ใช่เชิงเส้นและแบบโมโนโทนิก


0

XYXY

  1. Y
  2. Y

มันควรจะสังเกตเห็นว่าจุด - polyserial สหสัมพันธ์เป็นลักษณะทั่วไปของจุด - biserial

เพื่อมุมมองที่กว้างขึ้นนี่คือตารางจาก Olsson, Drasgow & Dorans (1982) [1]

ค่าสัมประสิทธิ์สหสัมพันธ์

[1]: แหล่งที่มา: Olsson, U. , Drasgow, F. , & Dorans, NJ (1982) ค่าสัมประสิทธิ์สหสัมพันธ์ของพหุนาม Psychometrika, 47 (3), 337–347

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.