ความหมายเชิงสัญชาตญาณของการมีความสัมพันธ์เชิงเส้นระหว่างบันทึกของตัวแปรสองตัวคืออะไร?


20

ฉันมีตัวแปรสองตัวที่ไม่แสดงความสัมพันธ์มากนักเมื่อพล็อตต่อกันอย่างที่เป็นอยู่ แต่ความสัมพันธ์เชิงเส้นที่ชัดเจนมากเมื่อฉันพล็อตบันทึกของตัวแปรแต่ละตัวจะมีความสัมพันธ์กัน

ดังนั้นฉันจะจบลงด้วยรูปแบบของประเภท:

log(Y)=alog(X)+b
ซึ่งยอดเยี่ยมในเชิงคณิตศาสตร์ แต่ดูเหมือนจะไม่มีค่าที่อธิบายได้ของตัวแบบเชิงเส้นปกติ

ฉันจะตีความรูปแบบดังกล่าวได้อย่างไร


5
ฉันไม่มีอะไรสำคัญที่จะเพิ่มไปยังคำตอบที่มีอยู่ แต่ลอการิทึมในผลลัพธ์และตัวทำนายคือความยืดหยุ่น การค้นหาคำนั้นควรหาแหล่งข้อมูลที่ดีสำหรับการตีความความสัมพันธ์นั้นซึ่งไม่ง่ายนัก
Upper_Case-Stop Harming Monica

ในความหมายของรูปแบบการเข้าสู่ระบบเข้าสู่ระบบที่ขึ้นอยู่กับตัวแปรคือการเข้าสู่ระบบ (y) และตัวแปรอิสระคือการเข้าสู่ระบบ (x) เป็น: \%%Δ=β1%Δx
Bob

3
ลิงค์บันทึกการใช้งานเสริมเป็นข้อกำหนดเฉพาะของ GLM เมื่อผลลัพธ์เป็นแบบไบนารี (แบบจำลองความเสี่ยง) และการได้รับสัมผัสนั้นเพิ่มขึ้นเช่นจำนวนคู่นอนกับการติดเชื้อเอชไอวี jstor.org/stable/2532454
AdamO

2
@Alexis คุณสามารถเห็นจุดเหนียวถ้าคุณซ้อนทับเส้นโค้ง ลองเทียบกับcurve(exp(-exp(x)), from=-5, to=5) curve(plogis(x), from=-5, to=5)ความเว้าเร่งขึ้น หากความเสี่ยงของเหตุการณ์จากการเผชิญหน้าครั้งเดียวคือpดังนั้นความเสี่ยงหลังจากเหตุการณ์ที่สองควรเป็น1(1p)2และต่อ ๆ ไปนั่นคือการบันทึกรูปร่างน่าจะไม่จับ การเปิดเผยที่สูงมากจะทำให้ผลลัพธ์การถดถอยโลจิสติกเบ้มากขึ้นอย่างไม่น่าเชื่อ (ผิดพลาดตามกฎความน่าจะเป็นก่อนหน้า) การจำลองบางอย่างจะแสดงสิ่งนี้ให้คุณ
AdamO

1
@AdamO อาจมีกระดาษสอนให้เขียนด้วยการจำลองซึ่งกระตุ้นให้เลือกวิธีการเชื่อมโยงผลลัพธ์แบบแยกขั้วโดยเฉพาะจากทั้งสามรวมถึงสถานการณ์ที่มันทำและไม่ได้สร้างความแตกต่าง
Alexis

คำตอบ:


27

คุณแค่ต้องยกกำลังทั้งสองข้างของสมการและคุณจะได้ความสัมพันธ์ที่อาจเกิดขึ้นซึ่งอาจสมเหตุสมผลสำหรับข้อมูลบางอย่าง

log(Y)=alog(X)+b

exp(log(Y))=exp(alog(X)+b)

Y=ebXa

และเนื่องจากเป็นเพียงพารามิเตอร์ที่สามารถรับค่าบวกใด ๆ โมเดลนี้จึงเทียบเท่ากับ:eb

Y=cXa

ควรสังเกตว่าการแสดงออกของโมเดลควรรวมถึงคำผิดพลาดและการเปลี่ยนแปลงของตัวแปรเหล่านี้มีผลกระทบที่น่าสนใจ

log(Y)=alog(X)+b+ϵ

Y=ebXaexp(ϵ)

นั่นคือโมเดลของคุณที่มีข้อผิดพลาดเพิ่มเติมที่สอดคล้องกับเงื่อนไขสำหรับ OLS (ข้อผิดพลาดการกระจายแบบปกติที่มีความแปรปรวนแบบคงที่) เทียบเท่ากับแบบจำลองที่มีศักยภาพด้วยข้อผิดพลาดแบบหลายค่าซึ่งลอการิทึมจะตามหลังการแจกแจงปกติ


3
OP อาจสนใจที่จะรู้ว่าการแจกจ่ายนี้มีชื่อบันทึกปกติ: en.wikipedia.org/wiki/Log-normal_distribution
gardenhead

2
แล้วผลของความไม่เท่าเทียมของเซ่นล่ะ? โดยทั่วไปสำหรับ convex g,E[g(X)]g(E[X])
สถิติ

14

คุณสามารถใช้ modelและคำนวณผลต่างรวมคุณจะได้ดังนี้: ซึ่งให้ log(Y)=alog(X)+b

1YdY=a1XdX
dYdXXY=a

ดังนั้นการตีความหมายที่เรียบง่ายของสัมประสิทธิ์จะเป็นร้อยละการเปลี่ยนแปลงในสำหรับการเปลี่ยนแปลงร้อยละXนอกจากนี้มีความหมายว่าตัวแปรการเจริญเติบโตที่คงที่ส่วน ( ) อัตราการเจริญเติบโตของXaYXYa XaX


ดังนั้นถ้าพล็อตการบันทึกล็อกเป็นเส้นตรงนั่นจะบอกเป็นนัยว่าอัตราการเติบโตคงที่?
Dimitriy V. Masterov

ไม่จริงที่อัตราการเจริญเติบโตของจะคงที่และถ้าหาก 0 a = 0Ya=0
RScrlli

ไม่เกินเวลาอัตราการเติบโตที่เกี่ยวกับการเจริญเติบโตใน x
Dimitriy V. Masterov

การเรียงลำดับใหม่ไม่ได้ช่วยฉันจะลบมันออก
Aksakal

1
@ DimitriyV.Masterov ตกลงแล้วตั้งแต่เป็นเส้นตรงในก็หมายความว่าตัวแปรเติบโตในส่วนคงที่ของอัตราการเจริญเติบโตของXมีคำตอบของฉันตามที่คุณคิดผิดหรือเปล่า? log(Y)log(X)YX
RScrlli

7

สัญชาตญาณให้ลำดับความสำคัญของตัวแปรดังนั้นเราจึงสามารถดูความสัมพันธ์ได้เนื่องจากลำดับของขนาดของตัวแปรทั้งสองนั้นสัมพันธ์กันเป็นเส้นตรง ตัวอย่างเช่นการเพิ่มการทำนายตามลำดับความสำคัญอาจเชื่อมโยงกับการเพิ่มขึ้นของลำดับการตอบสนองสามระดับlog

เมื่อพล็อตโดยใช้พล็อตบันทึกการใช้งานเราหวังว่าจะเห็นความสัมพันธ์เชิงเส้น ใช้ตัวอย่างจากคำถามนี้เราสามารถตรวจสอบสมมติฐานตัวแบบเชิงเส้น:

เข้าสู่ระบบเข้าสู่ระบบ


3
+1 สำหรับคำตอบที่เข้าใจง่ายสำหรับแนวคิดที่ไม่คุ้นเคย อย่างไรก็ตามรูปภาพที่คุณรวมไว้นั้นละเมิดการแปรปรวนของข้อผิดพลาดคงที่อย่างชัดเจน
Frans Rodenburg

1
คำตอบนั้นถูกต้อง แต่การระบุแหล่งที่มาของการเขียนผิด รูปภาพไม่ควรนำมาประกอบกับ Google Images แต่อย่างน้อยก็ไปที่หน้าเว็บที่จะพบว่าสามารถหาได้เพียงแค่คลิกใน Google images
Pere

@Pere ฉันไม่สามารถหาแหล่งที่มาของภาพต้นฉบับโชคไม่ดี (อย่างน้อยโดยใช้การค้นหาภาพกลับ)
qwr

ดูเหมือนว่าจะมาจากไดอะแกรมแต่ทว่าเว็บไซต์นั้นหยุดทำงานและหน้าส่วนใหญ่ไม่ได้อยู่ใน Web Archive นอกเหนือจากหน้าแรกของมัน
Henry

4

พิจารณาคำตอบใหม่โดย @Rscrill ด้วยข้อมูลที่ไม่ต่อเนื่องตามจริงพิจารณา

log(Yt)=alog(Xt)+b,log(Yt1)=alog(Xt1)+b

log(Yt)log(Yt1)=a[log(Xt)log(Xt1)]

แต่

log(Yt)log(Yt1)=log(YtYt1)log(Yt1+ΔYtYt1)=log(1+ΔYtYt1)

ΔYtYt1คือการเปลี่ยนแปลงร้อยละของระหว่างช่วงเวลาและหรืออัตราการเจริญเติบโตของพูด{t}} เมื่อมันมีขนาดเล็กกว่าเรามีการประมาณที่ยอมรับได้คือYt1tYtgYt0.1

log(1+ΔYtYt1)ΔYtYt1=gYt

ดังนั้นเราจึงได้รับ

gYtagXt

ซึ่งตรวจสอบได้ในการศึกษาเชิงประจักษ์เกี่ยวกับการรักษาเชิงทฤษฎีของ @Rscrill


1
นี่อาจเป็นสิ่งที่นักคณิตศาสตร์จะเรียกว่าสัญชาตญาณ :)
Richard Hardy

2

ความสัมพันธ์เชิงเส้นตรงระหว่างบันทึกเทียบเท่ากับอำนาจกฎหมายการพึ่งพาอาศัยกัน: ในฟิสิกส์ดังกล่าวหมายถึงพฤติกรรมที่ระบบเป็นขนาดฟรีหรือขนาดคงที่ ตัวอย่างเช่นถ้าเป็นระยะทางหรือเวลานี่หมายความว่าการพึ่งพาไม่สามารถกำหนดโดยความยาวลักษณะหรือระดับเวลา (เมื่อเทียบกับการสลายตัวแบบเอ็กซ์โปเนนเชียล) เป็นผลให้ระบบดังกล่าวจัดแสดงนิทรรศการการพึ่งพาอาศัยระยะยาวของบนX

YXα
X X Y XXXYX

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.