ฉันจะทดสอบความสัมพันธ์ที่ไม่เชิงเส้นได้อย่างไร


37

สำหรับเนื้อเรื่องที่ 1 ฉันสามารถทดสอบการเชื่อมโยงระหว่าง x และ y ได้โดยทำการสหสัมพันธ์อย่างง่าย เนื้อเรื่อง 1

สำหรับพล็อต 2 ที่ความสัมพันธ์ไม่เป็นเชิงเส้น แต่มีความสัมพันธ์ที่ชัดเจนระหว่าง x และ y ฉันจะทดสอบความสัมพันธ์และเลเบลลักษณะของมันได้อย่างไร เนื้อเรื่อง 2

คำตอบ:


35

... ความสัมพันธ์ไม่เป็นเชิงเส้น แต่มีความสัมพันธ์ที่ชัดเจนระหว่าง x และ y ฉันจะทดสอบความสัมพันธ์และติดฉลากธรรมชาติของมันได้อย่างไร

วิธีหนึ่งในการทำเช่นนี้จะเป็นเพื่อให้พอดีกับเป็นฟังก์ชั่นประมาณกึ่ง parametrically ของใช้ตัวอย่างเช่นทั่วไปรูปแบบสารเติมแต่งและการทดสอบหรือไม่ว่าการประมาณการการทำงานเป็นค่าคงที่ซึ่งจะแสดงให้เห็นความสัมพันธ์ระหว่างและxวิธีการนี้ทำให้คุณปลอดจากการทำพหุนามถดถอยและบางครั้งการตัดสินใจโดยพลการเกี่ยวกับคำสั่งของพหุนามเป็นต้นyxyx

หากคุณมีข้อสังเกตคุณสามารถใส่โมเดลได้:(Yi,Xi)

E(Yi|Xi)=α+f(Xi)+εi

และทดสอบสมมติฐานx ในคุณสามารถทำได้โดยใช้ฟังก์ชั่น หากเป็นผลลัพธ์ของคุณและเป็นตัวทำนายของคุณคุณสามารถพิมพ์:H0:f(x)=0, xRgam()yx

library(mgcv) 
g <- gam(y ~ s(x)) 

พิมพ์ดีดsummary(g)จะให้ผลการทดสอบสมมติฐานดังกล่าวข้างต้น เท่าที่อธิบายลักษณะของความสัมพันธ์สิ่งนี้จะทำได้ดีที่สุดกับเนื้อเรื่อง วิธีหนึ่งในการทำสิ่งนี้ในR(สมมติว่ามีการป้อนรหัสด้านบนแล้ว)

plot(g,scheme=2)

หากตัวแปรการตอบสนองของคุณไม่ต่อเนื่อง (เช่นไบนารี) คุณสามารถรองรับได้ภายในกรอบการทำงานนี้โดยใส่ GAM logistic ที่เหมาะสม (ในRคุณจะต้องเพิ่มfamily=binomialการเรียกของคุณgam) นอกจากนี้ถ้าคุณมีพยากรณ์หลายท่านอาจรวมถึงแง่สารเติมแต่งหลาย ๆ (หรือข้อตกลงเชิงเส้นสามัญ) หรือพอดีกับฟังก์ชั่นหลายตัวแปรเช่นถ้าคุณมีการพยากรณ์ ความซับซ้อนของความสัมพันธ์จะถูกเลือกโดยอัตโนมัติโดยการตรวจสอบข้ามถ้าคุณใช้วิธีการเริ่มต้นแม้ว่าจะมีความยืดหยุ่นมากที่นี่ - ดูไฟล์ช่วยเหลือหากสนใจf(x,z)x, zgam


1
ฉันชอบวิธีนี้กับความสัมพันธ์อันดับสองที่แยกกันทั้งสองข้างของเพราะมันตรวจสอบความสัมพันธ์โดยรวม มันก็ดีกว่าแบบจำลองพารามิเตอร์ดังนั้นฉันจึงยอมรับสิ่งนี้แทน x=a
user1447630

@ user1447630 นี่คือแบบจำลองสำหรับความสัมพันธ์ การถดถอยเชิงเส้นพหุนามหรือการถดถอยแบบไม่เชิงเส้นรวมทั้งแบบจำลองการเติมแต่งเป็นวิธีที่จะอธิบายลักษณะความสัมพันธ์ของฟังก์ชัน ฉันพูดถึงสิ่งเหล่านี้ได้ แต่คุณขอการวัดความสัมพันธ์ฉันจึงให้รูปแบบความสัมพันธ์ที่เป็นไปได้อื่น ๆ กับคุณ คำตอบที่ดีเช่นเดียวกับมาโครอาจเป็นไปได้ว่ามันเหมาะกับความสัมพันธ์ในการใช้งาน แต่ไม่ได้เป็นตัวบ่งชี้ความสัมพันธ์
Michael Chernick

1
@Michael ฉันไม่ทราบว่าคุณกำลังอ่านคำถามใด แต่ OP ได้ถามวิธีทดสอบความสัมพันธ์ไม่ใช่เพื่อวัดความสัมพันธ์ ไม่ว่าในกรณีใดคำตอบของคุณก็ดี (และไม่สนใจความจริงที่ว่ามันต้องมีความรู้ค่อนข้างสูงเกี่ยวกับจุดเปลี่ยนที่เกิดขึ้น) ฉันคิดว่ามันเหมาะกับพล็อตเฉพาะในคำถามนี้แทนที่จะเป็นเรื่องทั่วไป ปัญหา "การเชื่อมโยงไม่เชิงเส้น"
แมโคร

3
@Michael การตีความของคุณ ( "คำถามเกี่ยวกับวิธีการวางแนวความคิดของความสัมพันธ์ .. " ) และ "อาร์กิวเมนต์" ทางสถิติที่คุณให้ (btw, "การทดสอบเพื่อหาต้นกำเนิดของสัมประสิทธิ์และแบบจำลอง"ในรูปแบบเชิงเส้นนี่คือ เช่นเดียวกับการทดสอบความสัมพันธ์) ไม่สมเหตุสมผลใด ๆ ให้ข้อเท็จจริงดังนั้นฉันจะไม่พูดกับพวกเขา แต่".. หลังจากที่คุณให้ของคุณเป็นที่ยอมรับและคุณยอมรับ ... ฉันแค่รู้สึกว่าไม่ถูกต้อง"คือการรณรงค์เพื่อคำตอบของคุณซึ่งสะท้อนให้เห็นถึงการแก้ไขจุดตัวแทนไม่ใช่สิ่งที่มีประโยชน์ต่อชุมชน
แมโคร

5
@Macro และ Michael ให้ฉันปรับโมเดลของความสัมพันธ์ระหว่างและในแบบกึ่ง / ไม่ใช่พารามิเตอร์เป็นวิธีหนึ่งในการทดสอบความสัมพันธ์ระหว่างทั้งสอง การทดสอบดังกล่าวสามารถขยายได้โดยการวัดขอบเขตของการเชื่อมโยงกับวิธีการต่าง ๆ ที่คุณแนะนำ ผมคิดว่าทั้งคำตอบและการติดตามที่นี่ได้รับค่อนข้างประโยชน์เพื่อให้ฉันซองโฆษณามี่ อย่างไรก็ตามเนื่องจากคำถามของฉันรวมถึงวิธีที่เราสามารถ "ติดฉลากลักษณะของมัน" ซึ่งสามารถตีความได้ว่าเป็นแบบจำลองที่เหมาะสมฉันจะยึดคำตอบของมาโคร xy
user1447630

14

หากความสัมพันธ์ที่ไม่เป็นเชิงเส้นมีความสัมพันธ์แบบโมโนโพนิค (Rho's Spearman) จะเหมาะสม ในตัวอย่างของคุณมีพื้นที่เล็ก ๆ ที่ชัดเจนที่มีการเปลี่ยนแปลงเส้นโค้งจาก monotoncally ที่เพิ่มขึ้นเพื่อ montonically ลดลงเช่นพาราโบลาจะทำในจุดที่อนุพันธ์แรกเท่ากับ00

ฉันคิดว่าถ้าคุณมีความรู้ในการสร้างแบบจำลอง (นอกเหนือจากข้อมูลเชิงประจักษ์) ที่จุดเปลี่ยนนั้นเกิดขึ้น (พูดที่ ) จากนั้นคุณสามารถอธิบายความสัมพันธ์เป็นบวกและใช้ Rho ของ Spearman กับชุดของคู่โดยที่เพื่อให้การประมาณการของความสัมพันธ์ที่และใช้ประมาณการอีกหนึ่งของความสัมพันธ์สเปียร์แมนสำหรับที่ความสัมพันธ์เป็นลบ การประมาณทั้งสองนี้จะอธิบายลักษณะโครงสร้างความสัมพันธ์ระหว่างและและไม่เหมือนกับการประมาณค่าความสัมพันธ์ซึ่งจะใกล้เคียงเมื่อประมาณการโดยใช้ข้อมูลทั้งหมดการประมาณการเหล่านี้จะมีขนาดใหญ่และตรงข้ามกับเครื่องหมาย( x , Y ) x < x > x Y 0x=a(x,y)x<ax>axy0

บางคนอาจโต้แย้งว่าเพียงข้อมูลเชิงประจักษ์ ( เช่นคู่ที่สังเกตก็เพียงพอที่จะพิสูจน์สิ่งนี้(x,y)


ฉันจะแยกความสัมพันธ์ x ~ y ออกเป็นสองส่วน ด้านล่าง x = a ความสัมพันธ์โดย Rho ของ Spearman นั้นเป็นค่าบวก สูงกว่า x = a ความสัมพันธ์ของ Rho ของสเปียร์แมนนั้นเป็นลบ ฉันชอบวิธีนี้ อย่างไรก็ตามยังมีวิธีการทดสอบแบบพาราเมตริกว่าความสัมพันธ์ระหว่าง x และ y นั้นเหมาะสมกับพาราโบลาผกผันหรือไม่เช่นโดยที่เป็นค่าลบ บางทีนี่อาจต้องใช้การทดสอบทางสถิติที่กำหนดเอง ay=ax2+bx+ca
user1447630

1
สำหรับสิ่งที่คุณพอดีกับรูปแบบสมการกำลังสองโดยใช้การพูดการถดถอยเชิงเส้น OLS และทำการทดสอบทางสถิติมาตรฐานว่าค่าสัมประสิทธิ์ a มากกว่า 0 (พูดการทดสอบแบบหางเดียว)
Michael Chernick

1
@Michael เกี่ยวกับความคิดเห็นล่าสุดของคุณถ้าไม่ได้กระจายไปรอบ ๆ แฟ่ศูนย์อาจจะมี collinearity ขนาดใหญ่ระหว่างและ 2 ตั้งแต่นี้อาจจะส่งผลกระทบต่อมาตรฐาน -test สำหรับค่าสัมประสิทธิ์การถดถอยการทดสอบอัตราส่วนอาจจะเหมาะสมกว่าใช่มั้ย? x x 2 txxx2t
มาโคร

@Macro ฉันเดาว่าถ้ามีความสัมพันธ์ระดับสูงระหว่าง x และ xข้อเสนอแนะของคุณอาจจะดี แต่ฉันคิดว่ามันเป็นเรื่องธรรมดาที่จะใช้การทดสอบทีละตัวกับสัมประสิทธิ์แม้ว่า covariates Xและ Xอาจมีความสัมพันธ์กัน ค่า collinearity สูงทำให้ค่าสัมประสิทธิ์ไม่เสถียรเนื่องจากการระบุตัวตนเกือบจะหายไป ในกรณีเช่นนี้อาจไม่เหมาะสมที่จะทำการทดสอบใด ๆ กับค่าสัมประสิทธิ์ของ covariates 1 2212
Michael Chernick

1

คุณสามารถทดสอบการพึ่งพาใด ๆ โดยใช้การทดสอบความสัมพันธ์ของระยะทาง ดูที่นี่สำหรับข้อมูลเพิ่มเติมเกี่ยวกับความสัมพันธ์ของระยะทาง: ทำความเข้าใจเกี่ยวกับการคำนวณความสัมพันธ์ของระยะทาง

และนี่คือกระดาษต้นฉบับ: https://arxiv.org/pdf/0803.4101.pdf

ใน R จะมีการใช้งานในenergyแพ็คเกจพร้อมกับdcor.testฟังก์ชั่น


0

มีคนแก้ไขฉันถ้าความเข้าใจของฉันผิดที่นี่ แต่วิธีหนึ่งในการจัดการกับตัวแปรที่ไม่ใช่เชิงเส้นคือใช้การประมาณเชิงเส้น ตัวอย่างเช่นการบันทึกการแจกแจงแบบเอ็กซ์โพเนนเชียลควรอนุญาตให้คุณจัดการกับตัวแปรเป็นการแจกแจงแบบปกติ มันอาจถูกใช้เพื่อแก้ปัญหาเช่นการถดถอยเชิงเส้นใด ๆ


8
ฉันไม่คิดว่านี่เป็นคำตอบที่แท้จริง การบันทึกไม่เหมือนกับการใช้การประมาณเชิงเส้น ยิ่งไปกว่านั้นแม้ว่าคุณจะใช้เวลาบันทึก, การจัดจำหน่ายที่บันทึกของตัวแปรเดิมเป็นตัวแปรกระจายตามปกติไม่ได้กระจายชี้แจง แต่การกระจาย lognormal อย่างไรก็ตามทั้งอิสระและตัวแปรตามไม่จำเป็นต้องกระจายตามปกติสำหรับการถดถอยเชิงเส้นให้เหมาะสม - ปัญหาที่นี่คือความสัมพันธ์ระหว่างตัวแปรไม่ใช่การกระจายตัวเล็กน้อย
Silverfish

0

ฉันเคยใช้โมเดลเสริมทั่วไปเพื่อตรวจจับความสัมพันธ์ที่ไม่ใช่เชิงเส้นระหว่างตัวแปรสองตัว แต่เมื่อเร็ว ๆ นี้ฉันได้ค้นพบความสัมพันธ์ที่ไม่เกี่ยวข้องกับเส้นตรงที่นำมาใช้ผ่านnlcorแพ็คเกจใน R คุณสามารถใช้วิธีนี้ในลักษณะเดียวกับ Pearson correlation สัมประสิทธิ์สหสัมพันธ์อยู่ระหว่าง 0 ถึง 1 และไม่ใช่ -1 และ 1 เช่นเดียวกับ Pearson correlation ค่าสัมประสิทธิ์สหสัมพันธ์ที่สูงขึ้นหมายถึงการดำรงอยู่ของความสัมพันธ์ที่ไม่ใช่เชิงเส้นที่แข็งแกร่ง สมมติว่าเป็นอนุกรมเวลาสองค่าx2และy2การทดสอบความสัมพันธ์แบบไม่เชิงเส้นระหว่างอนุกรมเวลาสองชุดมีดังนี้

install.packages("devtools") 
library(devtools)
install_github("ProcessMiner/nlcor")
library(nlcor)
c <- nlcor(x2, y2, plt = T)
c$cor.estimate
[1] 0.897205

ดูเหมือนว่าตัวแปรสองตัวนั้นมีความสัมพันธ์กันอย่างมากผ่านความสัมพันธ์แบบไม่เชิงเส้นคุณยังสามารถรับค่า p-value ที่ปรับปรุงสำหรับค่าสัมประสิทธิ์สหสัมพันธ์

c$adjusted.p.value
[1] 0

คุณสามารถพล็อตผลลัพธ์

print(c$cor.plot)

คุณสามารถดูลิงค์นี้สำหรับรายละเอียดเพิ่มเติม

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.