การทดสอบทางสถิติเพื่อดูว่าความสัมพันธ์เป็นแบบเชิงเส้นหรือไม่เชิงเส้น


9

ฉันมีชุดข้อมูลตัวอย่างดังนี้:

Volume <- seq(1,20,0.1)
var1 <- 100 
x2 <- 1000000
x3 <- 30

x4 = sqrt(x2/pi)
H = x3 - Volume
r = (x4*H)/(H + Volume)

Power = (var1*x2)/(100*(pi*Volume/3)*(x4*x4 + x4*r + r*r))

Power <- jitter(Power, factor = 1, amount = 0.1)
plot(Volume,Power)

ป้อนคำอธิบายรูปภาพที่นี่

จากรูปสามารถบอกได้ว่าระหว่างความสัมพันธ์ 'ปริมาตร' และ 'พลัง' บางช่วงนั้นเป็นเส้นตรงจากนั้นเมื่อ 'ปริมาณ' ค่อนข้างน้อยความสัมพันธ์จะกลายเป็นไม่เป็นเชิงเส้น มีการทดสอบทางสถิติเพื่อแสดงสิ่งนี้หรือไม่

ตามคำแนะนำบางส่วนที่แสดงในการตอบสนองต่อ OP:

ตัวอย่างที่แสดงที่นี่เป็นเพียงตัวอย่างชุดข้อมูลที่ฉันมีลักษณะคล้ายกับความสัมพันธ์ที่เห็นที่นี่แม้ว่า noisier การวิเคราะห์ที่ฉันได้ดำเนินการจนถึงขณะนี้แสดงให้เห็นว่าเมื่อฉันวิเคราะห์ปริมาตรของของเหลวที่เฉพาะเจาะจงพลังของสัญญาณจะเพิ่มขึ้นอย่างมากเมื่อมีปริมาณต่ำ ดังนั้นพูดคือฉันมีเพียงสภาพแวดล้อมที่ปริมาณอยู่ระหว่าง 15 และ 20 มันเกือบจะดูเหมือนความสัมพันธ์เชิงเส้น อย่างไรก็ตามโดยการเพิ่มช่วงของคะแนนเช่นมีปริมาณน้อยลงเราจะเห็นว่าความสัมพันธ์ไม่ได้เป็นเส้นตรงเลย ตอนนี้ฉันกำลังมองหาคำแนะนำทางสถิติเกี่ยวกับวิธีการแสดงทางสถิตินี้ หวังว่ามันจะสมเหตุสมผล


5
มีหลายสิ่งเกิดขึ้นที่นี่ ขั้นแรกแน่นอนว่าความสัมพันธ์จะมีลักษณะเป็นเส้นตรงโดยช่วงของตัวแปรจะถูก จำกัด อย่างเหมาะสม ประการที่สองความแตกต่างที่รุนแรงของข้อมูลนั้นเกือบจะเป็นคุณลักษณะที่โดดเด่นเมื่อเทียบกับความสัมพันธ์แบบไม่เชิงเส้น: การกระจายนั้นมีขนาดใหญ่กว่าในระดับสูงและมีกำลังต่ำกว่าในระดับต่ำและมีกำลังสูง ไม่ว่าคุณต้องการทดสอบอะไร ความเป็นเส้นตรงของความสัมพันธ์ข้ามช่วงทั้งหมด?
whuber

4
อันที่จริงฉันอยากจะกลับคำพูดเกี่ยวกับ heteroscedasticity: พล็อตให้ลักษณะเช่นนี้ แต่มันเป็นภาพลวงตาที่เกิดจากความลาดชันที่ค่อนข้างสูงในปริมาณที่ต่ำกว่า (ปริมาณในแง่ของพลังงานมีความสัมพันธ์ที่แตกต่างกันอย่างมาก) เมื่อเราพิจารณาว่าการเปลี่ยนแปลงของพลังงานไม่ได้เป็นแบบheteroscedastic กฎนี้จะวิเคราะห์การวิเคราะห์บางประเภท (เราไม่ต้องการที่จะใช้การแปลงแบบไม่เชิงเส้นของพลังงาน) และแนะนำ นิยมผู้อื่น (เช่นไม่เชิงเส้นกำลังสองน้อยที่สุดหรือแบบจำลองเชิงเส้นทั่วไป) เมื่อมีการสร้างความไม่เชิงเส้นอย่างชัดเจน
whuber

ฉันได้เพิ่มคำอธิบายสั้น ๆ ของปัญหาที่อยู่ในมือ ขอบคุณสำหรับความคิดเห็นของคุณจนถึงตอนนี้สิ่งเหล่านี้ได้รับการชื่นชมจริง ๆ และช่วยให้ฉันคิดถึงปัญหา
KatyB

ทำไมไม่ทดสอบหาผลกำลังสอง?
AdamO

2
@Simon ฉันไม่ได้ใช้การทดสอบใด ๆ แต่ถึงกระนั้นคุณก็จะเห็นว่านี่คือ homoscedastic โดยการพล็อตขนาดทั่วไปของปริมาณเทียบกับปริมาณ นี่คือRรหัสบางส่วน: plot(s <- by(cbind(Power, Volume), groups <- cut(Volume, 10), function(d) summary(lm(Power ~ Volume, data=d))$sigma), xlab="Volume range", ylab="Residual SD", ylim=c(0, max(s))); abline(h=mean(s), lty=2, col="Blue"). มันแสดงขนาดที่เหลือใกล้คงที่ในช่วงเต็มรูปแบบ
whuber

คำตอบ:


4

นี่เป็นปัญหาการเลือกรูปแบบโดยทั่วไป ฉันขอแนะนำให้คุณเลือกชุดของโมเดลที่มีความเป็นไปได้ทางกายภาพ (เชิงเส้น, เอ็กซ์โปเนนเชียล, หรือความสัมพันธ์เชิงเส้นที่ไม่ต่อเนื่อง) และใช้ Akaike Information Criterion หรือ Bayesian Information Criterion เพื่อเลือกสิ่งที่ดีที่สุด


2

คุณได้ลองทำสิ่งนี้! วิธีหนึ่งในการทำเช่นนี้คือเพื่อให้พอดีกับกำลังที่สูงขึ้นหรือคำที่ไม่เป็นเชิงเส้นอื่น ๆ กับโมเดลของคุณและทดสอบว่าค่าสัมประสิทธิ์ของพวกมันแตกต่างจาก 0

มีตัวอย่างบางส่วนที่นี่http://www.albany.edu/~po467/EPI553/Fall_2006/regression_assumptions.pdf

ในกรณีของคุณคุณอาจต้องการแยกชุดข้อมูลของคุณออกเป็นสองส่วนเพื่อทดสอบการไม่เป็นเชิงเส้นสำหรับปริมาณ <5 และเชิงเส้นสำหรับปริมาตร> 5

อีกปัญหาหนึ่งที่คุณมีคือข้อมูลของคุณคือ heteroskedastic ซึ่งละเมิดข้อสันนิษฐานทั่วไปสำหรับข้อมูลการถดถอย ลิงก์ที่ให้ไว้ยังมีตัวอย่างของการทดสอบสำหรับสิ่งนี้


ลิงก์เสีย
Jatin

2

ฉันขอแนะนำให้ใช้การถดถอยแบบไม่เชิงเส้นเพื่อให้พอดีกับแบบจำลองหนึ่งเดียวกับข้อมูลทั้งหมดของคุณ อะไรคือจุดของการเลือกวอลลุ่มโดยพลการและการทำให้รูปแบบหนึ่งเข้ากับโวลุ่มน้อยกว่าและอีกรูปแบบหนึ่งไปสู่โวลุ่มที่ใหญ่กว่า? มีเหตุผลอะไรบ้างนอกเหนือจากรูปลักษณ์ของการใช้ 5 เป็นเกณฑ์ที่คมชัด? คุณเชื่อจริง ๆ หรือไม่ว่าหลังจากขีด จำกัด ปริมาณเฉพาะเส้นโค้งในอุดมคติคือเส้นตรง? เป็นไปได้หรือไม่ที่จะเข้าใกล้แนวนอนเมื่อปริมาณเพิ่มขึ้น แต่ไม่เชิงเส้นเลยหรือ

แน่นอนว่าการเลือกเครื่องมือวิเคราะห์ต้องขึ้นอยู่กับคำถามทางวิทยาศาสตร์ที่คุณพยายามตอบและความรู้เดิมของระบบ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.