โปรดทราบว่าสมมติฐานเชิงเส้นที่คุณกำลังพูดเพียงบอกว่าหมายถึงเงื่อนไขของรับX ฉันYiXiเป็นฟังก์ชันเชิงเส้น คุณไม่สามารถใช้ค่าของเพื่อทดสอบสมมติฐานนี้R2
นี่เป็นเพราะเป็นเพียงความสัมพันธ์กำลังสองระหว่างค่าที่สังเกตและทำนายและค่าของสัมประสิทธิ์สหสัมพันธ์ไม่ได้กำหนดความสัมพันธ์เฉพาะระหว่างและ (เชิงเส้นหรืออย่างอื่น)และทั้งสองสถานการณ์ต่อไปนี้เป็นไปได้: X YR2XY
ฉันจะพูดคุยกัน:
(1) สูงแต่สมมติฐานเชิงเส้นที่ยังคงมีความผิดในทางที่สำคัญ:R2เคล็ดลับที่นี่คือการจัดการความจริงที่ว่าความสัมพันธ์ที่มีความสำคัญมากที่จะผิดปกติ สมมติว่าคุณมีตัวทำนายที่สร้างขึ้นจากการกระจายแบบผสมที่เป็นมาตรฐานปกติของเวลาและมวลจุดที่อีกและตัวแปรตอบกลับที่ X 1 , . . , X n 99%M1%X1,...,Xn99%M1%
Yi={ZiMif Xi≠Mif Xi=M
ที่และเป็นค่าคงที่บวกมีขนาดใหญ่กว่าเช่น 5 จากนั้นและจะมีความสัมพันธ์เกือบสมบูรณ์แบบ:Zi∼N(μ,1)Mμμ=0,M=105XiYi
u = runif(1e4)>.99
x = rnorm(1e4)
x[which(u==1)] = 1e5
y = rnorm(1e4)
y[which(x==1e5)] = 1e5
cor(x,y)
[1] 1
แม้จะมีความจริงที่ว่าคาดว่าค่าตัวของรับไม่เป็นเชิงเส้น - ในความเป็นจริงมันเป็นฟังก์ชั่นขั้นตอนที่ต่อเนื่องและคาดว่าค่าตัวของไม่ได้ขึ้นอยู่กับยกเว้นเมื่อMYiXiYiXiXi=M
(2) ต่ำแต่ข้อสมมติเชิงเส้นยังคงเป็นที่พอใจ:R2เคล็ดลับที่นี่คือการทำให้จำนวนของ "เสียง" รอบแนวโน้มเชิงเส้นมีขนาดใหญ่ สมมติว่าคุณมีตัวทำนายและการตอบสนองและตัวแบบXiYi
Yi=β0+β1Xi+εi
เป็นรูปแบบที่ถูกต้อง ดังนั้นค่าเฉลี่ยตามเงื่อนไขของได้รับเป็นฟังก์ชันเชิงเส้นของดังนั้นสมมติฐานเชิงเส้นจึงเป็นที่พอใจ ถ้ามีขนาดใหญ่เมื่อเทียบกับดังนั้นจะมีขนาดเล็ก ตัวอย่างเช่น,X ฉันX ฉันv a r ( ε ฉัน ) = σ 2 β 1 R 2YiXiXivar(εi)=σ2β1R2
x = rnorm(200)
y = 1 + 2*x + rnorm(200,sd=5)
cor(x,y)^2
[1] 0.1125698
ดังนั้นการประเมินสมมติฐานเชิงเส้นตรงจึงไม่ใช่เรื่องของการดูว่าอยู่ในช่วงที่ยอมรับได้R2หรือไม่ แต่มันเป็นเรื่องของการตรวจสอบแผนการกระจายระหว่างตัวทำนาย / ค่าที่ทำนายและการตอบสนองและทำการตัดสินใจ
Re: จะต้องทำอย่างไรเมื่อข้อสรุปเชิงเส้นตรงไม่ตรงและเปลี่ยนค่า IV ก็ไม่ได้ช่วย !!
เมื่อไม่ใช่เชิงเส้นเป็นปัญหาอาจเป็นประโยชน์ในการดูพล็อตของส่วนที่เหลือเทียบกับตัวทำนายแต่ละตัว - หากมีรูปแบบที่สังเกตเห็นได้ชัดเจนสิ่งนี้สามารถบ่งชี้ว่าไม่ใช่เชิงเส้นในตัวทำนายนั้น ตัวอย่างเช่นถ้าพล็อตนี้แสดงความสัมพันธ์ "รูปชาม" ระหว่างส่วนที่เหลือกับตัวทำนายสิ่งนี้อาจบ่งบอกถึงกำลังสองที่หายไปในคำทำนายนั้น รูปแบบอื่น ๆ อาจระบุรูปแบบการทำงานที่แตกต่างกัน ในบางกรณีอาจเป็นไปได้ว่าคุณยังไม่ได้ลองแปลงที่ถูกต้องหรือว่าตัวแบบที่แท้จริงไม่ได้เป็นเชิงเส้นในตัวแปรที่แปลงแล้ว (แม้ว่าอาจเป็นไปได้ที่จะหาการประมาณที่สมเหตุสมผล)
เกี่ยวกับตัวอย่างของคุณ:ขึ้นอยู่กับพล็อตที่คาดการณ์และที่เกิดขึ้นจริง (พล็อตที่ 1 และ 3 ในโพสต์ต้นฉบับ) สำหรับตัวแปรตามสองที่แตกต่างกันดูเหมือนว่าสำหรับสมมติฐานทั้งสองนั้น ในพล็อตแรกดูเหมือนว่าอาจมีความแตกต่างกันเล็กน้อย แต่ความสัมพันธ์ระหว่างทั้งสองนั้นดูเป็นเส้นตรง ในพล็อตที่สองความสัมพันธ์มีลักษณะเป็นเส้นตรง แต่ความแข็งแกร่งของความสัมพันธ์ค่อนข้างอ่อนแอตามที่ระบุโดยกระจายขนาดใหญ่รอบเส้น (เช่นความแปรปรวนข้อผิดพลาดขนาดใหญ่) - นี่คือเหตุผลที่คุณเห็นต่ำR2