ฉันจะใช้ค่าของเพื่อทดสอบสมมติฐานเชิงเส้นในการวิเคราะห์การถดถอยแบบหลายค่าได้อย่างไร


13

กราฟด้านล่างเป็นแผนการกระจายที่เหลือของการทดสอบการถดถอยซึ่ง "ปกติ", "homoscedasticity" และ "อิสระ" สมมติฐานได้รับการพบอย่างแน่นอน! สำหรับการทดสอบสมมติฐาน"linearity"ถึงแม้ว่าโดยการดูที่กราฟสามารถคาดเดาได้ว่าความสัมพันธ์นั้นเป็นเส้นโค้ง แต่คำถามคือ: ค่าของ "R2 Linear" สามารถใช้ในการทดสอบสมมติฐานเชิงเส้นได้อย่างไร ช่วงที่ยอมรับได้สำหรับค่าของ "R2 Linear" คืออะไรเพื่อตัดสินใจว่าความสัมพันธ์นั้นเป็นเส้นตรงหรือไม่ จะทำอย่างไรเมื่อไม่ตรงตามสมมติฐานเชิงเส้นตรงและการแปลงค่า IV ก็ไม่ได้ช่วย !!

นี่คือลิงค์ไปยังผลลัพธ์ทั้งหมดของการทดสอบ

แผนการกระจาย:

ป้อนคำอธิบายรูปภาพที่นี่

ป้อนคำอธิบายรูปภาพที่นี่

ป้อนคำอธิบายรูปภาพที่นี่


3
ฉันเห็นจากลักษณะของกราฟที่คุณใช้ SPSS เพียงเปิดกราฟเพื่อแก้ไขและค้นหา "เพิ่มปุ่มเส้นพอดี" ที่นั่นคุณจะพบตัวเลือกการวาดเส้นไม่เชิงเส้นเช่น Loess ตรวจสอบว่าตัวเลือกนี้ให้เส้นตรงที่สมเหตุสมผลหรือไม่
ttnphns

@ ttnphns: ฉันเพิ่มพล็อตกับ Loess บรรทัดที่ 2 คำถาม
Cyrus

ดูเหมือนว่ามันจะค่อนข้างโค้งใช่มั้ย คุณสามารถเล่นได้มากขึ้นด้วยพารามิเตอร์ Loess เพื่อดูว่าเกิดอะไรขึ้น หากเส้นโค้งคุณสามารถสรุปได้ว่าความสัมพันธ์ไม่ได้เป็นเส้นตรง
ttnphns

@Cyrus ฉันได้โพสต์คำตอบทั่วไปสำหรับคำถามนี้ แต่จะเพิ่มการตีความเล็กน้อยในพล็อตของคุณและรู้ว่าฉันไม่แน่ใจว่าแกนและในพล็อตของคุณคืออะไร yxy
มาโคร

@ ttnphns: ใช่มันเป็น curvilinear ฉันไม่รู้วิธีรักษาโมเดลนี้! ในการทดสอบนี้ (# 2) ฉันมี 2 IV ที่ส่งผลโดยตรงต่อ DV (PIT) ผลการถดถอยพบว่ามีเพียง 1 ใน IV เท่านั้นที่มีผลต่อ DV อย่างมีนัยสำคัญ R2 ต่ำมาก (0.172) และลิเนียริตี้ยังต่ำ (อย่างน้อยตามกราฟเมื่อ IV อยู่ในระดับต่ำ) ฉันไม่รู้ว่าการทดสอบนี้เป็นที่ยอมรับหรือไม่! แม้ฉันเปลี่ยนทั้ง IV (โดยการคำนวณ LN ของพวกเขา) และเรียกใช้การถดถอยอีกครั้ง แต่ผลลัพธ์ก็แย่ลงกว่าเดิม!
Cyrus

คำตอบ:


15

โปรดทราบว่าสมมติฐานเชิงเส้นที่คุณกำลังพูดเพียงบอกว่าหมายถึงเงื่อนไขของรับX ฉันYiXiเป็นฟังก์ชันเชิงเส้น คุณไม่สามารถใช้ค่าของเพื่อทดสอบสมมติฐานนี้R2

นี่เป็นเพราะเป็นเพียงความสัมพันธ์กำลังสองระหว่างค่าที่สังเกตและทำนายและค่าของสัมประสิทธิ์สหสัมพันธ์ไม่ได้กำหนดความสัมพันธ์เฉพาะระหว่างและ (เชิงเส้นหรืออย่างอื่น)และทั้งสองสถานการณ์ต่อไปนี้เป็นไปได้: X YR2XY

  • สูงแต่ข้อสมมติเชิงเส้นยังคงผิดในวิธีที่สำคัญR2

  • ต่ำแต่ข้อสมมติเชิงเส้นยังคงพอใจR2

ฉันจะพูดคุยกัน:

(1) สูงแต่สมมติฐานเชิงเส้นที่ยังคงมีความผิดในทางที่สำคัญ:R2เคล็ดลับที่นี่คือการจัดการความจริงที่ว่าความสัมพันธ์ที่มีความสำคัญมากที่จะผิดปกติ สมมติว่าคุณมีตัวทำนายที่สร้างขึ้นจากการกระจายแบบผสมที่เป็นมาตรฐานปกติของเวลาและมวลจุดที่อีกและตัวแปรตอบกลับที่ X 1 , . . , X n 99%M1%X1,...,Xn99%M1%

Yi={Ziif XiMMif Xi=M

ที่และเป็นค่าคงที่บวกมีขนาดใหญ่กว่าเช่น 5 จากนั้นและจะมีความสัมพันธ์เกือบสมบูรณ์แบบ:ZiN(μ,1)Mμμ=0,M=105XiYi

u = runif(1e4)>.99
x = rnorm(1e4)
x[which(u==1)] = 1e5
y = rnorm(1e4)
y[which(x==1e5)] = 1e5
cor(x,y)
[1] 1

แม้จะมีความจริงที่ว่าคาดว่าค่าตัวของรับไม่เป็นเชิงเส้น - ในความเป็นจริงมันเป็นฟังก์ชั่นขั้นตอนที่ต่อเนื่องและคาดว่าค่าตัวของไม่ได้ขึ้นอยู่กับยกเว้นเมื่อMYiXiYiXiXi=M

(2) ต่ำแต่ข้อสมมติเชิงเส้นยังคงเป็นที่พอใจ:R2เคล็ดลับที่นี่คือการทำให้จำนวนของ "เสียง" รอบแนวโน้มเชิงเส้นมีขนาดใหญ่ สมมติว่าคุณมีตัวทำนายและการตอบสนองและตัวแบบXiYi

Yi=β0+β1Xi+εi

เป็นรูปแบบที่ถูกต้อง ดังนั้นค่าเฉลี่ยตามเงื่อนไขของได้รับเป็นฟังก์ชันเชิงเส้นของดังนั้นสมมติฐานเชิงเส้นจึงเป็นที่พอใจ ถ้ามีขนาดใหญ่เมื่อเทียบกับดังนั้นจะมีขนาดเล็ก ตัวอย่างเช่น,X ฉันX ฉันv a r ( ε ฉัน ) = σ 2 β 1 R 2YiXiXivar(εi)=σ2β1R2

x = rnorm(200)
y = 1 + 2*x + rnorm(200,sd=5)
cor(x,y)^2
[1] 0.1125698

ดังนั้นการประเมินสมมติฐานเชิงเส้นตรงจึงไม่ใช่เรื่องของการดูว่าอยู่ในช่วงที่ยอมรับได้R2หรือไม่ แต่มันเป็นเรื่องของการตรวจสอบแผนการกระจายระหว่างตัวทำนาย / ค่าที่ทำนายและการตอบสนองและทำการตัดสินใจ

Re: จะต้องทำอย่างไรเมื่อข้อสรุปเชิงเส้นตรงไม่ตรงและเปลี่ยนค่า IV ก็ไม่ได้ช่วย !!

เมื่อไม่ใช่เชิงเส้นเป็นปัญหาอาจเป็นประโยชน์ในการดูพล็อตของส่วนที่เหลือเทียบกับตัวทำนายแต่ละตัว - หากมีรูปแบบที่สังเกตเห็นได้ชัดเจนสิ่งนี้สามารถบ่งชี้ว่าไม่ใช่เชิงเส้นในตัวทำนายนั้น ตัวอย่างเช่นถ้าพล็อตนี้แสดงความสัมพันธ์ "รูปชาม" ระหว่างส่วนที่เหลือกับตัวทำนายสิ่งนี้อาจบ่งบอกถึงกำลังสองที่หายไปในคำทำนายนั้น รูปแบบอื่น ๆ อาจระบุรูปแบบการทำงานที่แตกต่างกัน ในบางกรณีอาจเป็นไปได้ว่าคุณยังไม่ได้ลองแปลงที่ถูกต้องหรือว่าตัวแบบที่แท้จริงไม่ได้เป็นเชิงเส้นในตัวแปรที่แปลงแล้ว (แม้ว่าอาจเป็นไปได้ที่จะหาการประมาณที่สมเหตุสมผล)

เกี่ยวกับตัวอย่างของคุณ:ขึ้นอยู่กับพล็อตที่คาดการณ์และที่เกิดขึ้นจริง (พล็อตที่ 1 และ 3 ในโพสต์ต้นฉบับ) สำหรับตัวแปรตามสองที่แตกต่างกันดูเหมือนว่าสำหรับสมมติฐานทั้งสองนั้น ในพล็อตแรกดูเหมือนว่าอาจมีความแตกต่างกันเล็กน้อย แต่ความสัมพันธ์ระหว่างทั้งสองนั้นดูเป็นเส้นตรง ในพล็อตที่สองความสัมพันธ์มีลักษณะเป็นเส้นตรง แต่ความแข็งแกร่งของความสัมพันธ์ค่อนข้างอ่อนแอตามที่ระบุโดยกระจายขนาดใหญ่รอบเส้น (เช่นความแปรปรวนข้อผิดพลาดขนาดใหญ่) - นี่คือเหตุผลที่คุณเห็นต่ำR2


4

แน่นอนว่าการปรับความนุ่มนวลของผิวให้เรียบเหมือน LOESS และการเห็นความกระชับของเส้นตรงเป็นวิธีหนึ่งในการประเมินความเป็นเส้นตรงของฟังก์ชัน ฉันต้องการพูดถึงประเด็นหลักของคำถามซึ่งเป็นขอบเขตที่ R สแควร์สามารถวัดความเป็นเชิงเส้นได้ ชัดเจนตั้งแต่หมายถึงข้อมูลตกลงบนเส้นอย่างสมบูรณ์ แต่คำถามที่ว่าใกล้ถึงจะต้องพิจารณาว่าโค้งเป็นเส้นตรงนั้นยากกว่าที่จะฟัง ขนาดของกลุ่มตัวอย่างแน่นอนเป็นปัจจัย หากคุณมีเพียง 3 ถึง 6 คะแนน1 R 2 R 2 2 1 < x < 2 R 2 R 2R2=11R2R2จะสูงมากโดยไม่คำนึงถึงรูปร่างของฟังก์ชันที่อาจแสดงข้อมูล แม้ในกลุ่มตัวอย่างขนาดใหญ่ภูมิภาคที่มีการรวบรวมข้อมูล ฟังก์ชันที่ไม่ใช่เชิงเส้นจะมีลักษณะเป็นเส้นตรงในตัวเครื่อง นี่เป็นเรื่องจริงสำหรับพหุนาม พิจารณาฟังก์ชันการ y = x 2 ในภูมิภาคลักษณะการทำงานเชิงเส้นและข้อมูลที่สร้างขึ้นจากรุ่นนี้ด้วยเสียงที่ดังสารเติมแต่งเล็ก ๆ น้อย ๆ จะนำไปสู่มูลค่าสูงสำหรับ 2 ในทางกลับกันโมเดลอาจมีลักษณะเป็นเส้นตรงอย่างสมบูรณ์ แต่มีองค์ประกอบเสียงรบกวนขนาดใหญ่และอาจมีขนาดเล็ก21<x<2R2R2


ขอบคุณไมเคิล ขนาดตัวอย่างของฉันคือ 302 ฉันจะขอบคุณถ้าคุณสามารถดูผลการทดสอบได้ที่นี่และดูว่าเป็นไปได้และสามารถรายงานได้ TQ
Cyrus

@Crusy นี่เป็นสิ่งที่ยาก ส่วนที่เหลือดูเหมือนว่าพวกเขาพอดีกับปกติดีจริงๆและไม่มีอะไรที่ฉันเห็นว่ามันจะผิดกับการถดถอยเชิงเส้น คุณมีข้อมูลเพียงพอ R จัตุรัสอยู่ในระดับต่ำเพราะองค์ประกอบเสียงแบบสุ่มมีขนาดใหญ่ พล็อต LOESS แสดงความโค้งบางส่วนที่ค่าล่างของตัวแปรอิสระ แต่ฉันไม่พบสิ่งที่น่าเชื่อถือ ฉันคิดว่ามันน่าจะเป็นแบบเส้นตรงและมันแสดงให้เห็นว่าเหตุใด R Square จึงไม่ใช่ตัวบ่งชี้ที่ดีในกรณีนี้
Michael R. Chernick

ขอบคุณ Michael :) ใช่มันช่างน่างงจริงๆ! สมมติฐานทั้งหมดตรงตามความคาดหวัง แต่เป็นเส้นตรง ดังที่คุณเห็นในกราฟที่ 1 ด้านบน quadratic R2 (0.199) นั้นใหญ่กว่า linear R2 (0.172) ซึ่งหมายความว่ามันสามารถทำนายโมเดลได้ดีกว่า ที่จริงแล้วเมื่อฉันทำการถดถอยกำลังสอง (โดยการเพิ่ม SC2) พล็อตการกระจายในผลลัพธ์นั้นต่างกันมาก! ผมงงไปหมดแล้ว! ไม่รู้จะทำอย่างไรกับโมเดลนี้! มันเป็นปัญหาเดียวคือความเป็นเส้นตรงต่ำ ฉันไม่รู้วิธีที่จะพิสูจน์ความเป็นเชิงเส้นถ้าฉันใส่พล็อตกระจายในรายงานของฉัน การถดถอยแบบสมการกำลังสองยังล้มเหลว 2meet สมมติฐานความเป็นเนื้อเดียวกัน ช่วยเหลือ
Cyrus

1
ฉันไม่คิดว่ามันน่างง มันดูเป็นเส้นตรงพอสมควร มีความแปรปรวนจำนวนมากซึ่งเป็นสาเหตุที่ R สแควร์ต่ำ ฉันคิดว่าวิธีเดียวที่คุณสามารถลดความแปรปรวนก็คือการหาตัวแปรอธิบายอีก
Michael R. Chernick
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.