การถดถอยเชิงเส้นสามารถมีนัยสำคัญได้หรือไม่หากข้อมูลไม่เป็นเชิงเส้น?


11

ฉันทำการถดถอยเชิงเส้นซึ่งออกมาพร้อมกับผลลัพธ์ที่สำคัญ แต่เมื่อฉันตรวจสอบการกระจายเชิงเส้นสำหรับเชิงเส้นฉันไม่มั่นใจว่าข้อมูลนั้นเป็นเส้นตรง

มีวิธีอื่นอีกไหมในการทดสอบความเป็นเชิงเส้นโดยไม่ต้องตรวจสอบล็อตเตอร์

การถดถอยเชิงเส้นจะมีนัยสำคัญหรือไม่ถ้าไม่ใช่เชิงเส้น

[แก้ไขเพื่อรวม scatterplots]

ป้อนคำอธิบายรูปภาพที่นี่

ป้อนคำอธิบายรูปภาพที่นี่

ป้อนคำอธิบายรูปภาพที่นี่

ป้อนคำอธิบายรูปภาพที่นี่


3
อาจมีการตีความคำถามหลายข้อและหลายคำตอบ (แต่โดยทั่วไปคำตอบคือใช่ในทุกกรณีและเนื่องจากผลลัพธ์ของคุณพิสูจน์ได้ว่าเป็นไปได้อย่างแน่นอนในกรณีของคุณ) คุณสามารถแสดง Scatterplot ได้ไหม? จากนั้นคนอื่น ๆ สามารถเข้าใจสิ่งที่คุณหมายถึงโดยข้อมูลที่ไม่ได้เป็นเชิงเส้นและในสิ่งที่รู้สึกว่าผลลัพธ์ที่สำคัญกลายเป็นปัจจุบัน
Sextus Empiricus

5
ดูstats.stackexchange.com/search?q=anscombe+quartetสำหรับตัวอย่างง่ายๆคลาสสิค ที่stats.stackexchange.com/a/152034/919ฉันโพสต์อัลกอริทึมที่สามารถสร้างตัวอย่างเพื่อให้เหมาะกับเกือบทุกสถานการณ์ที่คุณคิด
whuber

แน่นอนว่าการไม่สนใจ nolineararity แม้เมื่อแนวโน้มทั่วไปเป็นเชิงเส้นสามารถนำไปสู่การอนุมานที่ไม่เหมาะสมในการใช้งาน ตัวอย่างเช่นหากความสัมพันธ์ที่แท้จริงคือลดลงอย่างรวดเร็วจากนั้นแผ่ไปทั่วการตีความเชิงเส้นของคือลดลงตามจำนวนเฉลี่ยบางค่ามากกว่าค่าทั้งหมดของในขณะที่ความสัมพันธ์ที่แท้จริงคือลดลงอย่างรวดเร็วมากขึ้น ช่วงแคบมากและในช่วงที่เหลือของจะมากหรือน้อยได้รับผลกระทบ การตีความเชิงเส้นจะไม่ดีต่อผลการรักษาทางคลินิกหรือผลกระทบด้านค่าใช้จ่ายตามนโยบาย X Y X Y X XYXYXYXX
อเล็กซิส

นอกจากนี้: การถดถอยเชิงเส้นไม่สำคัญหรือไม่ แต่เป็นการทดสอบตัวอย่างเช่น , , ,อาจมีความหมายหรือไม่มีความเป็นอิสระในระดับหนึ่ง H 0 : β x = cH0:β0=cH0:βx=cH0:F=cH0:R2=c
อเล็กซิส

ขอบคุณสำหรับการตอบสนองและขอโทษสำหรับการตอบสนองช้า - ฉันไม่ได้ใช้เทคโนโลยี! ฉันได้แก้ไขโพสต์เพื่อรวม scattergraphs สำหรับการถดถอยที่สำคัญ คำแนะนำเกี่ยวกับวิธีการดำเนินการใด ๆ ที่จะได้รับการชื่นชมอย่างมาก
IntoTheBlue

คำตอบ:


18

ความสัมพันธ์แบบไม่เชิงเส้นแบบโมโนโพนิมักจะปรากฏขึ้นอย่างมีนัยสำคัญเมื่อสร้างแบบจำลองเป็นแบบเชิงเส้น หากความสัมพันธ์ไม่เป็นเชิงเส้นและไม่ใช่แบบโมโนโพนิกก็ขึ้นอยู่กับตัวอย่าง

ตัวอย่างของความสัมพันธ์ต่อเนื่องเป็นลอการิทึมและอำนาจแปลก ๆ เช่น 3 ตัวอย่างของความสัมพันธ์ต่อเนื่องไม่ใช่มีอำนาจแม้กระทั่งและ trigonomtric ฟังก์ชั่นเช่นxy=lnxy=x3y=x2y=sinx

ตัวอย่างเช่นหากตัวอย่างของคุณมีค่าสำหรับดังนั้นทำตัวเป็นน่าจะมีนัยสำคัญให้ดูพล็อต:x[1,1]y=sinxyx

ป้อนคำอธิบายรูปภาพที่นี่

อย่างไรก็ตามหากตัวอย่างของคุณอยู่ในการสร้างโมเดลเชิงเส้นจะไม่ทำงานเลย: x[0,π]ป้อนคำอธิบายรูปภาพที่นี่


13
+1 แต่โปรดทราบว่าคำที่ถูกต้องคือ "monotonic" "ซ้ำซาก" หมายถึงน่าเบื่อและน่าเบื่อผ่านการทำซ้ำ
whuber

22
@whuber แก้ไขคำตอบของฉัน แต่ต้องยอมรับว่า น่าเบื่อและน่าเบื่อเมื่อเทียบกับลอยตัวและสนุกสนานlnxsinx
Aksakal

+1 ฉันขอแนะนำให้นิยามความหมายของเสียงโมโนโทนิค
Mark White

ขอขอบคุณฉันได้อัปเดตโพสต์เพื่อให้มี Scatterplots แล้ว คำแนะนำเกี่ยวกับวิธีการดำเนินการใด ๆ ที่จะได้รับการชื่นชมอย่างมาก
IntoTheBlue

ฉันไม่รู้ว่ามีการทดสอบความเป็นเส้นตรงหรือเปล่า คุณสามารถเพิ่มคำถดถอยไม่เชิงเส้นและทดสอบสำคัญของพวกเขาเช่น 2 (xx¯)2
Aksakal

3

ใช่อักซากัลนั้นถูกต้องและการถดถอยเชิงเส้นอาจมีความสำคัญหากความสัมพันธ์ที่แท้จริงไม่ใช่เชิงเส้น การถดถอยเชิงเส้นจะค้นหาเส้นที่พอดีที่สุดผ่านข้อมูลของคุณและทดสอบอย่างง่ายว่าความชันนั้นแตกต่างจาก 0 อย่างมากหรือไม่

ก่อนที่จะพยายามหาแบบทดสอบเชิงสถิติสำหรับความไม่เป็นเชิงเส้นฉันขอแนะนำให้สะท้อนสิ่งที่คุณต้องการทำแบบจำลองก่อน คุณคาดหวังความสัมพันธ์เชิงเส้น (ไม่ใช่เชิงเส้น) ระหว่างตัวแปรสองตัวของคุณหรือไม่? คุณพยายามเปิดเผยอะไร ถ้ามันสมเหตุสมผลที่จะสมมติว่ามีความสัมพันธ์ที่ไม่ใช่เชิงเส้นเป็นตัวอย่างระหว่างความเร็วของรถยนต์และระยะเบรกคุณสามารถเพิ่มคำที่ยกกำลังสอง (หรือการแปลงอื่น ๆ ) ของตัวแปรอิสระของคุณ

นอกจากนี้การตรวจสอบข้อมูลของคุณ (scatterplot) เป็นวิธีที่มีประสิทธิภาพมากและเป็นขั้นตอนแรกที่สำคัญในการวิเคราะห์ของคุณ


เกือบได้รับการโหวตของฉันจนกระทั่ง "จากนั้นคุณสามารถเพิ่มคำที่ยกกำลังสอง (หรือการเปลี่ยนแปลงอื่น ๆ ) ของตัวแปรอิสระของคุณ" ความสัมพันธ์กำลังสองเป็นเพียงความสัมพันธ์แบบเชิงเส้น ฉันคิดว่าการถดถอยแบบไม่อิงพารามิเตอร์ซึ่งทำให้สมมติฐานทั่วไปเกี่ยวกับฟังก์ชันการทำงานแบบสัมพันธ์กับถึง (ตามด้วยการถดถอยเชิงเส้นและ / หรือการไม่เชิงเส้นตามความเหมาะสมหากจำเป็นต้องใช้การประมาณพารามิเตอร์) หรืออัลกอริทึม อาจเปลี่ยนเป็นค่าสัมประสิทธิ์ข้อมูลสูงสุดสำหรับวิธีทั่วไปที่เกินกว่าความสัมพันธ์ที่ใช้งานได้ YX
อเล็กซิส

นอกจากนี้: ยินดีต้อนรับสู่ CV, Pawel!
อเล็กซิส

2
@Alexis คุณถูกต้อง แต่การเพิ่มคำกำลังสองยังคงเป็นคำแนะนำที่เห็นได้ทั่วไปในบางตำราว่าเป็นวิธีที่รวดเร็วและสกปรกในการตรวจสอบความไม่เชิงเส้น (เข้าใจว่าไม่มีใครแนะนำว่ามันเป็นวิธีเดียวหรือแม้แต่วิธีแรกในการสร้างแบบจำลองความไม่เชิงเส้น) ไม่ค่อยเป็นห่วงเกี่ยวกับข้อความนั้น
whuber

+1 @whuber น่าเศร้าที่ฉันได้พบนักวิจัยนักเรียนและคณาจารย์ที่ฝึกเพิ่มคำกำลังสองเป็นครั้งแรกที่ตรวจสอบเกินกว่าแผนการกระจายเป็น "วิธีการทดสอบความไม่เชิงเส้น" โดยมีผลเชิงลบที่ถูกตีความว่าเป็น "เชิงเส้นเพียงพอ " (เงื่อนไขสมการกำลังสองมีประโยชน์จริง ๆ และฉันได้ใช้มันในการวิจัยของฉันเอง :) ฉันเดามุมมองของฉันเกี่ยวกับ "เร็วและสกปรก" คือสิ่งที่ได้รับการสอนง่ายกลายเป็นความเข้มงวดสำหรับนักวิจัยส่วนใหญ่ .. ฉันคิดว่าการถดถอยแบบไม่มีพารามิเตอร์นั้นเกี่ยวกับ "ง่าย" เป็นเส้นตรงและเป็นเครื่องมือที่ดีกว่าสำหรับการสำรวจ
อเล็กซิส

@Alexis ขอบคุณ ฉันคิดว่าคุณเข้าใจฉันผิด ฉันไม่ได้แนะนำให้เพิ่มคำศัพท์ยกกำลังสองเพื่อทดสอบความไม่เป็นเชิงเส้น แต่อาจมีกรณีสำหรับคำศัพท์ที่ยกกำลังสอง (หรือการเปลี่ยนแปลงอื่น ๆ ข้อมูลทางเศรษฐกิจมักจะถูกแปลงเป็นบันทึก) ฉันคิดว่าจำเป็นต้องมีความแตกต่างระหว่างการวิเคราะห์เชิงสำรวจและการอธิบาย หากมีหลักฐานยืนยันว่ามีความสัมพันธ์กำลังสองดังนั้นจำเป็นต้องทำการทดสอบนี้ สิ่งที่คุณเสนอคือวิธีการสำรวจเพิ่มเติม
Pawel

-2

ฉันเห็นด้วยกับทุกสิ่งที่อักกาลพูด แต่สำหรับคำถามแรกฉันคิดว่าคำตอบคือความสัมพันธ์ ความสัมพันธ์วัดขอบเขตที่มีความสัมพันธ์เชิงเส้นระหว่างชุดข้อมูล x และ y


2
โดย "คำถามแรก" คุณหมายถึง "มีวิธีอื่นอีกไหมในการทดสอบความเป็นเชิงเส้นโดยไม่ตรวจสอบ scatterplot?" ถ้าเป็นเช่นนั้นคำตอบจะมีความสัมพันธ์กันอย่างไร & "ทุกอย่างอักษะกัลพูดว่า" ถูกต้องในเวลาเดียวกัน เช่นไม่ใช่เส้นตรง แต่จะให้ความสัมพันธ์ที่สำคัญเนื่องจาก Aksakal บันทึกอย่างถูกต้อง ดังนั้นความสัมพันธ์อาจเป็นคำตอบ คุณช่วยอธิบายสิ่งที่คุณพูดที่นี่ได้ไหม? y=lnx
gung - Reinstate Monica

@gung ใช่ฉันทำ คุณคิดว่าเขาพูดอะไรผิด อนุญาตให้ฉันแนะนำว่าฉันเข้าใจในสิ่งที่คำว่าค่าเฉลี่ยเชิงเส้นและไม่ใช่เชิงเส้นและเช่นเดียวกับในคำตอบของ Aksakal มันง่ายมากที่จะหาตัวอย่างของตัวแปรที่มีความสัมพันธ์ที่แน่นอนและไม่ใช่เชิงเส้น อย่างไรก็ตามความสัมพันธ์เป็นตัวชี้วัดของความสัมพันธ์เชิงเส้นและความสัมพันธ์ของ +/- 1 หมายความว่าความสัมพันธ์เป็นเส้นตรงแน่นอน ความสัมพันธ์ใด ๆ ที่น้อยกว่านั่นหมายความว่าความสัมพันธ์นั้นเป็นเส้นตรง (ไม่ตรง) แต่มันอาจจะใกล้เคียงกันพอสมควร
Meh

1
OP "ดำเนินการถดถอยเชิงเส้นซึ่งออกมาพร้อมกับผลลัพธ์ที่สำคัญ" แต่ scatterplot บอกเป็นนัยว่าความสัมพันธ์ไม่ได้เป็นเชิงเส้น ความสัมพันธ์ก็น่าจะมีนัยสำคัญด้วยเช่นกันหากการถดถอยมีเพียง 1 ตัวแปร X ค่า p จากการถดถอยและค่าสหสัมพันธ์จะเท่ากัน แต่ถ้าความสัมพันธ์ไม่เป็นเส้นตรงแม้จะมีการถดถอยอย่างมีนัยสำคัญก็จะไม่เป็นเส้นตรงแม้จะมีความสัมพันธ์อย่างมีนัยสำคัญ ดังนั้นความสัมพันธ์ที่สำคัญไม่ใช่หลักฐานว่าความสัมพันธ์เป็นเส้นตรง
gung - Reinstate Monica

1
ยิ่งกว่านั้นคุณจะไม่ได้รับเว้นแต่ความสัมพันธ์นั้นจะถูกกำหนดไว้ ดังนั้นคุณเป็นอย่างดีสามารถมีความสัมพันธ์เชิงเส้น w / o การหา 1 นั่นคือการตรวจสอบว่าค่าของคือไม่ใช่วิธีที่ดีในการพิจารณาสิ่งนี้ r = 1 r 1r=1r=1r1
gung - Reinstate Monica

1
สิ่งนี้อาจฟังดูบอบบางเกินไปหรือแม้กระทั่ง nitpicking แต่ (a) ฉันยอมรับว่าความสัมพันธ์เป็นวิธีการวัดความเป็นเชิงเส้นของความสัมพันธ์แบบ bivariate - ซึ่งเป็นทฤษฎีบททางคณิตศาสตร์หลังจากทั้งหมด - แต่ (b) เป็นข้อเสนอทั่วไปฉันสงสัยว่า มันอาจถูกตีความว่าเป็นวิธีที่หยาบเกินกว่าที่จะประเมินความไม่เชิงเส้น หลักฐานของความไม่เชิงเส้นสามารถโดดเด่นในชุดข้อมูลที่มีความสัมพันธ์ตัวอย่างสัมบูรณ์สูงและไม่อยู่ในชุดข้อมูลที่มีความสัมพันธ์แบบสัมบูรณ์เล็กน้อย (cc @gung)
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.