การถดถอยเชิงเส้นและการถดถอยโลจิสติกต่างกันอย่างไร


122

การถดถอยเชิงเส้นและการถดถอยโลจิสติกต่างกันอย่างไร

คุณจะใช้แต่ละครั้งเมื่อใด


28
ในตัวแบบการถดถอยเชิงเส้นตัวแปรที่ขึ้นต่อกันของyจะถูกพิจารณาอย่างต่อเนื่องในขณะที่ในการถดถอยโลจิสติกมันเป็นหมวดหมู่คือไม่ต่อเนื่อง ในแอปพลิเคชั่นตัวก่อนจะถูกใช้ในการตั้งค่าการถดถอยในขณะที่ตัวหลังจะใช้สำหรับการจำแนกประเภทไบนารีหรือการจำแนกประเภทหลายคลาส
Pardis

แม้ว่าจะเขียนในบริบทที่แตกต่างกันมันอาจช่วยให้คุณอ่านคำตอบของฉันที่นี่: ความแตกต่างระหว่างโมเดล logit และ probitซึ่งมีข้อมูลมากมายเกี่ยวกับสิ่งที่เกิดขึ้นในการถดถอยโลจิสติกที่อาจช่วยให้คุณเข้าใจสิ่งเหล่านี้ดีขึ้น
gung

2
คำตอบก่อนหน้าทั้งหมดถูกต้อง แต่มีเหตุผลหลายประการที่คุณอาจชอบแบบจำลองการถดถอยเชิงเส้นแม้ว่าผลลัพธ์ของคุณจะเป็นขั้วสองขั้ว ผมเคยเขียนเกี่ยวกับเหตุผลที่นี่: statisticalhorizons.com/linear-vs-logistic
พอลฟอนฮิพเพล

คำตอบ:


111

การถดถอยเชิงเส้นใช้สมการเชิงเส้นทั่วไปที่Yเป็นตัวแปรขึ้นอยู่อย่างต่อเนื่องและตัวแปรอิสระX ฉันมีมักจะต่อเนื่อง ( แต่ยังสามารถเป็นไบนารีเช่นเมื่อรูปแบบเชิงเส้นจะถูกนำมาใช้ ใน t-test) หรือโดเมนที่ไม่ต่อเนื่องอื่น ๆ εเป็นคำที่แปรปรวนที่ไม่ได้อธิบายได้ด้วยรูปแบบและมักจะถูกเรียกว่าเพียงแค่ "ความผิดพลาด" แล้ว ค่าที่ขึ้นกับแต่ละตัวซึ่งแทนด้วยY jสามารถแก้ไขได้โดยการแก้ไขสมการเล็กน้อย: Y j =Y=b0+(biXi)+ϵYXiϵYjYj=b0+(biXij)+ϵj

การถดถอยแบบลอจิสติกเป็นขั้นตอนแบบจำลองเชิงเส้น (GLM) อีกรูปแบบหนึ่งโดยใช้สูตรพื้นฐานเดียวกัน แต่แทนที่จะเป็นแบบต่อเนื่องมันจะลดความน่าจะเป็นของผลลัพธ์ที่เป็นหมวดหมู่ ในรูปแบบที่ง่ายที่สุดนี่หมายความว่าเรากำลังพิจารณาตัวแปรผลลัพธ์เพียงอันเดียวและสองสถานะของตัวแปรนั้น - เป็น 0 หรือ 1Y

สมการสำหรับความน่าจะเป็นของมีลักษณะดังนี้: P ( Y = 1 ) = 1Y=1

P(Y=1)=11+e(b0+(biXi))

ตัวแปรอิสระของคุณสามารถจะต่อเนื่องหรือไบนารี สัมประสิทธิ์การถดถอยb ฉันสามารถยกกำลังให้คุณเปลี่ยนแปลงอัตราต่อรองของYต่อการเปลี่ยนแปลงในX iเช่นO d d s = P ( Y = 1 )XibiYXiOdds=P(Y=1)P(Y=0)=P(Y=1)1P(Y=1)ΔOdds=ebiΔOddsOdds(Xi+1)Odds(Xi)Y=1ebiXi

ตัวอย่าง: หากคุณต้องการดูว่าดัชนีมวลกายทำนายระดับคอเลสเตอรอลในเลือด (การวัดต่อเนื่อง) คุณจะใช้การถดถอยเชิงเส้นตามที่อธิบายไว้ที่ด้านบนของคำตอบของฉัน หากคุณต้องการดูว่า BMI ทำนายโอกาสของการเป็นโรคเบาหวาน (การวินิจฉัยแบบไบนารี) คุณจะใช้การถดถอยแบบโลจิสติกส์


1
ϵi

ดูเหมือนว่าฉันบิลว่าเขาหมายถึงการเขียนคือ (ตัวย่อละตินที่เป็น) มากกว่า ei
Michael Chernick

1
แต่ฉันไม่ได้อยู่ที่ยอดรวมของเลขชี้กำลัง ดูเหมือนว่าคำว่าเสียงรบกวนในแบบจำลองถูกนำไปที่นั่นโดยไม่ตั้งใจ ข้อสรุปเดียวควรอยู่เหนือทวิที่แสดงถึงค่าสัมประสิทธิ์ p สำหรับ c cvariates
Michael Chernick

9
P(Y=1)
P(Y=1)=11+exp{Xβ},
P(Y=1)=11+exp{(Xβ+ε)}

3
@samthebrand การถดถอยโลจิสติกไม่ใช่ไบนารีต่อ se มันสามารถใช้ในการจำลองข้อมูลที่มีการตอบสนองไบนารีผ่านความน่าจะเป็นที่อยู่ในช่วงระหว่าง 0 และ 1 ไปเสียบลงคอโพสต์บล็อกของฉันเกี่ยวกับเรื่องนี้ซึ่งควรล้างสับสนของคุณ
Ben

34

การถดถอยเชิงเส้นใช้เพื่อสร้างความสัมพันธ์ระหว่างตัวแปรที่ขึ้นกับและอิสระซึ่งมีประโยชน์ในการประมาณค่าตัวแปรที่ขึ้นกับผลลัพธ์ในกรณีการเปลี่ยนแปลงตัวแปรอิสระ ตัวอย่างเช่น:

การใช้การถดถอยเชิงเส้นความสัมพันธ์ระหว่าง Rain (R) และ Umbrella Sales (U) พบว่า - U = 2R + 5000

สมการนี้บอกว่าสำหรับทุก ๆ มิลลิเมตรของฝนมีความต้องการร่ม 5002 ตัว ดังนั้นโดยใช้ Simple Regression คุณสามารถประมาณค่าของตัวแปรได้

Logistic Regressionในอีกทางหนึ่งใช้ในการตรวจสอบความน่าจะเป็นของเหตุการณ์ และเหตุการณ์นี้ถูกจับในรูปแบบไบนารีเช่น 0 หรือ 1

ตัวอย่าง - ฉันต้องการตรวจสอบว่าลูกค้าจะซื้อผลิตภัณฑ์ของฉันหรือไม่ สำหรับสิ่งนี้ฉันจะเรียกใช้ Logistic Regression บนข้อมูล (ที่เกี่ยวข้อง) และตัวแปรตามของฉันจะเป็นตัวแปรไบนารี (1 = ใช่; 0 = ไม่ใช่)

ในแง่ของการเป็นตัวแทนกราฟิกการถดถอยเชิงเส้นให้เส้นตรงเป็นเอาท์พุทเมื่อค่าถูกพล็อตบนกราฟ ในขณะที่การถดถอยโลจิสติกให้เส้น S-Shaped

อ้างอิงจาก Mohit Khurana


8
Re: "การถดถอยเชิงเส้นใช้เพื่อสร้างความสัมพันธ์ระหว่างตัวแปร Dependent และ Indipendent" - นี่ก็เป็นจริงเกี่ยวกับการถดถอยโลจิสติก - มันเป็นเพียงว่าตัวแปรตามเป็นไบนารี
มาโคร

3
Logistic Regression ไม่เพียง แต่สำหรับการทำนายเหตุการณ์ไบนารี (คลาส) มันสามารถพูดคุยกับคลาส (การถดถอยโลจิสติกพหุนาม)2k
tgy

27

ความแตกต่างได้รับการตัดสินโดย DocBuckets และ Pardis แต่ฉันต้องการเพิ่มวิธีหนึ่งในการเปรียบเทียบประสิทธิภาพที่ไม่ได้กล่าวถึง

การถดถอยเชิงเส้นมักจะถูกแก้ไขโดยการลดความคลาดเคลื่อนกำลังสองน้อยที่สุดของแบบจำลองให้กับข้อมูล การถดถอยโลจิสติกเป็นสิ่งที่ตรงกันข้าม การใช้ฟังก์ชั่นการสูญเสียโลจิสติกส์ทำให้เกิดข้อผิดพลาดขนาดใหญ่ที่จะได้รับการลงโทษให้คงที่แบบไม่แสดงผล

พิจารณาการถดถอยเชิงเส้นของผลลัพธ์ {0,1} หมวดหมู่เพื่อดูว่าทำไมปัญหานี้ถึงเกิดขึ้น หากแบบจำลองของคุณทำนายผลที่ได้คือ 38 เมื่อความจริงเป็น 1 คุณก็ไม่เสียอะไรเลย การถดถอยเชิงเส้นจะพยายามลดค่าที่ 38 โลจิสติกส์ไม่มาก (เท่า)


ถ้าเช่นนั้นสถานการณ์ / กรณีที่ถูกลงโทษในโลจิสติกคือในกรณีใดที่เราจะมีความเหมาะสม
MSIS

1
ตรงกันข้าม: เมื่อใดก็ตามที่มีการเบี่ยงเบนจากขนาดใหญ่จะได้ผลลัพธ์ที่แย่กว่า ตัวอย่างเช่นการถดถอยแบบโลจิสติกส์นั้นช่วยให้คุณสามารถตีลูกดอกปาเป้าได้ แต่ก็ไม่สามารถทำให้เป้าดูดีได้ หรือในทำนองเดียวกันคิดว่าการพลาดท่าใกล้เคียงของบอร์ดนั้นเหมือนกับการเกาะติดเพื่อนบ้านของคุณ
J. Abrahamson

คำตอบที่ดี มีงานวิจัยใดที่ทำไปแล้วสร้างความเสียหายต่อประสิทธิภาพของโมเดลหรือไม่ ฉันหมายถึงว่าการถดถอยเชิงเส้นใช้เพื่อทำนายการตอบสนอง = {0,1} แทนที่จะเป็นการถดถอยโลจิสติก
Tagar
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.