การถดถอยเชิงเส้นและการถดถอยโลจิสติกต่างกันอย่างไร
คุณจะใช้แต่ละครั้งเมื่อใด
การถดถอยเชิงเส้นและการถดถอยโลจิสติกต่างกันอย่างไร
คุณจะใช้แต่ละครั้งเมื่อใด
คำตอบ:
การถดถอยเชิงเส้นใช้สมการเชิงเส้นทั่วไปที่Yเป็นตัวแปรขึ้นอยู่อย่างต่อเนื่องและตัวแปรอิสระX ฉันมีมักจะต่อเนื่อง ( แต่ยังสามารถเป็นไบนารีเช่นเมื่อรูปแบบเชิงเส้นจะถูกนำมาใช้ ใน t-test) หรือโดเมนที่ไม่ต่อเนื่องอื่น ๆ εเป็นคำที่แปรปรวนที่ไม่ได้อธิบายได้ด้วยรูปแบบและมักจะถูกเรียกว่าเพียงแค่ "ความผิดพลาด" แล้ว ค่าที่ขึ้นกับแต่ละตัวซึ่งแทนด้วยY jสามารถแก้ไขได้โดยการแก้ไขสมการเล็กน้อย: Y j =
การถดถอยแบบลอจิสติกเป็นขั้นตอนแบบจำลองเชิงเส้น (GLM) อีกรูปแบบหนึ่งโดยใช้สูตรพื้นฐานเดียวกัน แต่แทนที่จะเป็นแบบต่อเนื่องมันจะลดความน่าจะเป็นของผลลัพธ์ที่เป็นหมวดหมู่ ในรูปแบบที่ง่ายที่สุดนี่หมายความว่าเรากำลังพิจารณาตัวแปรผลลัพธ์เพียงอันเดียวและสองสถานะของตัวแปรนั้น - เป็น 0 หรือ 1
สมการสำหรับความน่าจะเป็นของมีลักษณะดังนี้: P ( Y = 1 ) = 1
ตัวแปรอิสระของคุณสามารถจะต่อเนื่องหรือไบนารี สัมประสิทธิ์การถดถอยb ฉันสามารถยกกำลังให้คุณเปลี่ยนแปลงอัตราต่อรองของYต่อการเปลี่ยนแปลงในX iเช่นO d d s = P ( Y = 1 )
ตัวอย่าง: หากคุณต้องการดูว่าดัชนีมวลกายทำนายระดับคอเลสเตอรอลในเลือด (การวัดต่อเนื่อง) คุณจะใช้การถดถอยเชิงเส้นตามที่อธิบายไว้ที่ด้านบนของคำตอบของฉัน หากคุณต้องการดูว่า BMI ทำนายโอกาสของการเป็นโรคเบาหวาน (การวินิจฉัยแบบไบนารี) คุณจะใช้การถดถอยแบบโลจิสติกส์
การถดถอยเชิงเส้นใช้เพื่อสร้างความสัมพันธ์ระหว่างตัวแปรที่ขึ้นกับและอิสระซึ่งมีประโยชน์ในการประมาณค่าตัวแปรที่ขึ้นกับผลลัพธ์ในกรณีการเปลี่ยนแปลงตัวแปรอิสระ ตัวอย่างเช่น:
การใช้การถดถอยเชิงเส้นความสัมพันธ์ระหว่าง Rain (R) และ Umbrella Sales (U) พบว่า - U = 2R + 5000
สมการนี้บอกว่าสำหรับทุก ๆ มิลลิเมตรของฝนมีความต้องการร่ม 5002 ตัว ดังนั้นโดยใช้ Simple Regression คุณสามารถประมาณค่าของตัวแปรได้
Logistic Regressionในอีกทางหนึ่งใช้ในการตรวจสอบความน่าจะเป็นของเหตุการณ์ และเหตุการณ์นี้ถูกจับในรูปแบบไบนารีเช่น 0 หรือ 1
ตัวอย่าง - ฉันต้องการตรวจสอบว่าลูกค้าจะซื้อผลิตภัณฑ์ของฉันหรือไม่ สำหรับสิ่งนี้ฉันจะเรียกใช้ Logistic Regression บนข้อมูล (ที่เกี่ยวข้อง) และตัวแปรตามของฉันจะเป็นตัวแปรไบนารี (1 = ใช่; 0 = ไม่ใช่)
ในแง่ของการเป็นตัวแทนกราฟิกการถดถอยเชิงเส้นให้เส้นตรงเป็นเอาท์พุทเมื่อค่าถูกพล็อตบนกราฟ ในขณะที่การถดถอยโลจิสติกให้เส้น S-Shaped
อ้างอิงจาก Mohit Khurana
ความแตกต่างได้รับการตัดสินโดย DocBuckets และ Pardis แต่ฉันต้องการเพิ่มวิธีหนึ่งในการเปรียบเทียบประสิทธิภาพที่ไม่ได้กล่าวถึง
การถดถอยเชิงเส้นมักจะถูกแก้ไขโดยการลดความคลาดเคลื่อนกำลังสองน้อยที่สุดของแบบจำลองให้กับข้อมูล การถดถอยโลจิสติกเป็นสิ่งที่ตรงกันข้าม การใช้ฟังก์ชั่นการสูญเสียโลจิสติกส์ทำให้เกิดข้อผิดพลาดขนาดใหญ่ที่จะได้รับการลงโทษให้คงที่แบบไม่แสดงผล
พิจารณาการถดถอยเชิงเส้นของผลลัพธ์ {0,1} หมวดหมู่เพื่อดูว่าทำไมปัญหานี้ถึงเกิดขึ้น หากแบบจำลองของคุณทำนายผลที่ได้คือ 38 เมื่อความจริงเป็น 1 คุณก็ไม่เสียอะไรเลย การถดถอยเชิงเส้นจะพยายามลดค่าที่ 38 โลจิสติกส์ไม่มาก (เท่า)