การถดถอยเชิงเส้นและการถดถอยโลจิสติกต่างกันอย่างไร


242

เมื่อเรามีการคาดการณ์มูลค่าของที่เด็ดขาด (หรือไม่ต่อเนื่อง) ผลที่เราใช้การถดถอยโลจิสติก ฉันเชื่อว่าเราใช้การถดถอยเชิงเส้นเพื่อทำนายค่าของผลลัพธ์ที่ได้จากค่าอินพุต

จากนั้นความแตกต่างระหว่างสองวิธีคืออะไร?

คำตอบ:


270
  • ผลลัพธ์การถดถอยเชิงเส้นเป็นความน่าจะเป็น

    มันล่อลวงให้ใช้เอาต์พุตการถดถอยเชิงเส้นเป็นความน่าจะเป็น แต่เป็นความผิดพลาดเพราะผลลัพธ์อาจเป็นลบและมากกว่า 1 ในขณะที่ความน่าจะเป็นไม่สามารถทำได้ เนื่องจากการถดถอยอาจสร้างความน่าจะเป็นที่อาจน้อยกว่า 0 หรือมากกว่า 1 จึงแนะนำการถดถอยโลจิสติก

    ที่มา: http://gerardnico.com/wiki/data_mining/simple_logistic_regression

    ป้อนคำอธิบายรูปภาพที่นี่

  • ผล

    ในการถดถอยเชิงเส้นผลลัพธ์ (ตัวแปรตาม) เป็นต่อเนื่อง มันสามารถมีค่าที่เป็นไปได้จำนวนหนึ่ง

    ในการถดถอยโลจิสติกผลลัพธ์ (ตัวแปรตาม) มีเพียงจำนวน จำกัด ของค่าที่เป็นไปได้

  • ตัวแปรตาม

    การถดถอยโลจิสติกจะใช้เมื่อตัวแปรตอบสนองเป็นหมวดหมู่ในลักษณะ ตัวอย่างเช่นใช่ / ไม่ใช่, จริง / เท็จ, แดง / เขียว / น้ำเงิน, 1st / 2nd / 3rd / 4th, ฯลฯ

    การถดถอยเชิงเส้นจะใช้เมื่อตัวแปรตอบสนองของคุณต่อเนื่อง ตัวอย่างเช่นน้ำหนักส่วนสูงจำนวนชั่วโมงเป็นต้น

  • สมการ

    การถดถอยเชิงเส้นให้สมการซึ่งอยู่ในรูปแบบ Y = mX + C หมายถึงสมการที่มีระดับ 1

    อย่างไรก็ตามการถดถอยโลจิสติกให้สมการซึ่งเป็นรูปแบบ Y = e X + e -X

  • การตีความค่าสัมประสิทธิ์

    ในการถดถอยเชิงเส้นการตีความสัมประสิทธิ์ของตัวแปรอิสระค่อนข้างตรงไปตรงมา (เช่นการคงที่ตัวแปรอื่น ๆ ทั้งหมดคงที่ด้วยการเพิ่มหน่วยในตัวแปรนี้คาดว่าตัวแปรตามที่คาดว่าจะเพิ่ม / ลดลง xxx)

    อย่างไรก็ตามในการถดถอยโลจิสติกขึ้นอยู่กับครอบครัว (ทวินามปัวซอง ฯลฯ ) และการเชื่อมโยง (บันทึก logit ผกผันบันทึก ฯลฯ ) ที่คุณใช้การตีความจะแตกต่างกัน

  • เทคนิคการลดข้อผิดพลาด

    การถดถอยเชิงเส้นใช้วิธีกำลังสองน้อยที่สุดธรรมดาเพื่อลดข้อผิดพลาดและมาถึงจุดที่เหมาะสมที่สุดในขณะที่การถดถอยโลจิสติกใช้วิธีการโอกาสสูงสุดในการแก้ปัญหา

    การถดถอยเชิงเส้นมักจะถูกแก้ไขโดยการลดความคลาดเคลื่อนกำลังสองน้อยที่สุดของแบบจำลองให้กับข้อมูลดังนั้นข้อผิดพลาดขนาดใหญ่จึงถูกลงโทษแบบจตุรัส

    การถดถอยโลจิสติกเป็นสิ่งที่ตรงกันข้าม การใช้ฟังก์ชั่นการสูญเสียโลจิสติกส์ทำให้เกิดข้อผิดพลาดขนาดใหญ่ที่จะถูกลงโทษให้คงที่แบบไม่แสดงผล

    พิจารณาการถดถอยเชิงเส้นในผลลัพธ์หมวดหมู่ {0, 1} เพื่อดูสาเหตุของปัญหา หากแบบจำลองของคุณทำนายผลที่ได้คือ 38 เมื่อความจริงคือ 1 แสดงว่าคุณไม่ได้สูญเสียอะไรเลย การถดถอยเชิงเส้นจะพยายามที่จะลดที่ 38, โลจิสติกจะไม่ (เท่า) 2


มีความแตกต่างระหว่าง Y = e ^ X / 1 + e ^ -X และ Y = e ^ X + e ^ -X หรือไม่
MMS

3
e ^ X / 1? อะไรก็ตามหารด้วย 1 ก็เหมือนกัน ดังนั้นจึงไม่มีความแตกต่าง ฉันแน่ใจว่าคุณหมายถึงถามอย่างอื่น
spacewanderer

ฉันรู้ว่านี่เป็นเธรดเก่า แต่ได้รับคำสั่งของคุณ "การถดถอยโลจิสติกส์จะใช้เมื่อตัวแปรตอบสนองเป็นหมวดหมู่ตามธรรมชาติตัวอย่างเช่นใช่ / ไม่ใช่จริง / เท็จแดง / เขียว / น้ำเงิน 1/2/3/4 ฯลฯ "; อะไรคือความแตกต่างระหว่างสิ่งนี้กับการจำแนกประเภท?
kingJulian

@kingJulian Logistic Regression ใช้สำหรับการจำแนกประเภทแน่นอน ตรวจสอบนี้ออกคุณอาจพบว่ามีประโยชน์เท่าที่ฉันมี
QuantumHoneybees

@kingJulian: การถดถอยโลจิสติกเป็นเทคนิคการจัดหมวดหมู่และการจัดหมวดหมู่หมายถึงอัลกอริทึมหลายอย่างที่พยายามที่จะทำนายผลไม่กี่
user3676305

204

ในการถดถอยเชิงเส้นผลลัพธ์ (ตัวแปรตาม) เป็นต่อเนื่อง มันสามารถมีค่าที่เป็นไปได้จำนวนหนึ่ง ในการถดถอยโลจิสติกผลลัพธ์ (ตัวแปรตาม) มีเพียงจำนวน จำกัด ของค่าที่เป็นไปได้

ตัวอย่างเช่นถ้า X มีพื้นที่เป็นตารางฟุตของบ้านและ Y มีราคาขายที่สอดคล้องกันของบ้านเหล่านั้นคุณสามารถใช้การถดถอยเชิงเส้นเพื่อทำนายราคาขายเป็นฟังก์ชันของขนาดบ้าน ในขณะที่ราคาขายเป็นไปได้ที่อาจจะไม่เป็นจริงใด ๆ ที่มีค่าที่เป็นไปจำนวนมากเพื่อให้รูปแบบการถดถอยเชิงเส้นจะได้รับเลือก

หากคุณต้องการทำนายตามขนาดไม่ว่าบ้านจะขายมากกว่า $ 200K หรือไม่คุณจะใช้การถดถอยแบบโลจิสติกส์ ผลลัพธ์ที่เป็นไปได้คือใช่บ้านจะขายมากกว่า $ 200K หรือไม่ใช่บ้านจะไม่


3
ในแอนดรูว์ตัวอย่างการถดถอยแบบโลจิสติกส์ของโรคมะเร็งฉันสามารถวาดเส้นแนวนอน y = .5 (ซึ่งเห็นได้ชัดผ่าน y = .5) สิบถ้ามีจุดใดก็ตามที่อยู่เหนือเส้นนี้ y = .5 => + ve, else -ve . ดังนั้นทำไมฉันต้องมีการถดถอยโลจิสติก ฉันแค่พยายามที่จะเข้าใจคำอธิบายกรณีที่ดีที่สุดเพื่อใช้การถดถอยโลจิสติก?
vinita

@ Winita: ที่นี่หรือที่นี่เป็นตัวอย่างง่ายๆสำหรับการไม่ใช้การถดถอยเชิงเส้นแล้วนวดถือสำหรับปัญหาการจำแนก
Ankush Shah

3
การถดถอยโลจิสติกเป็นตัวจําแนกที่ดีกว่าในข้อมูลที่เป็นหมวดหมู่มากกว่าการถดถอยเชิงเส้น มันใช้ฟังก์ชั่นข้อผิดพลาดข้ามเอนโทรปีแทนที่จะเป็นสี่เหลี่ยมน้อยที่สุด ก่อนหน้านี้มันไม่ได้เป็นความรู้สึกไวต่อค่าผิดปกติและยังไม่ลงโทษจุดข้อมูลที่ "ถูกต้อง" เหมือนที่เป็นสี่เหลี่ยมน้อยที่สุด
Marcel_marcel1991

15

เพียงเพิ่มคำตอบก่อนหน้า

การถดถอยเชิงเส้น

หมายถึงการแก้ไขปัญหาของการทำนาย / ประมาณค่าเอาต์พุตสำหรับองค์ประกอบ X ที่ระบุ (พูด f (x)) ผลลัพธ์ของการทำนายเป็นฟังก์ชัน cotinuous ซึ่งค่าอาจเป็นบวกหรือลบ ในกรณีนี้โดยปกติคุณจะมีชุดข้อมูลที่ป้อนข้อมูลที่มีจำนวนมากของตัวอย่างและมูลค่าการส่งออกสำหรับหนึ่งของพวกเขาแต่ละคน เป้าหมายคือเพื่อให้พอดีกับแบบจำลองกับชุดข้อมูลนี้ดังนั้นคุณจึงสามารถคาดการณ์เอาท์พุทสำหรับองค์ประกอบที่แตกต่าง / ไม่เคยเห็นใหม่ ต่อไปนี้เป็นตัวอย่างคลาสสิกของการติดตั้งเส้นตรงเพื่อกำหนดจุด แต่โดยทั่วไปการถดถอยเชิงเส้นสามารถนำมาใช้เพื่อให้พอดีกับแบบจำลองที่ซับซ้อนมากขึ้น (ใช้องศาพหุนามสูงกว่า):

ป้อนคำอธิบายรูปภาพที่นี่ การแก้ไขปัญหา

การถดถอย Linea สามารถแก้ไขได้สองวิธี:

  1. สมการปกติ (วิธีแก้ปัญหาโดยตรง)
  2. โคตรลาด (วิธีวนซ้ำ)

การถดถอยโลจิสติก

มีวัตถุประสงค์เพื่อแก้ไขปัญหาการจัดหมวดหมู่ที่ให้องค์ประกอบที่คุณต้องจัดประเภทเดียวกันในหมวดหมู่ N ตัวอย่างทั่วไปเป็นตัวอย่างที่ได้รับจดหมายเพื่อจำแนกว่าเป็นสแปมหรือไม่หรือให้ยานพาหนะค้นหาเพื่อหมวดหมู่ที่มันเป็น (รถยนต์, รถบรรทุก, รถตู้, ฯลฯ .. ) โดยทั่วไปเอาต์พุตเป็นชุด จำกัด ของค่าที่สืบทอด

การแก้ไขปัญหา

ปัญหาการถดถอยโลจิสติกสามารถแก้ไขได้โดยใช้การไล่ระดับสีแบบไล่ระดับ การกำหนดโดยทั่วไปคล้ายกับการถดถอยเชิงเส้นความแตกต่างเพียงอย่างเดียวคือการใช้ฟังก์ชันสมมติฐานที่แตกต่างกัน ในการถดถอยเชิงเส้นสมมติฐานมีรูปแบบ:

h(x) = theta_0 + theta_1*x_1 + theta_2*x_2 .. 

โดยทีต้าเป็นโมเดลที่เราพยายามทำและ [1, x_1, x_2, .. ] เป็นเวกเตอร์อินพุต ในการถดถอยโลจิสติกฟังก์ชันสมมติฐานแตกต่างกัน:

g(x) = 1 / (1 + e^-x)

ป้อนคำอธิบายรูปภาพที่นี่

ฟังก์ชั่นนี้มีคุณสมบัติที่ดีโดยทั่วไปแล้วมันจะจับคู่ค่าใด ๆ กับช่วง [0,1] ซึ่งเหมาะสำหรับจัดการกับความเป็นไปได้ในระหว่างการแบ่งประเภท ตัวอย่างเช่นในกรณีของการจำแนกเลขฐานสอง g (X) สามารถตีความได้ว่าน่าจะเป็นของชั้นบวก ในกรณีนี้โดยปกติคุณจะมีคลาสที่แตกต่างกันซึ่งคั่นด้วยขอบเขตการตัดสินใจซึ่งโดยทั่วไปจะเป็นเส้นโค้งที่ตัดสินใจแยกระหว่างคลาสที่แตกต่างกัน ต่อไปนี้เป็นตัวอย่างของชุดข้อมูลที่แยกออกเป็นสองคลาส

ป้อนคำอธิบายรูปภาพที่นี่


7

พวกเขาทั้งคู่มีความคล้ายคลึงกันในการแก้ปัญหา แต่อย่างที่คนอื่น ๆ บอกว่าหนึ่ง (Logistic Regression) สำหรับการคาดคะเนหมวดหมู่ "พอดี" (Y / N หรือ 1/0) และอื่น ๆ (Linear Regression) ค่า

ดังนั้นหากคุณต้องการที่จะทำนายว่าคุณเป็นมะเร็ง Y / N (หรือความน่าจะเป็น) - ใช้โลจิสติก หากคุณต้องการทราบจำนวนปีที่คุณจะอยู่ - ใช้การถดถอยเชิงเส้น!


6

ความแตกต่างพื้นฐาน:

การถดถอยเชิงเส้นนั้นเป็นแบบจำลองการถดถอยซึ่งหมายความว่ามันจะให้ผลลัพธ์ที่ไม่รอบคอบ / ต่อเนื่องของฟังก์ชัน ดังนั้นวิธีการนี้ให้คุณค่า ตัวอย่างเช่น: รับ x อะไรคือ f (x)

ตัวอย่างเช่นชุดฝึกอบรมของปัจจัยต่าง ๆ และราคาของทรัพย์สินหลังจากการฝึกอบรมเราสามารถให้ปัจจัยที่จำเป็นในการกำหนดสิ่งที่จะเป็นราคาอสังหาริมทรัพย์

การถดถอยโลจิสติกนั้นเป็นอัลกอริทึมการจำแนกแบบไบนารีซึ่งหมายความว่าที่นี่จะมีผลลัพธ์ที่มีมูลค่าอย่างรอบคอบสำหรับการทำงาน ตัวอย่างเช่น: สำหรับ x ที่กำหนดหาก f (x)> threshold แบ่งประเภทให้เป็น 1 และจัดประเภทเป็น 0

ตัวอย่างเช่นชุดของขนาดเนื้องอกสมองเป็นข้อมูลการฝึกอบรมเราสามารถใช้ขนาดเป็นข้อมูลป้อนเข้าเพื่อตรวจสอบว่าเป็นเนื้องอกของเนื้องอกในสมองหรือมะเร็ง ดังนั้นที่นี่ผลลัพธ์ที่ได้คือ 0 หรือ 1

* ที่นี่ฟังก์ชั่นนั้นเป็นฟังก์ชันสมมุติฐาน


5

พูดง่ายๆคือการถดถอยเชิงเส้นเป็นอัลกอริธึมการถดถอยซึ่งมีค่าที่เป็นไปได้อย่างต่อเนื่องและไม่สิ้นสุด การถดถอยโลจิสติกถือเป็นอัลกอริธึมลักษณนามลักษณนามไบนารี่ซึ่งส่งออก 'ความน่าจะเป็น' ของอินพุตที่เป็นของฉลาก (0 หรือ 1)


ขอบคุณพระเจ้าที่ฉันอ่านบันทึกของคุณเกี่ยวกับความน่าจะเป็น เป็นเรื่องเกี่ยวกับการเขียน logistic เป็นตัวจําแนกไบนารี
HashRocketSyntax

4

การถดถอยหมายถึงตัวแปรต่อเนื่องเชิงเส้นหมายถึงความสัมพันธ์เชิงเส้นระหว่าง y และ x Ex = คุณกำลังพยายามทำนายเงินเดือนจากประสบการณ์หลายปี ดังนั้นเงินเดือนคือตัวแปรอิสระ (y) และประสบการณ์ปีขึ้นอยู่กับตัวแปร (x) y = b0 + b1 * x1 การถดถอยเชิงเส้น เราพยายามหาค่าที่เหมาะสมที่สุดของค่าคงที่ b0 และ b1 ซึ่งจะทำให้เราได้เส้นที่เหมาะสมที่สุดสำหรับข้อมูลการสังเกตของคุณ มันคือสมการของเส้นที่ให้ค่าต่อเนื่องจาก x = 0 ถึงค่าที่มีขนาดใหญ่มาก บรรทัดนี้เรียกว่าโมเดลการถดถอยเชิงเส้น

การถดถอยโลจิสติกเป็นประเภทของเทคนิคการจำแนกประเภท ไม่หลงผิดจากคำศัพท์ถดถอย ที่นี่เราคาดการณ์ว่า y = 0 หรือ 1

ที่นี่เราต้องค้นหา p (y = 1) (ความสามารถในการล้างได้ของ y = 1) ที่ได้รับ x จาก formuale ด้านล่าง

prob

Probaibility p มีความสัมพันธ์กับ y โดย formuale ด้านล่าง

s

Ex = เราสามารถจำแนกประเภทของเนื้องอกที่มีโอกาสมากกว่า 50% ในการเป็นมะเร็งที่ 1 และเนื้องอกที่มีโอกาสน้อยกว่า 50% ที่จะเป็นมะเร็งเป็น 0 5

ที่นี่จุดสีแดงจะถูกทำนายเป็น 0 ในขณะที่จุดสีเขียวจะถูกทำนายเป็น 1


1

ในระยะสั้น: การถดถอยเชิงเส้นให้ผลผลิตอย่างต่อเนื่อง เช่นค่าใด ๆ ระหว่างช่วงของค่า Logistic Regression ให้ผลลัพธ์แบบไม่ต่อเนื่อง เช่นใช่ / ไม่ใช่ 0/1 ชนิดของเอาต์พุต


1

ไม่สามารถเห็นด้วยเพิ่มเติมกับความคิดเห็นข้างต้น เหนือสิ่งอื่นมีความแตกต่างเช่นกัน

ในการถดถอยเชิงเส้นจะมีการแจกแจงส่วนที่เหลือตามปกติ ในการถดถอยโลจิสติกเหลือจะต้องเป็นอิสระ แต่ไม่ได้กระจายตามปกติ

การถดถอยเชิงเส้นถือว่าการเปลี่ยนแปลงค่าคงที่ของตัวแปรอธิบายส่งผลให้เกิดการเปลี่ยนแปลงอย่างต่อเนื่องในตัวแปรตอบสนอง สมมติฐานนี้ไม่ได้เก็บไว้ถ้าค่าของตัวแปรตอบสนองแสดงถึงความน่าจะเป็น (ใน Logistic Regression)

GLM (โมเดลเชิงเส้นทั่วไป) ไม่ถือว่าความสัมพันธ์เชิงเส้นระหว่างตัวแปรตามและตัวแปรอิสระ อย่างไรก็ตามมันถือว่าความสัมพันธ์เชิงเส้นระหว่างฟังก์ชันลิงก์และตัวแปรอิสระในรูปแบบ logit


1
| Basis                                                           | Linear                                                                         | Logistic                                                                                                            |
|-----------------------------------------------------------------|--------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------------------|
| Basic                                                           | The data is modelled using a straight line.                                    | The probability of some obtained event is represented as a linear function of a combination of predictor variables. |
| Linear relationship between dependent and independent variables | Is required                                                                    | Not required                                                                                                        |
| The independent variable                                        | Could be correlated with each other. (Specially in multiple linear regression) | Should not be correlated with each other (no multicollinearity exist).                                              |

0

หากกล่าวไว้ในแบบจำลองการถดถอยเชิงเส้นกรณีทดสอบเพิ่มเติมมาถึงซึ่งอยู่ไกลจากขีด จำกัด (พูด = 0.5) สำหรับการทำนายของ y = 1 และ y = 0 จากนั้นในกรณีนั้นสมมติฐานจะเปลี่ยนไปและแย่ลงดังนั้นรูปแบบการถดถอยเชิงเส้นจึงไม่ได้ใช้สำหรับการจำแนกปัญหา

อีกปัญหาคือถ้าการจำแนกประเภทคือ y = 0 และ y = 1, h (x) สามารถ> 1 หรือ <0. ดังนั้นเราใช้การถดถอยโลจิสติกเป็น 0 <= h (x) <= 1


0

Logistic Regression ใช้ในการคาดการณ์ผลลัพธ์ที่เป็นหมวดหมู่เช่น Yes / No, Low / Medium / High ฯลฯ คุณมีการถดถอยโลจิสติก 2 ประเภทโดยพื้นฐานคือ Binary Logistic Regression (ใช่ / ไม่ใช่, อนุมัติ / ไม่อนุมัติ) หรือถดถอยโลจิสติกหลายระดับ / สูงตัวเลข 0-9 ฯลฯ )

ในทางกลับกันการถดถอยเชิงเส้นคือถ้าตัวแปรตาม (y) ของคุณนั้นต่อเนื่อง y = mx + c เป็นสมการถดถอยเชิงเส้นอย่างง่าย (m = ความชันและ c คือค่าตัดแกน y) การถดถอยหลายชั้นมีตัวแปรอิสระมากกว่า 1 ตัวแปร (x1, x2, x3 ... ฯลฯ )


0

ในการถดถอยเชิงเส้นผลลัพธ์จะต่อเนื่องในขณะที่การถดถอยโลจิสติกผลลัพธ์มีค่าที่เป็นไปได้จำนวน จำกัด เท่านั้น (ไม่ต่อเนื่อง)

ตัวอย่าง: ในสถานการณ์ค่าที่กำหนดของ x คือขนาดของพล็อตเป็นตารางฟุตจากนั้นทำนาย y เช่นอัตราของพล็อตมาภายใต้การถดถอยเชิงเส้น

หากคุณต้องการทำนายตามขนาดว่าพล็อตจะขายได้มากกว่า 300000 Rs หรือไม่คุณจะใช้การถดถอยแบบโลจิสติกส์แทน ผลลัพธ์ที่เป็นไปได้คือใช่พล็อตจะขายได้มากกว่า 300000 Rs หรือไม่


0

ในกรณีของการถดถอยเชิงเส้นผลลัพธ์จะต่อเนื่องในขณะที่ในกรณีของผลลัพธ์การถดถอยโลจิสติกจะไม่ต่อเนื่อง (ไม่ต่อเนื่อง)

ในการดำเนินการถดถอยเชิงเส้นเราจำเป็นต้องมีความสัมพันธ์เชิงเส้นระหว่างตัวแปรตามและตัวแปรอิสระ แต่เพื่อดำเนินการถดถอยโลจิสติกเราไม่จำเป็นต้องมีความสัมพันธ์เชิงเส้นระหว่างตัวแปรตามและตัวแปรอิสระ

การถดถอยเชิงเส้นเป็นข้อมูลเกี่ยวกับการปรับให้เป็นเส้นตรงในข้อมูลในขณะที่การถดถอยโลจิสติกเป็นเรื่องเกี่ยวกับการปรับเส้นโค้งให้เหมาะสมกับข้อมูล

การถดถอยเชิงเส้นเป็นอัลกอริทึมการถดถอยสำหรับการเรียนรู้ของเครื่องในขณะที่การถดถอยโลจิสติกเป็นขั้นตอนวิธีการจำแนกสำหรับการเรียนรู้ของเครื่อง

การถดถอยเชิงเส้นถือว่าการแจกแจงแบบเกาส์ (หรือปกติ) ของตัวแปรตาม การถดถอยโลจิสติกถือว่าการแจกแจงแบบทวินามของตัวแปรตาม

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.