เมื่อเรามีการคาดการณ์มูลค่าของที่เด็ดขาด (หรือไม่ต่อเนื่อง) ผลที่เราใช้การถดถอยโลจิสติก ฉันเชื่อว่าเราใช้การถดถอยเชิงเส้นเพื่อทำนายค่าของผลลัพธ์ที่ได้จากค่าอินพุต
จากนั้นความแตกต่างระหว่างสองวิธีคืออะไร?
เมื่อเรามีการคาดการณ์มูลค่าของที่เด็ดขาด (หรือไม่ต่อเนื่อง) ผลที่เราใช้การถดถอยโลจิสติก ฉันเชื่อว่าเราใช้การถดถอยเชิงเส้นเพื่อทำนายค่าของผลลัพธ์ที่ได้จากค่าอินพุต
จากนั้นความแตกต่างระหว่างสองวิธีคืออะไร?
คำตอบ:
ผลลัพธ์การถดถอยเชิงเส้นเป็นความน่าจะเป็น
มันล่อลวงให้ใช้เอาต์พุตการถดถอยเชิงเส้นเป็นความน่าจะเป็น แต่เป็นความผิดพลาดเพราะผลลัพธ์อาจเป็นลบและมากกว่า 1 ในขณะที่ความน่าจะเป็นไม่สามารถทำได้ เนื่องจากการถดถอยอาจสร้างความน่าจะเป็นที่อาจน้อยกว่า 0 หรือมากกว่า 1 จึงแนะนำการถดถอยโลจิสติก
ที่มา: http://gerardnico.com/wiki/data_mining/simple_logistic_regression
ผล
ในการถดถอยเชิงเส้นผลลัพธ์ (ตัวแปรตาม) เป็นต่อเนื่อง มันสามารถมีค่าที่เป็นไปได้จำนวนหนึ่ง
ในการถดถอยโลจิสติกผลลัพธ์ (ตัวแปรตาม) มีเพียงจำนวน จำกัด ของค่าที่เป็นไปได้
ตัวแปรตาม
การถดถอยโลจิสติกจะใช้เมื่อตัวแปรตอบสนองเป็นหมวดหมู่ในลักษณะ ตัวอย่างเช่นใช่ / ไม่ใช่, จริง / เท็จ, แดง / เขียว / น้ำเงิน, 1st / 2nd / 3rd / 4th, ฯลฯ
การถดถอยเชิงเส้นจะใช้เมื่อตัวแปรตอบสนองของคุณต่อเนื่อง ตัวอย่างเช่นน้ำหนักส่วนสูงจำนวนชั่วโมงเป็นต้น
สมการ
การถดถอยเชิงเส้นให้สมการซึ่งอยู่ในรูปแบบ Y = mX + C หมายถึงสมการที่มีระดับ 1
อย่างไรก็ตามการถดถอยโลจิสติกให้สมการซึ่งเป็นรูปแบบ Y = e X + e -X
การตีความค่าสัมประสิทธิ์
ในการถดถอยเชิงเส้นการตีความสัมประสิทธิ์ของตัวแปรอิสระค่อนข้างตรงไปตรงมา (เช่นการคงที่ตัวแปรอื่น ๆ ทั้งหมดคงที่ด้วยการเพิ่มหน่วยในตัวแปรนี้คาดว่าตัวแปรตามที่คาดว่าจะเพิ่ม / ลดลง xxx)
อย่างไรก็ตามในการถดถอยโลจิสติกขึ้นอยู่กับครอบครัว (ทวินามปัวซอง ฯลฯ ) และการเชื่อมโยง (บันทึก logit ผกผันบันทึก ฯลฯ ) ที่คุณใช้การตีความจะแตกต่างกัน
เทคนิคการลดข้อผิดพลาด
การถดถอยเชิงเส้นใช้วิธีกำลังสองน้อยที่สุดธรรมดาเพื่อลดข้อผิดพลาดและมาถึงจุดที่เหมาะสมที่สุดในขณะที่การถดถอยโลจิสติกใช้วิธีการโอกาสสูงสุดในการแก้ปัญหา
การถดถอยเชิงเส้นมักจะถูกแก้ไขโดยการลดความคลาดเคลื่อนกำลังสองน้อยที่สุดของแบบจำลองให้กับข้อมูลดังนั้นข้อผิดพลาดขนาดใหญ่จึงถูกลงโทษแบบจตุรัส
การถดถอยโลจิสติกเป็นสิ่งที่ตรงกันข้าม การใช้ฟังก์ชั่นการสูญเสียโลจิสติกส์ทำให้เกิดข้อผิดพลาดขนาดใหญ่ที่จะถูกลงโทษให้คงที่แบบไม่แสดงผล
พิจารณาการถดถอยเชิงเส้นในผลลัพธ์หมวดหมู่ {0, 1} เพื่อดูสาเหตุของปัญหา หากแบบจำลองของคุณทำนายผลที่ได้คือ 38 เมื่อความจริงคือ 1 แสดงว่าคุณไม่ได้สูญเสียอะไรเลย การถดถอยเชิงเส้นจะพยายามที่จะลดที่ 38, โลจิสติกจะไม่ (เท่า) 2
ในการถดถอยเชิงเส้นผลลัพธ์ (ตัวแปรตาม) เป็นต่อเนื่อง มันสามารถมีค่าที่เป็นไปได้จำนวนหนึ่ง ในการถดถอยโลจิสติกผลลัพธ์ (ตัวแปรตาม) มีเพียงจำนวน จำกัด ของค่าที่เป็นไปได้
ตัวอย่างเช่นถ้า X มีพื้นที่เป็นตารางฟุตของบ้านและ Y มีราคาขายที่สอดคล้องกันของบ้านเหล่านั้นคุณสามารถใช้การถดถอยเชิงเส้นเพื่อทำนายราคาขายเป็นฟังก์ชันของขนาดบ้าน ในขณะที่ราคาขายเป็นไปได้ที่อาจจะไม่เป็นจริงใด ๆ ที่มีค่าที่เป็นไปจำนวนมากเพื่อให้รูปแบบการถดถอยเชิงเส้นจะได้รับเลือก
หากคุณต้องการทำนายตามขนาดไม่ว่าบ้านจะขายมากกว่า $ 200K หรือไม่คุณจะใช้การถดถอยแบบโลจิสติกส์ ผลลัพธ์ที่เป็นไปได้คือใช่บ้านจะขายมากกว่า $ 200K หรือไม่ใช่บ้านจะไม่
เพียงเพิ่มคำตอบก่อนหน้า
การถดถอยเชิงเส้น
หมายถึงการแก้ไขปัญหาของการทำนาย / ประมาณค่าเอาต์พุตสำหรับองค์ประกอบ X ที่ระบุ (พูด f (x)) ผลลัพธ์ของการทำนายเป็นฟังก์ชัน cotinuous ซึ่งค่าอาจเป็นบวกหรือลบ ในกรณีนี้โดยปกติคุณจะมีชุดข้อมูลที่ป้อนข้อมูลที่มีจำนวนมากของตัวอย่างและมูลค่าการส่งออกสำหรับหนึ่งของพวกเขาแต่ละคน เป้าหมายคือเพื่อให้พอดีกับแบบจำลองกับชุดข้อมูลนี้ดังนั้นคุณจึงสามารถคาดการณ์เอาท์พุทสำหรับองค์ประกอบที่แตกต่าง / ไม่เคยเห็นใหม่ ต่อไปนี้เป็นตัวอย่างคลาสสิกของการติดตั้งเส้นตรงเพื่อกำหนดจุด แต่โดยทั่วไปการถดถอยเชิงเส้นสามารถนำมาใช้เพื่อให้พอดีกับแบบจำลองที่ซับซ้อนมากขึ้น (ใช้องศาพหุนามสูงกว่า):
การถดถอย Linea สามารถแก้ไขได้สองวิธี:
การถดถอยโลจิสติก
มีวัตถุประสงค์เพื่อแก้ไขปัญหาการจัดหมวดหมู่ที่ให้องค์ประกอบที่คุณต้องจัดประเภทเดียวกันในหมวดหมู่ N ตัวอย่างทั่วไปเป็นตัวอย่างที่ได้รับจดหมายเพื่อจำแนกว่าเป็นสแปมหรือไม่หรือให้ยานพาหนะค้นหาเพื่อหมวดหมู่ที่มันเป็น (รถยนต์, รถบรรทุก, รถตู้, ฯลฯ .. ) โดยทั่วไปเอาต์พุตเป็นชุด จำกัด ของค่าที่สืบทอด
การแก้ไขปัญหา
ปัญหาการถดถอยโลจิสติกสามารถแก้ไขได้โดยใช้การไล่ระดับสีแบบไล่ระดับ การกำหนดโดยทั่วไปคล้ายกับการถดถอยเชิงเส้นความแตกต่างเพียงอย่างเดียวคือการใช้ฟังก์ชันสมมติฐานที่แตกต่างกัน ในการถดถอยเชิงเส้นสมมติฐานมีรูปแบบ:
h(x) = theta_0 + theta_1*x_1 + theta_2*x_2 ..
โดยทีต้าเป็นโมเดลที่เราพยายามทำและ [1, x_1, x_2, .. ] เป็นเวกเตอร์อินพุต ในการถดถอยโลจิสติกฟังก์ชันสมมติฐานแตกต่างกัน:
g(x) = 1 / (1 + e^-x)
ฟังก์ชั่นนี้มีคุณสมบัติที่ดีโดยทั่วไปแล้วมันจะจับคู่ค่าใด ๆ กับช่วง [0,1] ซึ่งเหมาะสำหรับจัดการกับความเป็นไปได้ในระหว่างการแบ่งประเภท ตัวอย่างเช่นในกรณีของการจำแนกเลขฐานสอง g (X) สามารถตีความได้ว่าน่าจะเป็นของชั้นบวก ในกรณีนี้โดยปกติคุณจะมีคลาสที่แตกต่างกันซึ่งคั่นด้วยขอบเขตการตัดสินใจซึ่งโดยทั่วไปจะเป็นเส้นโค้งที่ตัดสินใจแยกระหว่างคลาสที่แตกต่างกัน ต่อไปนี้เป็นตัวอย่างของชุดข้อมูลที่แยกออกเป็นสองคลาส
พวกเขาทั้งคู่มีความคล้ายคลึงกันในการแก้ปัญหา แต่อย่างที่คนอื่น ๆ บอกว่าหนึ่ง (Logistic Regression) สำหรับการคาดคะเนหมวดหมู่ "พอดี" (Y / N หรือ 1/0) และอื่น ๆ (Linear Regression) ค่า
ดังนั้นหากคุณต้องการที่จะทำนายว่าคุณเป็นมะเร็ง Y / N (หรือความน่าจะเป็น) - ใช้โลจิสติก หากคุณต้องการทราบจำนวนปีที่คุณจะอยู่ - ใช้การถดถอยเชิงเส้น!
ความแตกต่างพื้นฐาน:
การถดถอยเชิงเส้นนั้นเป็นแบบจำลองการถดถอยซึ่งหมายความว่ามันจะให้ผลลัพธ์ที่ไม่รอบคอบ / ต่อเนื่องของฟังก์ชัน ดังนั้นวิธีการนี้ให้คุณค่า ตัวอย่างเช่น: รับ x อะไรคือ f (x)
ตัวอย่างเช่นชุดฝึกอบรมของปัจจัยต่าง ๆ และราคาของทรัพย์สินหลังจากการฝึกอบรมเราสามารถให้ปัจจัยที่จำเป็นในการกำหนดสิ่งที่จะเป็นราคาอสังหาริมทรัพย์
การถดถอยโลจิสติกนั้นเป็นอัลกอริทึมการจำแนกแบบไบนารีซึ่งหมายความว่าที่นี่จะมีผลลัพธ์ที่มีมูลค่าอย่างรอบคอบสำหรับการทำงาน ตัวอย่างเช่น: สำหรับ x ที่กำหนดหาก f (x)> threshold แบ่งประเภทให้เป็น 1 และจัดประเภทเป็น 0
ตัวอย่างเช่นชุดของขนาดเนื้องอกสมองเป็นข้อมูลการฝึกอบรมเราสามารถใช้ขนาดเป็นข้อมูลป้อนเข้าเพื่อตรวจสอบว่าเป็นเนื้องอกของเนื้องอกในสมองหรือมะเร็ง ดังนั้นที่นี่ผลลัพธ์ที่ได้คือ 0 หรือ 1
* ที่นี่ฟังก์ชั่นนั้นเป็นฟังก์ชันสมมุติฐาน
พูดง่ายๆคือการถดถอยเชิงเส้นเป็นอัลกอริธึมการถดถอยซึ่งมีค่าที่เป็นไปได้อย่างต่อเนื่องและไม่สิ้นสุด การถดถอยโลจิสติกถือเป็นอัลกอริธึมลักษณนามลักษณนามไบนารี่ซึ่งส่งออก 'ความน่าจะเป็น' ของอินพุตที่เป็นของฉลาก (0 หรือ 1)
การถดถอยหมายถึงตัวแปรต่อเนื่องเชิงเส้นหมายถึงความสัมพันธ์เชิงเส้นระหว่าง y และ x Ex = คุณกำลังพยายามทำนายเงินเดือนจากประสบการณ์หลายปี ดังนั้นเงินเดือนคือตัวแปรอิสระ (y) และประสบการณ์ปีขึ้นอยู่กับตัวแปร (x) y = b0 + b1 * x1 เราพยายามหาค่าที่เหมาะสมที่สุดของค่าคงที่ b0 และ b1 ซึ่งจะทำให้เราได้เส้นที่เหมาะสมที่สุดสำหรับข้อมูลการสังเกตของคุณ มันคือสมการของเส้นที่ให้ค่าต่อเนื่องจาก x = 0 ถึงค่าที่มีขนาดใหญ่มาก บรรทัดนี้เรียกว่าโมเดลการถดถอยเชิงเส้น
การถดถอยโลจิสติกเป็นประเภทของเทคนิคการจำแนกประเภท ไม่หลงผิดจากคำศัพท์ถดถอย ที่นี่เราคาดการณ์ว่า y = 0 หรือ 1
ที่นี่เราต้องค้นหา p (y = 1) (ความสามารถในการล้างได้ของ y = 1) ที่ได้รับ x จาก formuale ด้านล่าง
Probaibility p มีความสัมพันธ์กับ y โดย formuale ด้านล่าง
Ex = เราสามารถจำแนกประเภทของเนื้องอกที่มีโอกาสมากกว่า 50% ในการเป็นมะเร็งที่ 1 และเนื้องอกที่มีโอกาสน้อยกว่า 50% ที่จะเป็นมะเร็งเป็น 0
ที่นี่จุดสีแดงจะถูกทำนายเป็น 0 ในขณะที่จุดสีเขียวจะถูกทำนายเป็น 1
ในระยะสั้น: การถดถอยเชิงเส้นให้ผลผลิตอย่างต่อเนื่อง เช่นค่าใด ๆ ระหว่างช่วงของค่า Logistic Regression ให้ผลลัพธ์แบบไม่ต่อเนื่อง เช่นใช่ / ไม่ใช่ 0/1 ชนิดของเอาต์พุต
ไม่สามารถเห็นด้วยเพิ่มเติมกับความคิดเห็นข้างต้น เหนือสิ่งอื่นมีความแตกต่างเช่นกัน
ในการถดถอยเชิงเส้นจะมีการแจกแจงส่วนที่เหลือตามปกติ ในการถดถอยโลจิสติกเหลือจะต้องเป็นอิสระ แต่ไม่ได้กระจายตามปกติ
การถดถอยเชิงเส้นถือว่าการเปลี่ยนแปลงค่าคงที่ของตัวแปรอธิบายส่งผลให้เกิดการเปลี่ยนแปลงอย่างต่อเนื่องในตัวแปรตอบสนอง สมมติฐานนี้ไม่ได้เก็บไว้ถ้าค่าของตัวแปรตอบสนองแสดงถึงความน่าจะเป็น (ใน Logistic Regression)
GLM (โมเดลเชิงเส้นทั่วไป) ไม่ถือว่าความสัมพันธ์เชิงเส้นระหว่างตัวแปรตามและตัวแปรอิสระ อย่างไรก็ตามมันถือว่าความสัมพันธ์เชิงเส้นระหว่างฟังก์ชันลิงก์และตัวแปรอิสระในรูปแบบ logit
| Basis | Linear | Logistic |
|-----------------------------------------------------------------|--------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------------------|
| Basic | The data is modelled using a straight line. | The probability of some obtained event is represented as a linear function of a combination of predictor variables. |
| Linear relationship between dependent and independent variables | Is required | Not required |
| The independent variable | Could be correlated with each other. (Specially in multiple linear regression) | Should not be correlated with each other (no multicollinearity exist). |
หากกล่าวไว้ในแบบจำลองการถดถอยเชิงเส้นกรณีทดสอบเพิ่มเติมมาถึงซึ่งอยู่ไกลจากขีด จำกัด (พูด = 0.5) สำหรับการทำนายของ y = 1 และ y = 0 จากนั้นในกรณีนั้นสมมติฐานจะเปลี่ยนไปและแย่ลงดังนั้นรูปแบบการถดถอยเชิงเส้นจึงไม่ได้ใช้สำหรับการจำแนกปัญหา
อีกปัญหาคือถ้าการจำแนกประเภทคือ y = 0 และ y = 1, h (x) สามารถ> 1 หรือ <0. ดังนั้นเราใช้การถดถอยโลจิสติกเป็น 0 <= h (x) <= 1
Logistic Regression ใช้ในการคาดการณ์ผลลัพธ์ที่เป็นหมวดหมู่เช่น Yes / No, Low / Medium / High ฯลฯ คุณมีการถดถอยโลจิสติก 2 ประเภทโดยพื้นฐานคือ Binary Logistic Regression (ใช่ / ไม่ใช่, อนุมัติ / ไม่อนุมัติ) หรือถดถอยโลจิสติกหลายระดับ / สูงตัวเลข 0-9 ฯลฯ )
ในทางกลับกันการถดถอยเชิงเส้นคือถ้าตัวแปรตาม (y) ของคุณนั้นต่อเนื่อง y = mx + c เป็นสมการถดถอยเชิงเส้นอย่างง่าย (m = ความชันและ c คือค่าตัดแกน y) การถดถอยหลายชั้นมีตัวแปรอิสระมากกว่า 1 ตัวแปร (x1, x2, x3 ... ฯลฯ )
ในการถดถอยเชิงเส้นผลลัพธ์จะต่อเนื่องในขณะที่การถดถอยโลจิสติกผลลัพธ์มีค่าที่เป็นไปได้จำนวน จำกัด เท่านั้น (ไม่ต่อเนื่อง)
ตัวอย่าง: ในสถานการณ์ค่าที่กำหนดของ x คือขนาดของพล็อตเป็นตารางฟุตจากนั้นทำนาย y เช่นอัตราของพล็อตมาภายใต้การถดถอยเชิงเส้น
หากคุณต้องการทำนายตามขนาดว่าพล็อตจะขายได้มากกว่า 300000 Rs หรือไม่คุณจะใช้การถดถอยแบบโลจิสติกส์แทน ผลลัพธ์ที่เป็นไปได้คือใช่พล็อตจะขายได้มากกว่า 300000 Rs หรือไม่
ในกรณีของการถดถอยเชิงเส้นผลลัพธ์จะต่อเนื่องในขณะที่ในกรณีของผลลัพธ์การถดถอยโลจิสติกจะไม่ต่อเนื่อง (ไม่ต่อเนื่อง)
ในการดำเนินการถดถอยเชิงเส้นเราจำเป็นต้องมีความสัมพันธ์เชิงเส้นระหว่างตัวแปรตามและตัวแปรอิสระ แต่เพื่อดำเนินการถดถอยโลจิสติกเราไม่จำเป็นต้องมีความสัมพันธ์เชิงเส้นระหว่างตัวแปรตามและตัวแปรอิสระ
การถดถอยเชิงเส้นเป็นข้อมูลเกี่ยวกับการปรับให้เป็นเส้นตรงในข้อมูลในขณะที่การถดถอยโลจิสติกเป็นเรื่องเกี่ยวกับการปรับเส้นโค้งให้เหมาะสมกับข้อมูล
การถดถอยเชิงเส้นเป็นอัลกอริทึมการถดถอยสำหรับการเรียนรู้ของเครื่องในขณะที่การถดถอยโลจิสติกเป็นขั้นตอนวิธีการจำแนกสำหรับการเรียนรู้ของเครื่อง
การถดถอยเชิงเส้นถือว่าการแจกแจงแบบเกาส์ (หรือปกติ) ของตัวแปรตาม การถดถอยโลจิสติกถือว่าการแจกแจงแบบทวินามของตัวแปรตาม