การถดถอยโลจิสติกส์เหมาะสมเมื่อใด


12

ขณะนี้ฉันกำลังสอนตัวเองเกี่ยวกับการจำแนกประเภทและโดยเฉพาะฉันกำลังดูวิธีการสามวิธี: การสนับสนุนเครื่องเวกเตอร์เครือข่ายประสาทและการถดถอยโลจิสติก สิ่งที่ฉันพยายามเข้าใจคือเหตุที่การถดถอยโลจิสติกจะทำงานได้ดีกว่าอีกสอง

จากความเข้าใจของฉันในการถดถอยโลจิสติกความคิดคือการปรับฟังก์ชั่นโลจิสติกให้พอดีกับข้อมูลทั้งหมด ดังนั้นถ้าข้อมูลของฉันเป็นเลขฐานสองข้อมูลทั้งหมดที่มีป้ายกำกับ 0 ควรถูกแมปกับค่า 0 (หรือใกล้เคียง) และข้อมูลทั้งหมดที่มีค่า 1 ควรถูกแมปกับค่า 1 (หรือใกล้เคียง) ตอนนี้เนื่องจากฟังก์ชันโลจิสติกส์นั้นต่อเนื่องและราบรื่นการดำเนินการถดถอยนี้จึงต้องการข้อมูลทั้งหมดของฉันเพื่อให้พอดีกับเส้นโค้ง ไม่มีความสำคัญมากขึ้นนำไปใช้กับจุดข้อมูลที่อยู่ใกล้กับขอบเขตการตัดสินใจและจุดข้อมูลทั้งหมดมีส่วนทำให้เกิดการสูญเสียตามจำนวนที่แตกต่างกัน

อย่างไรก็ตามด้วยการสนับสนุนเวกเตอร์แมชชีนและเครือข่ายนิวรัลเฉพาะจุดข้อมูลเหล่านั้นที่อยู่ใกล้กับขอบเขตการตัดสินใจมีความสำคัญ ตราบใดที่จุดข้อมูลยังคงอยู่ในขอบเขตเดียวกันของขอบเขตการตัดสินใจมันจะมีส่วนทำให้เกิดการสูญเสียเท่ากัน

ดังนั้นเหตุใดการถดถอยของโลจิสติกจึงมีประสิทธิภาพสูงกว่าเครื่องเวกเตอร์หรือโครงข่ายประสาทเนื่องจากว่า "เสียทรัพยากร" ในการพยายามที่จะปรับเส้นโค้งให้เข้ากับข้อมูลที่ไม่สำคัญ (จำแนกได้ง่าย ๆ ) ขอบเขต?


5
LR จะให้การประมาณความน่าจะเป็นขณะที่ SVM ให้การประมาณแบบไบนารี สิ่งนี้ยังทำให้ LR มีประโยชน์เมื่อไม่มีไฮเปอร์เพลนคั่นระหว่างคลาส นอกจากนี้คุณต้องคำนึงถึงความซับซ้อนของอัลกอริทึมและคุณสมบัติอื่น ๆ เช่นจำนวนพารามิเตอร์และความไว
บาร์

คำตอบ:


28

ทรัพยากรที่คุณพิจารณาว่า "สูญเปล่า" คือความจริงแล้วการได้รับข้อมูลจากการถดถอยโลจิสติก คุณเริ่มต้นด้วยหลักฐานผิด การถดถอยโลจิสติกไม่ใช่ตัวจําแนก เป็นตัวประมาณความน่าจะเป็น / ความเสี่ยง ต่างจาก SVM ซึ่งอนุญาตและคาดว่าจะ "ปิดการโทร" มันจะนำไปสู่การตัดสินใจที่ดีที่สุดเพราะมันไม่ได้พยายามที่จะหลอกลวงสัญญาณการทำนายในการรวมฟังก์ชั่นยูทิลิตี้ที่เป็นนัยเมื่อใดก็ตามที่คุณจำแนกการสังเกต เป้าหมายของการถดถอยโลจิสติกโดยใช้การประมาณค่าความน่าจะเป็นสูงสุดคือการให้การประมาณการที่เหมาะสมของ ProbX) ผลลัพธ์ถูกนำไปใช้ในหลาย ๆ วิธีเช่นการยกโค้งการให้คะแนนความเสี่ยงด้านเครดิต ฯลฯ ดูสัญญาณสัญญาณของเนทซิลเวอร์และสัญญาณรบกวนเพื่อหาข้อโต้แย้งที่น่าสนใจเพื่อสนับสนุนเหตุผลที่น่าจะเป็น(Y=1|X)

โปรดทราบว่าตัวแปรที่ขึ้นต่อกันของในการถดถอยแบบลอจิสติกสามารถเขียนโค้ดได้ทุกวิธีที่คุณต้องการ: 0/1, A / B, ใช่ / ไม่ใช่, เป็นต้นY

สมมติฐานหลักของการถดถอยโลจิสติกคือเป็นเลขฐานสองอย่างแท้จริงเช่นมันไม่ได้ถูกประดิษฐ์จากตัวแปรการตอบสนองพื้นฐานหรือลำดับต่อเนื่อง มันก็เหมือนกับวิธีการจัดหมวดหมู่สำหรับปรากฏการณ์ทั้งหมดหรือไม่มีอะไรอย่างแท้จริงY

นักวิเคราะห์บางคนคิดว่าการถดถอยโลจิสติกถือว่าเป็นเส้นตรงของผลกระทบของการทำนายในระดับอัตราต่อรอง นั่นเป็นเรื่องจริงเมื่อ DR Cox คิดค้นโมเดลโลจิสติกในปี 2501 ในขณะที่การคำนวณไม่พร้อมใช้งานเพื่อขยายโมเดลโดยใช้เครื่องมือเช่น splines การถดถอย จุดอ่อนที่แท้จริงเพียงข้อเดียวในการถดถอยโลจิสติกคือคุณต้องระบุการโต้ตอบที่คุณต้องการอนุญาตในโมเดล สำหรับชุดข้อมูลส่วนใหญ่นี่จะกลายเป็นจุดแข็งเพราะผลกระทบหลักที่เสริมเข้ามานั้นโดยทั่วไปแล้วการคาดการณ์ที่แข็งแกร่งกว่าการโต้ตอบและวิธีการเรียนรู้ของเครื่องที่ให้ความสำคัญกับการโต้ตอบที่ไม่เท่าเทียมกันนั้นอาจไม่เสถียร ดี.


6
+1 พูดตามตรงฉันไม่เคยพบว่า SVM มีประโยชน์ พวกเขาดูเซ็กซี่ แต่ช้าในการฝึกฝนและให้คะแนน - จากประสบการณ์ของฉัน - และมีตัวเลือกมากมายที่คุณต้องทำด้วย (รวมถึงเคอร์เนล) เครือข่ายประสาทฉันพบว่ามีประโยชน์ แต่ก็มีตัวเลือกและการปรับมากมาย การถดถอยโลจิสติกส์นั้นง่ายและให้ผลลัพธ์ที่ได้รับการสอบเทียบที่เหมาะสม การสอบเทียบเป็นสิ่งสำคัญสำหรับการใช้งานจริง แน่นอนข้อเสียคือมันเป็นแบบเชิงเส้นดังนั้นจึงไม่สามารถพอดีกับคลัสเตอร์ -his ข้อมูลที่เป็นก้อนเช่นเดียวกับวิธีอื่น ๆ เช่น Random Forest
Wayne

1
คำตอบที่ดี โดยวิธีการที่คุณอาจจะสนใจที่จะรู้ว่าเมื่อเร็ว ๆ นี้เครื่องผู้เรียนมีมารอบ ๆ เพื่อกระชับวิธีแฟนซีของพวกเขาเป็นกรอบแบบดั้งเดิมเช่นโอกาสสูงสุดลงโทษ - และมันกลับกลายเป็นวิธีแฟนซีการทำงานวิธีที่ดีกว่าเมื่อนี้จะทำ พิจารณา XGBoost ซึ่งเป็นต้นไม้ที่มีประสิทธิภาพมากที่สุดในการดำรงอยู่ คณิตศาสตร์อยู่ที่นี่: xgboost.readthedocs.io/en/latest/model.html มันควรจะค่อนข้างคุ้นเคยกับนักสถิติแบบดั้งเดิมและคุณสามารถใส่แบบจำลองเพื่อจุดประสงค์ทางสถิติทั่วไปได้ด้วยฟังก์ชั่นการสูญเสียตามปกติ
พอล

5

คุณพูดถูกการถดถอยโลจิสติกส์ในบางครั้งอาจไม่ดีเท่าลักษณนาม (โดยเฉพาะเมื่อเปรียบเทียบกับอัลกอริธึมอื่น ๆ ) อย่างไรก็ตามนี่ไม่ได้หมายความว่าควรจะลืมการถดถอยโลจิสติกและไม่เคยศึกษาเพราะมันมีข้อดีสองประการ:

  1. ผลลัพธ์น่าจะเป็น Frank Harrell (+1) อธิบายอย่างนี้ในคำตอบของเขา

  2. มันช่วยให้เราเข้าใจถึงผลกระทบที่ตัวแปรอิสระมีต่อตัวแปรตามในขณะที่ควบคุมตัวแปรอิสระอื่น ๆ ตัวอย่างเช่นให้การประมาณและข้อผิดพลาดมาตรฐานสำหรับอัตราต่อรองแบบมีเงื่อนไข (อัตราต่อรองของใหญ่กว่ากี่เท่าเมื่อแทนในขณะที่ถือคงที่) Y=1X1=12X2,...Xp


5
และประสิทธิภาพที่ไม่ชัดเจนในฐานะตัวจําแนกเป็นผลมาจากการใช้คะแนนความแม่นยําที่ไม่เหมาะสมไม่ใช่ปัญหาที่เกิดจากการถดถอยโลจิสติก
Frank Harrell

@ FrankHarrell: ฉันได้ทำการทดลองเมื่อเร็ว ๆ นี้และฉันบอกว่า Logistic Regression เหมาะกับข้อมูลที่มีอิสระน้อยกว่าวิธีอื่น ๆ คุณต้องเพิ่มการโต้ตอบและทำวิศวกรรมคุณสมบัติเพิ่มเติมเพื่อจับคู่พูดความยืดหยุ่นของฟอเรสต์หรือ GAM (แน่นอนความยืดหยุ่นคือไต่เชือกที่ข้ามเหวลึกของการ overfitting)
Wayne

3
@wayne อิสระน้อยลงอย่างที่คุณบอกว่ามันมีประโยชน์มากในหลาย ๆ กรณีเพราะมันช่วยให้มีความเสถียร
rapaio

3
ไม่เพียง แต่การสมมติว่าเงื่อนไขการโต้ตอบมีความสำคัญน้อยกว่าคำเติมแต่งเพิ่มความยืดหยุ่น แต่คุณสามารถผ่อนคลายสมมติฐานได้หลายวิธี ฉันกำลังเพิ่มเกี่ยวกับสิ่งนี้ในคำตอบเดิมของฉัน
Frank Harrell

2
@rapaio: ใช่ความยืดหยุ่นเป็นอันตรายทั้งในแง่ของการ overfitting แต่ยังอยู่ในวิธีอื่น มันเป็นปัญหาของโดเมน / การใช้งาน: ข้อมูลของคุณมีเสียงดังหรือเป็น "lumpy / cluster-ish" จริงหรือไม่ถ้าฉันอาจใช้คำนั้น
Wayne
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.