เหตุใดการถดถอยของโลจิสติกจึงถูกสอบเทียบอย่างดีและจะทำลายการสอบเทียบได้อย่างไร


9

ใน Scikit เรียนรู้เอกสารเกี่ยวกับการสอบเทียบความน่าจะเป็นพวกเขาเปรียบเทียบการถดถอยโลจิสติกกับวิธีการอื่นและสังเกตว่าป่าสุ่มมีการสอบเทียบน้อยกว่าการถดถอยโลจิสติก

เหตุใดการปรับเทียบการถดถอยโลจิสติกจึงดี หนึ่งจะทำลายการสอบเทียบของการถดถอยโลจิสติกได้อย่างไร (ไม่ใช่ว่าจะต้องการ - เหมือนการออกกำลังกาย)

คำตอบ:


4

แม้ว่าคำถามนี้และคำตอบแรกของมันดูเหมือนว่าจะมุ่งเน้นไปที่ประเด็นทางทฤษฎีของการสอบเทียบแบบจำลองการถดถอยโลจิสติกปัญหาของ:

หนึ่งจะทำลายการสอบเทียบของการถดถอยโลจิสติก ...

สมควรได้รับความสนใจเกี่ยวกับแอปพลิเคชันที่ใช้งานจริงสำหรับผู้อ่านในอนาคตของหน้านี้ เราไม่ควรลืมว่าจะต้องระบุรูปแบบการถดถอยโลจิสติกส์อย่างดีและปัญหานี้อาจเป็นปัญหาโดยเฉพาะอย่างยิ่งสำหรับการถดถอยโลจิสติก

ก่อนอื่นถ้าอัตราต่อรองของการเป็นสมาชิกชั้นเรียนไม่เกี่ยวข้องกับตัวทำนายที่เป็นเส้นตรงในโมเดลนั้นจะไม่ได้รับการสอบเทียบอย่างเหมาะสม บทที่ 10 ของ Harrellเกี่ยวกับการถดถอยแบบโลจิสติกไบนารีอุทิศประมาณ 20 หน้าใน "การประเมินแบบจำลองพอดี" เพื่อที่เราจะได้ใช้ประโยชน์จาก

ประการที่สองสเปครุ่นเป็นปัญหาโดยเฉพาะอย่างยิ่งในการถดถอยโลจิสติกในขณะที่มันมีโดยธรรมชาติละเว้นอคติตัวแปรที่สามารถนำความประหลาดใจให้กับผู้ที่มีพื้นหลังในการถดถอยเชิงเส้นธรรมดา เมื่อหน้านั้นวางไว้:

ตัวแปรที่ถูกละเว้นจะมีอคติกับค่าสัมประสิทธิ์ของตัวแปรที่รวมแม้ว่าตัวแปรที่ละเว้นจะไม่สัมพันธ์กับตัวแปรที่รวมอยู่

หน้านั้นยังมีคำอธิบายที่เป็นประโยชน์ว่าทำไมถึงต้องมีการคาดการณ์พฤติกรรมนี้พร้อมคำอธิบายเชิงทฤษฎีสำหรับโมเดล probit ที่เกี่ยวข้อง ดังนั้นหากคุณไม่ทราบว่าคุณได้รวมเครื่องมือทำนายไว้ทั้งหมดที่เกี่ยวข้องกับการเป็นสมาชิกในชั้นเรียนคุณอาจพบอันตรายจากการสะกดคำผิดและการสอบเทียบไม่ดี

ด้วยความเคารพต่อข้อกำหนดของแบบจำลองมันเป็นไปได้มากที่วิธีการที่ใช้ต้นไม้เช่นป่าสุ่มซึ่งไม่ถือว่าเป็นเชิงเส้นในช่วงของค่าทำนายทั้งหมดและให้ความเป็นไปได้ในการค้นหาและรวมถึงปฏิสัมพันธ์ระหว่างผู้ทำนายด้วย แบบจำลองที่ปรับเทียบในทางปฏิบัติกว่าแบบจำลองการถดถอยโลจิสติกซึ่งไม่นำเงื่อนไขการโต้ตอบหรือความไม่เป็นเชิงเส้นมาพิจารณาอย่างเพียงพอ ด้วยความเคารพต่ออคติแบบละเว้นตัวแปรมันไม่ชัดเจนสำหรับฉันว่าวิธีใดในการประเมินความน่าจะเป็นสมาชิกระดับชั้นเรียนสามารถจัดการกับปัญหานั้นได้อย่างเพียงพอ


5

การถดถอยโลจิสติกเป็นวิธีการจำแนกที่โดยทั่วไปเรียนรู้ฟังก์ชันความน่าจะเป็น πθ(x) เหนือพื้นที่อินพุตโดยการปรับพารามิเตอร์ให้เหมาะสม θ. หากความน่าจะเป็นที่คาดการณ์ได้รับการเรียนรู้ด้วยฟังก์ชั่นการสูญเสียที่เหมาะสมกว่าการถดถอยโลจิสติกมีศักยภาพที่จะเรียนรู้การประเมินความเป็นไปได้ของเหตุการณ์ไบนารี่แบบไม่เอนเอียง

การสูญเสียบันทึกอนุญาตให้มีการประมาณแบบไม่เอนเอียง พิจารณาข้อเท็จจริงที่ว่าฟังก์ชั่นการสูญเสียบันทึกเป็นเพียงความน่าจะเป็นบันทึกเชิงลบของการกระจาย BernoullizBer(p). การประเมินความเป็นไปได้สูงสุดสำหรับp ไม่มีอคติให้ชุดของการสังเกตสำหรับตัวแปร z. ในกรณีของการจำแนกประเภทมากกว่าพื้นที่ว่างบางส่วนXเราสามารถจินตนาการได้ว่ามี Bernoulli หนึ่งตัวกระจายอยู่ทุกจุด X. ส่วนใหญ่คุณจะสังเกตได้เพียง 1 ครั้งเท่านั้นyi ต่อการกระจาย Bernoulli ซึ่งตั้งอยู่ที่ xi. ใช้การประมาณค่าความน่าจะเป็นสูงสุดสำหรับการแจกแจงแบบ Bernoulli ที่สังเกตได้ทั้งหมดyiBer(π(xi)) จะใช้ข้อ จำกัด หลายประการกับ πθ. เนื่องจากข้อ จำกัด เหล่านี้นำไปสู่การประมาณค่าที่เป็นกลางและตราบใดที่ฟังก์ชันπθ มีความยืดหยุ่นเพียงพอที่จะพอดีกับฟังก์ชันความน่าจะเป็นพื้นฐานที่แท้จริง πจากนั้นขั้นตอนการเรียนรู้จะมีความสอดคล้องกันและจะรวมกันเป็นแบบจำลองที่ดีที่สุดเมื่อคุณได้รับข้อมูลมากขึ้น ดังนั้นการ จำกัด ความจุของแบบจำลอง (เช่นคุณสมบัติที่น้อยลง) สามารถขัดขวางการสอบเทียบของการถดถอยโลจิสติกโดยการเพิ่มระยะห่างระหว่างโมเดลที่เรียนรู้ได้ดีที่สุดและโมเดลจริง

การใช้แบบจำลองการสังเกตที่ไม่ถูกต้องกับการถดถอยโลจิสติกจะนำไปสู่ความน่าจะไม่ได้ปรับเทียบ การสร้างแบบจำลองเหตุการณ์ไบนารีที่มีการแจกแจงแบบปกติไม่เหมาะสมและไม่ควรใช้ร่วมกับการถดถอยโลจิสติก ฟังก์ชันการสูญเสียที่สอดคล้องกับตัวแบบการสังเกตการแจกแจงแบบปกติคือ Mean Squared Error ดังนั้นการใช้การสูญเสีย MSE จะขัดขวางการสอบเทียบของตนอย่างแน่นอน


2
การถดถอยโลจิสติกโทรอย่างระมัดระวังเป็นวิธีการจำแนกในเว็บไซต์นี้! ขอบคุณสำหรับคำตอบ - ดูเหมือนว่าคุณกำลังอ้างว่าวัตถุประสงค์การสูญเสียบันทึกเป็นเหตุผลของการสอบเทียบ (สมมติว่าแบบจำลองมีความยืดหยุ่นเพียงพอ)
0

1
การติดตาม - คุณบอกว่าการสอบเทียบต้องมีการประมาณค่าความน่าจะเป็นแบบเป็นกลาง - ดังนั้นการปรับเทียบซากปรักหักพังจึงเป็นการลงโทษ
0

« LogisticRegression ส่งคืนการคาดการณ์ที่มีการสอบเทียบที่ถูกต้องโดยค่าเริ่มต้นเนื่องจากปรับการบันทึกการสูญเสียได้โดยตรง» - scikit-learn.org/stable/modules/calibration.html
cortax

ตามคำนิยามการลงโทษหรือการทำให้เป็นปกติเป็นการฉีดไบแอสซึ่งมักจะพยายามลดความแปรปรวนของตัวประมาณ การทำให้เป็นมาตรฐานขนาดใหญ่สามารถครอบงำส่วนข้อมูลของฟังก์ชันวัตถุประสงค์และทำลายการสอบเทียบได้อย่างแน่นอน
cortax

2
ใบเสนอราคาเรียนรู้แบบ Scikit เรียนรู้เกี่ยวกับ "การเพิ่มประสิทธิภาพการสูญเสียการบันทึก" ไม่ใช่คำอธิบายที่มีประสิทธิภาพเนื่องจากไม่มีการเชื่อมต่อที่จำเป็นระหว่างสิ่งนี้กับการไม่ฝักใฝ่ฝ่ายใด คำตอบที่ถูกต้องสำหรับคำถามนั้นจะต้องเรียกใช้ความเป็นกลางแบบไม่ระบุชื่อของตัวประมาณความน่าจะเป็นสูงสุดที่มักจะใช้ในกระบวนการถดถอยแบบโลจิสติกส์
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.