คำถามนี้เป็นคำถามทั่วไปและยาวเหยียด แต่โปรดอดทนกับฉัน
ในแอปพลิเคชันของฉันฉันมีชุดข้อมูลจำนวนมากแต่ละชุดประกอบด้วย ~ 20,000 ดาต้าพอยน์พร้อมด้วยคุณลักษณะ ~ 50 และตัวแปรไบนารีที่ขึ้นต่อกันเพียงตัวเดียว ฉันพยายามที่จะสร้างแบบจำลองชุดข้อมูลโดยใช้การถดถอยโลจิสติกปกติ (R package glmnet )
ในการวิเคราะห์ของฉันฉันได้สร้างแปลงที่เหลือดังนี้ สำหรับแต่ละคุณลักษณะฉันเรียงลำดับดาต้าพอยน์ตามค่าของฟีเจอร์นั้นแบ่งดาต้าพอยน์ออกเป็น 100 ถังแล้วคำนวณค่าเอาต์พุตเฉลี่ยและค่าการทำนายโดยเฉลี่ยภายในที่เก็บข้อมูลแต่ละชุด ฉันพล็อตความแตกต่างเหล่านี้
นี่คือตัวอย่างพล็อตที่เหลือ:
ในพล็อตข้างต้นสถานที่มีช่วง [0,1] (มีความเข้มข้นมากที่ 1) อย่างที่คุณเห็นเมื่อค่าคุณลักษณะต่ำโมเดลจะมีอคติต่อการประเมินความเป็นไปได้ของ 1-output ตัวอย่างเช่นในที่ฝากข้อมูลด้านซ้ายสุดโมเดลจะประมาณค่าความน่าจะเป็นประมาณ 9%
ด้วยข้อมูลนี้ฉันต้องการแก้ไขข้อกำหนดคุณลักษณะในลักษณะที่ตรงไปตรงมาเพื่อแก้ไขความลำเอียงนี้อย่างคร่าวๆ การเปลี่ยนแปลงเช่นการแทนที่
หรือ
ฉันจะทำสิ่งนี้ได้อย่างไร ฉันกำลังมองหาวิธีการทั่วไปเพื่อให้มนุษย์สามารถเลื่อนได้อย่างรวดเร็วผ่าน ~ 50 แปลงและทำการเปลี่ยนแปลงและทำสิ่งนี้สำหรับชุดข้อมูลทั้งหมดและทำซ้ำบ่อยครั้งเพื่อให้แบบจำลองที่ทันสมัยตามที่ข้อมูลวิวัฒนาการตลอดเวลา
ตามคำถามทั่วไปนี่เป็นแนวทางที่ถูกต้องใช่ไหม Google ค้นหา "การวิเคราะห์ส่วนที่เหลือถดถอยโลจิสติก" ไม่ได้ผลลัพธ์จำนวนมากพร้อมคำแนะนำการปฏิบัติที่ดี ดูเหมือนว่าพวกเขาจะได้รับการแก้ไขเมื่อตอบคำถามว่า "รุ่นนี้เหมาะสมหรือไม่" และเสนอการทดสอบต่าง ๆ เช่น Hosmer-Lemeshow เพื่อตอบคำถาม แต่ฉันไม่สนใจว่าแบบจำลองของฉันดีหรือไม่ฉันต้องการทราบวิธีทำให้ดีขึ้น!