ฉันมีโมเดลการถดถอยโลจิสติก (พอดีผ่าน glmnet ใน R พร้อมกับการทำให้เป็นมาตรฐานสุทธิ) และฉันต้องการเพิ่มความแตกต่างระหว่างผลบวกจริงและผลบวกปลอม ในการดำเนินการดังกล่าวขั้นตอนต่อไปนี้อยู่ในใจ:
- พอดีกับโมเดลการถดถอยโลจิสติกมาตรฐาน
- ใช้เกณฑ์การทำนายเป็น 0.5 ระบุการคาดการณ์ในเชิงบวกทั้งหมด
- กำหนดน้ำหนัก 1 สำหรับการสังเกตที่คาดการณ์ไว้ในเชิงบวก 0 สำหรับคนอื่น ๆ ทั้งหมด
- พอดีกับรูปแบบการถดถอยโลจิสติกถ่วงน้ำหนัก
อะไรคือข้อบกพร่องของวิธีนี้? อะไรจะเป็นวิธีที่ถูกต้องในการแก้ไขปัญหานี้
เหตุผลที่ต้องการเพิ่มความแตกต่างระหว่างจำนวนของผลบวกที่แท้จริงและเชิงลบที่ผิดเนื่องจากการออกแบบใบสมัครของฉัน ในฐานะส่วนหนึ่งของโครงงานในชั้นเรียนฉันกำลังสร้างผู้เข้าร่วมอิสระในตลาดออนไลน์ - ถ้าแบบจำลองของฉันทำนายว่าสามารถซื้อบางอย่างและขายในภายหลังด้วยราคาที่สูงกว่า ฉันต้องการยึดติดกับการถดถอยโลจิสติกและผลลัพธ์ไบนารีผลลัพธ์ (ชนะ, แพ้) ตามต้นทุนคงที่และการเพิ่มขึ้นของราคาต่อหน่วย (ฉันได้รับหรือสูญเสียจำนวนเดียวกันในทุกธุรกรรม) คิดบวกทำให้ฉันเจ็บเพราะหมายความว่าฉันซื้ออะไรและไม่สามารถขายได้ในราคาที่สูงขึ้น อย่างไรก็ตามการลบที่ผิดพลาดไม่ได้ทำร้ายฉัน (เฉพาะในแง่ของโอกาสเสียค่าใช้จ่าย) เพราะมันหมายถึงว่าฉันไม่ได้ซื้อ แต่ถ้าฉันมีฉันจะทำเงิน ในทำนองเดียวกัน
ฉันยอมรับว่าการตัด 0.5 นั้นเป็นการสุ่มโดยพลการและเมื่อฉันปรับรูปแบบจากขั้นตอนที่ 1 บนขีด จำกัด การทำนายซึ่งให้ผลต่างสูงสุดระหว่างความจริง / เท็จบวกจะกลายเป็นใกล้กว่า 0.4 ฉันคิดว่านี่เป็นเพราะลักษณะที่บิดเบือนของข้อมูลของฉัน - อัตราส่วนระหว่างเชิงลบและบวกเป็นเรื่องเกี่ยวกับ 1: 3
ตอนนี้ฉันกำลังทำตามขั้นตอนต่อไปนี้:
- แบ่งข้อมูลระหว่างการฝึกอบรม / ทดสอบ
- สร้างแบบจำลองให้พอดีกับการฝึกอบรมทำนายผลในชุดทดสอบและคำนวณความแตกต่างระหว่างผลบวกจริง / เท็จ
- พอดีกับแบบเต็มทำการทำนายในชุดทดสอบและคำนวณความแตกต่างระหว่างผลบวก / จริง
ความแตกต่างระหว่างผลบวก / ลบจริงมีขนาดเล็กกว่าในขั้นตอน # 3 กว่าในขั้นตอนที่ 2 แม้ว่าชุดฝึกอบรมจะเป็นชุดย่อยของชุดเต็ม เนื่องจากฉันไม่สนใจว่าโมเดลใน # 3 มีเนกาทีฟที่แท้จริงมากขึ้นและมีเนกาทีฟที่ผิดพลาดน้อยกว่าจึงมีอะไรที่ฉันสามารถทำได้โดยไม่เปลี่ยนฟังก์ชั่นโอกาส