ฉันมีคำถามเชิงปฏิบัติเกี่ยวกับวิศวกรรมฟีเจอร์ ... บอกว่าฉันต้องการทำนายราคาบ้านโดยใช้การถดถอยโลจิสติกส์และใช้คุณสมบัติหลายอย่างรวมถึงรหัสไปรษณีย์ จากนั้นเมื่อตรวจสอบความสำคัญของคุณสมบัติฉันรู้ว่า zip เป็นคุณสมบัติที่ดีพอสมควรดังนั้นฉันจึงตัดสินใจเพิ่มคุณสมบัติเพิ่มเติมตามรหัสไปรษณีย์ - ตัวอย่างเช่นฉันไปที่สำนักสำรวจสำมะโนประชากรและรับรายได้เฉลี่ยประชากรจำนวนโรงเรียนและจำนวน ของโรงพยาบาลของแต่ละไปรษณีย์ ด้วยคุณสมบัติใหม่ทั้งสี่นี้ฉันพบว่าแบบจำลองมีประสิทธิภาพดีขึ้นในขณะนี้ ดังนั้นฉันจึงเพิ่มฟีเจอร์ที่เกี่ยวข้องกับ zip มากขึ้น ... และรอบนี้จะดำเนินต่อไปเรื่อย ๆ ในที่สุดรูปแบบจะถูกครอบงำโดยคุณสมบัติที่เกี่ยวข้องกับรหัสไปรษณีย์เหล่านี้ใช่ไหม
คำถามของฉัน:
- มันสมเหตุสมผลไหมที่ทำสิ่งเหล่านี้ตั้งแต่แรก?
- ถ้าใช่ฉันจะรู้ได้อย่างไรว่าเวลาใดที่จะหยุดรอบนี้
- ถ้าไม่ทำไมล่ะ