สำหรับการสร้างแบบจำลองการทำนายเราจำเป็นต้องคำนึงถึงตัวเราด้วยแนวคิดทางสถิติเช่นเอฟเฟกต์แบบสุ่มและการไม่เป็นอิสระจากการสังเกต (มาตรการซ้ำ ๆ )? ตัวอย่างเช่น....
ฉันมีข้อมูลจากแคมเปญอีเมลโดยตรง 5 รายการ (เกิดขึ้นในช่วงหนึ่งปี) ที่มีคุณลักษณะและการตั้งค่าสถานะการซื้อต่างๆ เป็นการดีที่ฉันจะใช้ข้อมูลทั้งหมดนี้รวมกันเพื่อสร้างแบบจำลองสำหรับการซื้อที่กำหนดคุณลักษณะของลูกค้าในช่วงเวลาของแคมเปญ เหตุผลคือเหตุการณ์การซื้อหายากและฉันต้องการใช้ข้อมูลให้มากที่สุด มีโอกาสที่ลูกค้าที่กำหนดอาจอยู่ในทุก ๆ 1 ถึง 5 ของแคมเปญ - หมายความว่าไม่มีความเป็นอิสระระหว่างบันทึก
ไม่สำคัญเมื่อใช้:
1) วิธีการเรียนรู้ของเครื่อง (เช่น tree, MLP, SVM)
2) วิธีการทางสถิติ (การถดถอยโลจิสติก)?
**ADD:**
ความคิดของฉันเกี่ยวกับการสร้างแบบจำลองการคาดการณ์คือถ้าแบบจำลองใช้งานได้ เพื่อให้ฉันไม่เคยพิจารณาความสำคัญของสมมติฐาน การนึกถึงกรณีที่ฉันอธิบายไว้ข้างต้นทำให้ฉันสงสัย
MLP and SVM
ใช้ขั้นตอนวิธีการเรียนรู้เครื่องเช่น สิ่งเหล่านี้ถูกใช้อย่างประสบความสำเร็จในการสร้างแบบจำลองเหตุการณ์ไบนารีเช่นตัวอย่างของฉันด้านบน แต่ยังมีข้อมูลอนุกรมเวลาที่มีความสัมพันธ์อย่างชัดเจน อย่างไรก็ตามฟังก์ชั่นการสูญเสียการใช้งานจำนวนมากที่มีความเป็นไปได้และมาจากการสันนิษฐานว่าเป็นข้อผิดพลาดคือ id ตัวอย่างเช่นต้นไม้เพิ่มระดับความลาดชันใน R gbm
ใช้ฟังก์ชั่นการสูญเสียความเบี่ยงเบนที่ได้มาจากทวินาม ( หน้า 10 )