การทำนายแบบจำลอง - เราควรใส่ใจกับการสร้างแบบจำลองที่หลากหลายหรือไม่


19

สำหรับการสร้างแบบจำลองการทำนายเราจำเป็นต้องคำนึงถึงตัวเราด้วยแนวคิดทางสถิติเช่นเอฟเฟกต์แบบสุ่มและการไม่เป็นอิสระจากการสังเกต (มาตรการซ้ำ ๆ )? ตัวอย่างเช่น....

ฉันมีข้อมูลจากแคมเปญอีเมลโดยตรง 5 รายการ (เกิดขึ้นในช่วงหนึ่งปี) ที่มีคุณลักษณะและการตั้งค่าสถานะการซื้อต่างๆ เป็นการดีที่ฉันจะใช้ข้อมูลทั้งหมดนี้รวมกันเพื่อสร้างแบบจำลองสำหรับการซื้อที่กำหนดคุณลักษณะของลูกค้าในช่วงเวลาของแคมเปญ เหตุผลคือเหตุการณ์การซื้อหายากและฉันต้องการใช้ข้อมูลให้มากที่สุด มีโอกาสที่ลูกค้าที่กำหนดอาจอยู่ในทุก ๆ 1 ถึง 5 ของแคมเปญ - หมายความว่าไม่มีความเป็นอิสระระหว่างบันทึก

ไม่สำคัญเมื่อใช้:

1) วิธีการเรียนรู้ของเครื่อง (เช่น tree, MLP, SVM)

2) วิธีการทางสถิติ (การถดถอยโลจิสติก)?

**ADD:**

ความคิดของฉันเกี่ยวกับการสร้างแบบจำลองการคาดการณ์คือถ้าแบบจำลองใช้งานได้ เพื่อให้ฉันไม่เคยพิจารณาความสำคัญของสมมติฐาน การนึกถึงกรณีที่ฉันอธิบายไว้ข้างต้นทำให้ฉันสงสัย

MLP and SVMใช้ขั้นตอนวิธีการเรียนรู้เครื่องเช่น สิ่งเหล่านี้ถูกใช้อย่างประสบความสำเร็จในการสร้างแบบจำลองเหตุการณ์ไบนารีเช่นตัวอย่างของฉันด้านบน แต่ยังมีข้อมูลอนุกรมเวลาที่มีความสัมพันธ์อย่างชัดเจน อย่างไรก็ตามฟังก์ชั่นการสูญเสียการใช้งานจำนวนมากที่มีความเป็นไปได้และมาจากการสันนิษฐานว่าเป็นข้อผิดพลาดคือ id ตัวอย่างเช่นต้นไม้เพิ่มระดับความลาดชันใน R gbmใช้ฟังก์ชั่นการสูญเสียความเบี่ยงเบนที่ได้มาจากทวินาม ( หน้า 10 )


1
มันจะสำคัญสำหรับวิธีการทางสถิติที่ถือว่าเป็นอิสระระหว่างบันทึกเพราะคุณต้องรับมือกับมาตรการซ้ำ ๆ
มิเชล

4
ดูเหมือนว่าหนึ่งในความแตกต่างที่สำคัญระหว่างการเรียนรู้ของเครื่องที่เน้นการทำนายและสถิติที่เน้นการอนุมานเป็นสิ่งที่คุณพูด B_Miner การเรียนรู้ของเครื่องนั้นเกี่ยวข้องกับสิ่งที่ได้ผลในขณะที่สถิติดั้งเดิมให้ความสนใจเป็นพิเศษกับข้อสมมติฐาน ในทั้งสองกรณีคุณจำเป็นต้องตระหนักถึงสมมติฐาน / คุณสมบัติของวิธีการของคุณจากนั้นทำการตัดสินใจอย่างชาญฉลาดไม่ว่าจะสำคัญหรือไม่ก็ตาม คุณอาจหลอกตัวเองในแบบจำลองการทำนายว่าแบบจำลองของคุณทำงานได้หรือไม่หากคุณไม่เข้าใจสมมติฐาน / คุณสมบัติของวิธีการ
Anne Z.

2
@ AnneZ หากคุณทำตามแนวทางการตรวจสอบที่แนะนำของชุดฝึกอบรม - ชุดทดสอบและชุดตรวจสอบ (ตัวอย่างทั้งหมดมีขนาดใหญ่พอ) ในการสร้างแบบจำลองการทำนายและคุณพบบางสิ่งที่ใช้งานได้ ฉันไม่แนะนำแอปพลิเคชั่น ML อย่างไม่ต้องสงสัยฉันแค่สงสัยว่า ...
steffen

2
ในบริบทนี้กระดาษ"การสร้างแบบจำลองทางสถิติสองวัฒนธรรม"อาจจะเป็นที่น่าสนใจกล่าวถึงในสามสโมสรวารสาร crossvalidated
Steffen

คำตอบ:


14

ฉันสงสัยตัวเองและนี่คือข้อสรุปเบื้องต้นของฉัน ฉันจะมีความสุขถ้าใครสามารถเสริม / แก้ไขนี้ด้วยความรู้และการอ้างอิงใด ๆ ในหัวข้อนี้

หากคุณต้องการทดสอบสมมติฐานเกี่ยวกับค่าสัมประสิทธิ์การถดถอยโลจิสติกโดยการตรวจสอบนัยสำคัญทางสถิติคุณจำเป็นต้องสร้างแบบจำลองความสัมพันธ์ระหว่างการสังเกต (หรือถูกต้องสำหรับการไม่เป็นอิสระ) เพราะมิฉะนั้นข้อผิดพลาดมาตรฐานของคุณจะเล็กเกินไป ผลกระทบของคลัสเตอร์ แต่สัมประสิทธิ์การถดถอยนั้นไม่เอนเอียงแม้จะมีการสังเกตที่สัมพันธ์กันดังนั้นจึงควรใช้แบบจำลองดังกล่าวเพื่อการทำนาย

ในการสร้างแบบจำลองการคาดการณ์คุณไม่จำเป็นต้องอธิบายความสัมพันธ์อย่างชัดเจนเมื่อฝึกแบบจำลองของคุณไม่ว่าคุณจะใช้การถดถอยแบบโลจิสติกส์หรือวิธีการอื่น อย่างไรก็ตามหากคุณต้องการใช้ชุดโฮลด์เอาต์สำหรับการตรวจสอบความถูกต้องหรือการคำนวณข้อผิดพลาดนอกตัวอย่างคุณจะต้องตรวจสอบให้แน่ใจว่าการสังเกตสำหรับแต่ละบุคคลปรากฏในชุดเดียวเท่านั้นไม่ว่าจะเป็นการฝึกอบรมหรือการตรวจสอบ ไม่เช่นนั้นแบบจำลองของคุณจะทำนายให้กับบุคคลที่มีข้อมูลอยู่แล้วและคุณไม่ได้รับการอ่านอย่างแท้จริงเกี่ยวกับความสามารถในการจำแนกประเภทนอกตัวอย่าง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.