ข้อความที่ตัดตอนมาต่อไปนี้มาจากHedge Fund Market Wizzards ของ Schwager (พฤษภาคม 2012) สัมภาษณ์กับผู้จัดการกองทุน Hedge ที่ประสบความสำเร็จอย่างต่อเนื่อง Jaffray Woodriff:
สำหรับคำถาม: "อะไรคือข้อผิดพลาดที่เลวร้ายที่สุดที่ผู้คนทำในการขุดข้อมูล?":
ผู้คนจำนวนมากคิดว่าพวกเขาโอเคเพราะพวกเขาใช้ข้อมูลในตัวอย่างสำหรับการฝึกอบรมและข้อมูลนอกตัวอย่างสำหรับการทดสอบ จากนั้นพวกเขาเรียงลำดับโมเดลตามวิธีที่พวกเขาดำเนินการกับข้อมูลในตัวอย่างและเลือกคนที่ดีที่สุดในการทดสอบข้อมูลที่ไม่อยู่ในกลุ่มตัวอย่าง แนวโน้มของมนุษย์คือการใช้แบบจำลองที่ยังคงทำได้ดีในข้อมูลที่ไม่อยู่ในกลุ่มตัวอย่างและเลือกแบบจำลองเหล่านั้นเพื่อการซื้อขาย กระบวนการประเภทนั้นเปลี่ยนข้อมูลที่ไม่อยู่ในกลุ่มตัวอย่างให้เป็นส่วนหนึ่งของข้อมูลการฝึกอบรมเพราะมันเลือกรูปแบบที่ทำได้ดีที่สุดในช่วงเวลาตัวอย่าง เป็นหนึ่งในข้อผิดพลาดที่พบบ่อยที่สุดที่ผู้คนทำและหนึ่งในสาเหตุที่การทำ data data เพราะโดยทั่วไปแล้วจะทำให้ได้ผลลัพธ์ที่แย่มาก
ผู้สัมภาษณ์ถามมากกว่า: "คุณควรทำอะไรแทน"
คุณสามารถมองหารูปแบบที่โมเดลโดยเฉลี่ยแล้วตัวอย่างทั้งหมดยังคงทำได้ดี คุณรู้ว่าคุณทำได้ดีถ้าค่าเฉลี่ยสำหรับโมเดลที่ไม่อยู่ในกลุ่มตัวอย่างนั้นเป็นเปอร์เซ็นต์ที่สำคัญของคะแนนในตัวอย่าง โดยทั่วไปแล้วคุณจะได้อยู่ที่ไหนสักแห่งจริง ๆ ถ้าผลลัพธ์นอกกลุ่มตัวอย่างมากกว่า 50 เปอร์เซ็นต์ของตัวอย่าง รูปแบบธุรกิจของ QIM จะไม่ทำงานถ้า SAS และ IBM กำลังสร้างซอฟต์แวร์การสร้างแบบจำลองการทำนายที่ยอดเยี่ยม
คำถามของฉัน
มันสมเหตุสมผลหรือไม่? เขาหมายถึงอะไร คุณมีเงื่อนงำหรือบางทีอาจเป็นชื่อของวิธีการที่เสนอและการอ้างอิงบางส่วน? หรือผู้ชายคนนี้พบจอกศักดิ์สิทธิ์ที่ไม่มีใครเข้าใจหรือไม่? เขายังกล่าวในการสัมภาษณ์ครั้งนี้ว่าวิธีการของเขาอาจปฏิวัติวิทยาศาสตร์ ...