นี่เป็นหัวข้อที่กว้างและคุณจะพบกับเหตุผลหลายประการว่าทำไมข้อมูลควรเป็นหรือถูกถังข้อมูลอยู่แล้ว ไม่ใช่ทั้งหมดที่เกี่ยวข้องกับความแม่นยำในการทำนาย
อันดับแรกนี่คือตัวอย่างที่ผู้สร้างโมเดลอาจต้องการฝากข้อมูล สมมติว่าฉันกำลังสร้างแบบจำลองการให้คะแนนเครดิต: ฉันต้องการทราบว่าคนอื่นมีแนวโน้มที่จะผิดนัดชำระหนี้เงินกู้ ในข้อมูลของฉันฉันมีคอลัมน์ที่ระบุสถานะของรายงานเครดิต นั่นคือฉันสั่งให้รายงานจากหน่วยงานจัดอันดับและหน่วยงานที่ส่งคืนกล่าวว่าคะแนนกรรมสิทธิ์ของพวกเขาพร้อมกับตัวแปรเด็ดขาดระบุความน่าเชื่อถือของคะแนนนี้ ตัวบ่งชี้นี้อาจถูกปรับละเอียดมากกว่าที่ฉันต้องการสำหรับจุดประสงค์ของฉัน ตัวอย่างเช่น "ข้อมูลไม่เพียงพอสำหรับคะแนนที่เชื่อถือได้" อาจแบ่งออกเป็นหลายคลาสเช่น "อายุน้อยกว่า 20 ปี", "เพิ่งย้ายไปยังประเทศ", "ไม่มีประวัติเครดิตก่อนหน้านี้" ฯลฯ อาจมีประชากรเบาบางและด้วยเหตุนี้ค่อนข้างไร้ประโยชน์ในการถดถอยหรือรูปแบบอื่น ๆ ในการจัดการกับสิ่งนี้ฉันอาจต้องการรวมกลุ่มของคลาสเข้าด้วยกันเพื่อรวมพลังทางสถิติเข้าเป็นคลาส "ตัวแทน" ตัวอย่างเช่นมันอาจจะสมเหตุสมผลสำหรับฉันที่จะใช้ตัวบ่งชี้ไบนารี "คืนข้อมูลที่ดี" กับ "ไม่มีข้อมูลคืน" จากประสบการณ์ของผมการใช้งานถังหลายครั้งตกอยู่ในภาวะทั่วไปยุบของประชากรเบาบางประเภทประเภท
อัลกอริทึมบางตัวใช้การถังข้อมูลภายใน ตัวอย่างเช่นต้นไม้ที่พอดีกับอัลกอริธึมการส่งเสริมมักใช้เวลาส่วนใหญ่ในขั้นตอนการสรุปซึ่งข้อมูลต่อเนื่องในแต่ละโหนดจะถูกแยกออกและคำนวณค่าเฉลี่ยของการตอบสนองในที่เก็บข้อมูลแต่ละชุด สิ่งนี้ช่วยลดความซับซ้อนในการคำนวณอย่างมากในการค้นหาการแยกที่เหมาะสมโดยไม่ต้องเสียสละความแม่นยำมากนักเนื่องจากการเพิ่มขึ้น
นอกจากนี้คุณยังอาจได้รับข้อมูลล่วงหน้าแล้ว ข้อมูลที่ไม่ต่อเนื่องนั้นง่ายกว่าในการบีบอัดและจัดเก็บ - ตัวเลขจำนวนจุดลอยตัวที่ยาวไม่สามารถบีบอัดได้ แต่เมื่อแยกเป็น "สูง", "ปานกลาง" และ "ต่ำ" คุณสามารถประหยัดพื้นที่ได้มากในฐานข้อมูลของคุณ ข้อมูลของคุณอาจมาจากแหล่งที่กำหนดเป้าหมายในแอปพลิเคชันที่ไม่ใช่แบบจำลอง สิ่งนี้มีแนวโน้มที่จะเกิดขึ้นมากมายเมื่อฉันได้รับข้อมูลจากองค์กรที่ทำงานวิเคราะห์น้อยลง ข้อมูลของพวกเขามักจะถูกใช้สำหรับการรายงานและสรุปให้อยู่ในระดับสูงเพื่อช่วยในการตีความของรายงานให้กับคนธรรมดา ข้อมูลนี้ยังคงมีประโยชน์ แต่บ่อยครั้งที่พลังบางอย่างหายไป
สิ่งที่ฉันเห็นคุณค่าน้อยลงแม้ว่าฉันจะแก้ไขได้ แต่เป็นไปได้คือการตรวจวัดอย่างต่อเนื่องล่วงหน้าเพื่อวัตถุประสงค์ในการสร้างแบบจำลอง มีวิธีการที่ทรงพลังมากมายสำหรับการปรับเอฟเฟ็กต์ที่ไม่ใช่เชิงเส้นให้เหมาะกับการทำนายอย่างต่อเนื่อง ฉันมักจะเห็นว่านี่เป็นการปฏิบัติที่ไม่ดี