ถังคืออะไร?

10

ฉันได้ไปรอบ ๆ เพื่อหาคำอธิบายที่ชัดเจนของ "การถัง" ในการเรียนรู้ของเครื่องโดยไม่มีโชค สิ่งที่ฉันเข้าใจจนถึงตอนนี้ก็คือการสร้างถังข้อมูลนั้นมีความคล้ายคลึงกับปริมาณในการประมวลผลสัญญาณดิจิตอลโดยที่ช่วงของค่าต่อเนื่องจะถูกแทนที่ด้วยค่าที่ไม่ต่อเนื่องหนึ่งค่า ถูกต้องหรือไม่

อะไรคือข้อดีและข้อเสีย (นอกเหนือจากผลกระทบที่ชัดเจนของการสูญเสียข้อมูล) ของการใช้งานถังข้อมูล? มีกฎของหัวแม่มือเกี่ยวกับวิธีการใช้ถัง? มีแนวทาง / อัลกอริธึมสำหรับการใช้การทำให้เป็นถังก่อนการใช้การเรียนรู้ของเครื่องหรือไม่?

machine-learning dataset data-preprocessing

— MedAli
แหล่งที่มา

ฉันอาจไม่ได้คำตอบที่ถูกต้อง แต่การจำแนกแบบหยาบและการจำแนกแบบละเอียด [WoE และ IV] ช่วยในการจัดถัง ให้อภัยฉันหากนี่ไม่ใช่สิ่งที่คุณคาดหวัง

— Srikanth Guhan

4

นี่เป็นหัวข้อที่กว้างและคุณจะพบกับเหตุผลหลายประการว่าทำไมข้อมูลควรเป็นหรือถูกถังข้อมูลอยู่แล้ว ไม่ใช่ทั้งหมดที่เกี่ยวข้องกับความแม่นยำในการทำนาย

อันดับแรกนี่คือตัวอย่างที่ผู้สร้างโมเดลอาจต้องการฝากข้อมูล สมมติว่าฉันกำลังสร้างแบบจำลองการให้คะแนนเครดิต: ฉันต้องการทราบว่าคนอื่นมีแนวโน้มที่จะผิดนัดชำระหนี้เงินกู้ ในข้อมูลของฉันฉันมีคอลัมน์ที่ระบุสถานะของรายงานเครดิต นั่นคือฉันสั่งให้รายงานจากหน่วยงานจัดอันดับและหน่วยงานที่ส่งคืนกล่าวว่าคะแนนกรรมสิทธิ์ของพวกเขาพร้อมกับตัวแปรเด็ดขาดระบุความน่าเชื่อถือของคะแนนนี้ ตัวบ่งชี้นี้อาจถูกปรับละเอียดมากกว่าที่ฉันต้องการสำหรับจุดประสงค์ของฉัน ตัวอย่างเช่น "ข้อมูลไม่เพียงพอสำหรับคะแนนที่เชื่อถือได้" อาจแบ่งออกเป็นหลายคลาสเช่น "อายุน้อยกว่า 20 ปี", "เพิ่งย้ายไปยังประเทศ", "ไม่มีประวัติเครดิตก่อนหน้านี้" ฯลฯ อาจมีประชากรเบาบางและด้วยเหตุนี้ค่อนข้างไร้ประโยชน์ในการถดถอยหรือรูปแบบอื่น ๆ ในการจัดการกับสิ่งนี้ฉันอาจต้องการรวมกลุ่มของคลาสเข้าด้วยกันเพื่อรวมพลังทางสถิติเข้าเป็นคลาส "ตัวแทน" ตัวอย่างเช่นมันอาจจะสมเหตุสมผลสำหรับฉันที่จะใช้ตัวบ่งชี้ไบนารี "คืนข้อมูลที่ดี" กับ "ไม่มีข้อมูลคืน" จากประสบการณ์ของผมการใช้งานถังหลายครั้งตกอยู่ในภาวะทั่วไปยุบของประชากรเบาบางประเภทประเภท

อัลกอริทึมบางตัวใช้การถังข้อมูลภายใน ตัวอย่างเช่นต้นไม้ที่พอดีกับอัลกอริธึมการส่งเสริมมักใช้เวลาส่วนใหญ่ในขั้นตอนการสรุปซึ่งข้อมูลต่อเนื่องในแต่ละโหนดจะถูกแยกออกและคำนวณค่าเฉลี่ยของการตอบสนองในที่เก็บข้อมูลแต่ละชุด สิ่งนี้ช่วยลดความซับซ้อนในการคำนวณอย่างมากในการค้นหาการแยกที่เหมาะสมโดยไม่ต้องเสียสละความแม่นยำมากนักเนื่องจากการเพิ่มขึ้น

นอกจากนี้คุณยังอาจได้รับข้อมูลล่วงหน้าแล้ว ข้อมูลที่ไม่ต่อเนื่องนั้นง่ายกว่าในการบีบอัดและจัดเก็บ - ตัวเลขจำนวนจุดลอยตัวที่ยาวไม่สามารถบีบอัดได้ แต่เมื่อแยกเป็น "สูง", "ปานกลาง" และ "ต่ำ" คุณสามารถประหยัดพื้นที่ได้มากในฐานข้อมูลของคุณ ข้อมูลของคุณอาจมาจากแหล่งที่กำหนดเป้าหมายในแอปพลิเคชันที่ไม่ใช่แบบจำลอง สิ่งนี้มีแนวโน้มที่จะเกิดขึ้นมากมายเมื่อฉันได้รับข้อมูลจากองค์กรที่ทำงานวิเคราะห์น้อยลง ข้อมูลของพวกเขามักจะถูกใช้สำหรับการรายงานและสรุปให้อยู่ในระดับสูงเพื่อช่วยในการตีความของรายงานให้กับคนธรรมดา ข้อมูลนี้ยังคงมีประโยชน์ แต่บ่อยครั้งที่พลังบางอย่างหายไป

สิ่งที่ฉันเห็นคุณค่าน้อยลงแม้ว่าฉันจะแก้ไขได้ แต่เป็นไปได้คือการตรวจวัดอย่างต่อเนื่องล่วงหน้าเพื่อวัตถุประสงค์ในการสร้างแบบจำลอง มีวิธีการที่ทรงพลังมากมายสำหรับการปรับเอฟเฟ็กต์ที่ไม่ใช่เชิงเส้นให้เหมาะกับการทำนายอย่างต่อเนื่อง ฉันมักจะเห็นว่านี่เป็นการปฏิบัติที่ไม่ดี

— Matthew Drury
แหล่งที่มา

4

อ้างอิงจากบทความ"ระดับสูงและระดับต่ำวิทยาศาสตร์ข้อมูล"ถังเป็น

ขั้นตอนการจัดถัง (บางครั้งเรียกว่าการแบ่งหลายตัวแปร) ประกอบด้วยการระบุตัวชี้วัด (และการรวมกันของ 2-3 ตัวชี้วัด) ที่มีพลังการทำนายสูงรวมเข้าด้วยกันและจัดเรียงให้เหมาะสมเพื่อลดความแปรปรวนในถังขณะที่รักษาถังใหญ่พอ

ดังนั้นความเข้าใจของฉันคือคุณตะกละข้อมูลตามลักษณะการทำนายที่มากที่สุดแล้วจึงทำการวิเคราะห์กลุ่มย่อย

— อาร์เธอร์บี
แหล่งที่มา