สถิติและข้อมูลขนาดใหญ่ stacking

7

อุตสาหกรรมเทียบกับความท้าทายของ Kaggle การรวบรวมการสังเกตเพิ่มเติมและการเข้าถึงตัวแปรเพิ่มเติมสำคัญกว่าการสร้างแบบจำลองแฟนซีหรือไม่

ฉันหวังว่าชื่อจะอธิบายได้ด้วยตนเอง ใน Kaggle ผู้ชนะส่วนใหญ่ใช้การสแต็คที่มีโมเดลพื้นฐานหลายร้อยครั้งเพื่อบีบ MSE เพิ่มอีกสองสาม% ความแม่นยำ ... โดยทั่วไปจากประสบการณ์ของคุณการสร้างแบบจำลองที่มีความสำคัญเช่นการวางซ้อน vs เพียงรวบรวมข้อมูลเพิ่มเติมและคุณสมบัติอื่น ๆ สำหรับข้อมูลหรือไม่

56 large-data stacking collecting-data kaggle

2

นี่เป็นวิธีการถดถอยที่ล้ำสมัยหรือไม่?

ฉันได้ติดตามการแข่งขัน Kaggle มาเป็นเวลานานและฉันได้ตระหนักว่ากลยุทธ์การชนะจำนวนมากเกี่ยวข้องกับการใช้ "threes ใหญ่" อย่างน้อยหนึ่งอย่าง: การใส่ถุงการส่งเสริมและการซ้อน สำหรับการถดถอยแทนที่จะมุ่งเน้นไปที่การสร้างแบบจำลองการถดถอยที่ดีที่สุดที่เป็นไปได้การสร้างแบบจำลองการถดถอยหลายแบบเช่นการถดถอยเชิงเส้นแบบทั่วไป (ทั่วไป) การสุ่มป่า KNN NN และ SVM และการผสมผสานผลลัพธ์เป็นวิธีที่สมเหตุสมผล - ดำเนินการแต่ละวิธีเป็นจำนวนมากครั้ง แน่นอนความเข้าใจที่มั่นคงของแต่ละวิธีคือกุญแจสำคัญและเรื่องราวที่ใช้งานง่ายสามารถบอกได้ตามแบบจำลองการถดถอยเชิงเส้น แต่ฉันสงสัยว่านี่เป็นวิธีการที่ทันสมัยเพื่อให้ได้ผลลัพธ์ที่ดีที่สุดหรือไม่

33 predictive-models boosting bagging stacking model-averaging

5

เครื่องจักรอัตโนมัติเรียนรู้ที่จะฝันหรือไม่?

เมื่อฉันค้นพบการเรียนรู้ของเครื่องฉันเห็นเทคนิคที่น่าสนใจต่าง ๆ เช่น: โดยอัตโนมัติขั้นตอนวิธีการปรับแต่งด้วยเทคนิคเช่นgrid search, ได้รับผลลัพธ์ที่ถูกต้องมากขึ้นผ่านการรวมกันของขั้นตอนวิธีการที่แตกต่างกันของ "พิมพ์" เหมือนกันว่าboosting, ได้รับผลลัพธ์ที่ถูกต้องมากขึ้นผ่านการรวมกันของขั้นตอนวิธีการที่แตกต่างกัน ( แต่ไม่ใช่ชนิดเดียวกันของอัลกอริทึม) ว่าstacking, และอาจมีอีกมากที่ฉันยังต้องค้นพบ ... คำถามของฉันมีดังต่อไปนี้: มีชิ้นส่วนเหล่านั้นทั้งหมด แต่เป็นไปได้หรือไม่ที่จะรวมเข้าด้วยกันเพื่อสร้างอัลกอริทึมที่ใช้เป็นข้อมูลที่ได้รับการทำความสะอาดและผลลัพธ์ที่ดีโดยการนำเอาเทคนิคที่ดีที่สุดออกมา? (แน่นอนว่ามันอาจจะมีประสิทธิภาพน้อยกว่าที่นักวิทยาศาสตร์ด้านข้อมูลมืออาชีพ แต่เขาจะดีกว่าฉัน!) ถ้าใช่คุณมีรหัสตัวอย่างหรือคุณรู้กรอบที่สามารถทำได้หรือไม่? แก้ไข:หลังจากคำตอบบางอย่างดูเหมือนว่าจะต้องแคบลงบางส่วน ลองยกตัวอย่างเรามีหนึ่งคอลัมน์ที่มีข้อมูลหมวดหมู่ลองเรียกมันมาyและเราต้องการทำนายจากข้อมูลตัวเลขที่เป็นข้อมูลXหุ่นหรือข้อมูลตัวเลขจริง (ความสูงอุณหภูมิ) เราถือว่าการทำความสะอาดเสร็จสิ้นแล้ว มีอัลกอริทึมที่มีอยู่ที่สามารถใช้ข้อมูลดังกล่าวและเอาท์พุททำนาย? (โดยการทดสอบอัลกอริธึมหลายตัวการปรับจูนการเพิ่มประสิทธิภาพ ฯลฯ ) ถ้าใช่มันมีประสิทธิภาพในการคำนวณ (การคำนวณเสร็จในเวลาที่เหมาะสมถ้าเราเปรียบเทียบกับอัลกอริทึมปกติ) และคุณมีตัวอย่างของรหัสหรือไม่?

12 machine-learning algorithms boosting stacking automatic-algorithms

1

การเรียนรู้ทั้งมวล: ทำไม Model Stacking จึงมีประสิทธิภาพ

เมื่อเร็ว ๆ นี้ฉันเริ่มสนใจการวางโมเดลเป็นรูปแบบของการเรียนรู้ทั้งมวล โดยเฉพาะอย่างยิ่งฉันได้ทดลองกับชุดของเล่นบางอย่างสำหรับปัญหาการถดถอย ฉันได้ใช้งานตัวแยกระดับ "ระดับ 0" เป็นรายบุคคลโดยเก็บการคาดการณ์ผลลัพธ์ของ regressor แต่ละอันไว้เป็นคุณสมบัติใหม่สำหรับ "meta-regressor" เพื่อใช้เป็นอินพุตและพอดีกับ meta-regressor นี้กับคุณสมบัติใหม่เหล่านี้ (การคาดคะเนจากระดับ 0 regressors) ฉันรู้สึกประหลาดใจอย่างยิ่งที่ได้เห็นการปรับปรุงที่เหนือกว่าของ regressors ส่วนบุคคลเมื่อทำการทดสอบ meta-regressor กับชุดการตรวจสอบความถูกต้อง ดังนั้นนี่คือคำถามของฉัน: ทำไมการวางแบบจำลองจึงมีประสิทธิภาพ โดยสังเขปฉันคาดหวังว่ารูปแบบที่ทำการวางซ้อนจะทำงานได้ไม่ดีเนื่องจากดูเหมือนว่าจะมีการแสดงคุณสมบัติที่ไม่ดีเมื่อเทียบกับรุ่นระดับ 0 แต่ละตัว นั่นคือถ้าฉันฝึก 3 ระดับ 0 regressors บนชุดข้อมูลที่มีคุณสมบัติ 20 รายการและใช้การคาดคะเนระดับ 0 regressors เหล่านี้เพื่อป้อนข้อมูลให้กับ meta-regressor ของฉันนี่หมายความว่า meta-regressor ของฉันมีเพียง 3 คุณสมบัติในการเรียนรู้จาก ดูเหมือนว่ามีการเข้ารหัสข้อมูลเพิ่มเติมในคุณลักษณะดั้งเดิม 20 ประการที่รีจีสเตอร์ระดับ 0 มีไว้สำหรับการฝึกอบรมมากกว่าฟีเจอร์เอาต์พุต 3 …

11 machine-learning ensemble stacking

คำถามติดแท็ก stacking