อุตสาหกรรมเทียบกับความท้าทายของ Kaggle การรวบรวมการสังเกตเพิ่มเติมและการเข้าถึงตัวแปรเพิ่มเติมสำคัญกว่าการสร้างแบบจำลองแฟนซีหรือไม่

56

ฉันหวังว่าชื่อจะอธิบายได้ด้วยตนเอง ใน Kaggle ผู้ชนะส่วนใหญ่ใช้การสแต็คที่มีโมเดลพื้นฐานหลายร้อยครั้งเพื่อบีบ MSE เพิ่มอีกสองสาม% ความแม่นยำ ... โดยทั่วไปจากประสบการณ์ของคุณการสร้างแบบจำลองที่มีความสำคัญเช่นการวางซ้อน vs เพียงรวบรวมข้อมูลเพิ่มเติมและคุณสมบัติอื่น ๆ สำหรับข้อมูลหรือไม่

— ทอม
แหล่งที่มา

4

มันขึ้นอยู่กับว่าคุณต้องการให้กระแสข้อมูลไหลผ่านที่มีประโยชน์ที่สามารถทำการฝึกอบรมใหม่ได้อย่างรวดเร็ว (หรือส่งไปยังชุดข้อมูลใหม่หรือคุณสมบัติใหม่) หรือชนะการแข่งขัน Kaggle ที่เฉพาะเจาะจง (บนชุดข้อมูลคงที่เฉพาะกับการรั่วไหล ทั้งหมด) สำหรับอดีตอัลกอริทึมที่ได้รับความแม่นยำ ballpark เดียวกันกับเวลาการฝึกอบรมที่ต่ำกว่ามากและในชุดข้อมูลที่มีขนาดเล็กคือ 'ดีกว่า' ลองนึกภาพว่า Kaggle เริ่มลงโทษการคำนวณ / ความต้องการหน่วยความจำหรือเวลาฝึกอบรมที่มากเกินไปหรือเอามารวมเป็นส่วนหนึ่งของคะแนนการส่ง (ฉันแนะนำให้พวกเขาควรมีอยู่แล้ว)

— smci

2

นำมาจาก"การใช้การเรียนรู้อย่างลึกซึ้งกับปัญหาในโลกแห่งความเป็นจริง"โดย Rasmus Rothe: "[... ] ในสถานการณ์โลกแห่งความเป็นจริงมันไม่เกี่ยวกับการแสดงให้เห็นว่าอัลกอริทึมใหม่ของคุณบีบประสิทธิภาพเพิ่มขึ้น 1% เมื่อเทียบกับวิธีอื่น เกี่ยวกับการสร้างระบบที่แข็งแกร่งซึ่งช่วยแก้ปัญหางานที่ต้องการด้วยความแม่นยำที่เพียงพอ "

— beatngu13

77

$\times$

ฉันได้อย่างต่อเนื่องพบว่าสิ่งที่สำคัญที่สุดเพียงอย่างเดียวคือการทำความเข้าใจข้อมูลของคุณ หากคุณไม่เข้าใจไดรเวอร์ที่สำคัญเช่นอีสเตอร์หรือโปรโมชั่นแสดงว่าคุณถึงวาระแล้ว บ่อยครั้งที่พอลงมาเพื่อทำความเข้าใจเกี่ยวกับธุรกิจเฉพาะดีพอที่จะถามคำถามที่ถูกต้องและบอกราชวงศ์ที่รู้จักจากราชวงศ์ที่ไม่รู้จัก

เมื่อคุณเข้าใจข้อมูลของคุณคุณต้องทำงานเพื่อให้ได้ข้อมูลที่สะอาด ฉันได้ดูแลจูเนียร์และฝึกงานจำนวนมากและสิ่งหนึ่งที่พวกเขาไม่เคยมีประสบการณ์ในวิชาสถิติและวิชาวิทยาศาสตร์ข้อมูลทั้งหมดของพวกเขาคือจำนวนอึที่มีอยู่ในข้อมูลที่คุณมี จากนั้นคุณต้องกลับไปที่แหล่งข้อมูลและพยายามดึงข้อมูลที่ดีออกมาหรือพยายามทำความสะอาดหรือแม้แต่ทิ้งบางสิ่งออกไป การเปลี่ยนระบบที่รันอยู่เพื่อให้ได้ข้อมูลที่ดีกว่านั้นอาจเป็นเรื่องยากอย่างน่าประหลาดใจ

เมื่อคุณเข้าใจข้อมูลของคุณและมีข้อมูลที่ค่อนข้างสะอาดแล้วคุณสามารถเล่นซอกับมันได้ น่าเสียดายที่ในเวลานี้ฉันพบว่าตัวเองหมดเวลาและทรัพยากร

ฉันเป็นแฟนตัวยงของการรวมโมเดล ("ซ้อนกัน") อย่างน้อยก็ในแง่ที่เป็นนามธรรมน้อยกว่าในด้านวิศวกรรมฟีเจอร์ที่แปลกประหลาดซึ่งมักจะข้ามเส้นไปสู่ดินแดนoverfitting - และแม้ว่ารูปแบบนักเล่นของคุณจะดีขึ้นเล็กน้อยโดยเฉลี่ย มักพบว่าการคาดการณ์ที่ไม่ดีจริง ๆ แย่ลงด้วยโมเดลที่ซับซ้อนกว่า นี่คือดีลเลอร์ในสายธุรกิจของฉัน การพยากรณ์ที่ไม่ดีจริง ๆ เพียงอย่างเดียวสามารถทำลายความไว้วางใจในระบบทั้งหมดได้อย่างสมบูรณ์ดังนั้นความทนทานจึงสูงมากในรายการลำดับความสำคัญของฉัน ไมล์สะสมของคุณอาจแตกต่างกันไป

จากประสบการณ์ของฉันใช่การผสมโมเดลสามารถปรับปรุงความแม่นยำได้ อย่างไรก็ตามผลกำไรที่ยิ่งใหญ่นั้นเกิดขึ้นจากสองขั้นตอนแรกคือการทำความเข้าใจข้อมูลของคุณและทำความสะอาด (หรือรับข้อมูลที่สะอาดตั้งแต่แรก)

— S. Kolassa - Reinstate Monica
แหล่งที่มา

4

@bendl, YMMV หมายถึงการสะสมไมล์ของคุณอาจแตกต่างกัน คำแถลงประโยคก่อนหน้านี้อาจจะจริงหรือไม่มากหรือน้อยในสถานการณ์ที่แตกต่างกัน

— Orphevs

2

10^{6}

$10^6$

2

ไม่เคยรังเกียจประสบการณ์ในห้องเรียนเท่านั้น มีผู้ปฏิบัติงานในอุตสาหกรรมจำนวนมากที่มีประสบการณ์เกี่ยวกับบริบทของอัตราส่วนสัญญาณต่อเสียงรบกวนสูงเช่นการจดจำภาพและพยายามใช้วิธีการเดียวกันกับกระบวนการทางสังคมที่มีเสียงดังเช่นการสรรหาเพื่อประโยชน์ของพระเจ้า

— Brash Equilibrium

2

@Orphevs ในคำอื่น ๆ คำสั่งนี้อาจ overfitted กับสถานการณ์ของฉันและไม่พูดคุยกันดี : P

— JAD

2

(+1) ในเรื่องเกี่ยวกับปัญหาการทำความสะอาดข้อมูลด้วยบัณฑิตใหม่มันก็มีค่าที่สังเกตว่าในระหว่างการศึกษาอย่างเป็นทางการของฉันมันเป็นเรื่องง่ายที่จะออกมาคิดว่าการทำความสะอาดข้อมูลเป็นสิ่งที่ไม่ดี นั่นคือการล้างข้อมูลสามารถส่งผลกระทบอย่างรุนแรงต่ออัตราความผิดพลาดประเภทที่ 1 (โดยเฉพาะอย่างยิ่งหากมีอคติในกระบวนการทำความสะอาด) ดังนั้นเราจึงได้รับการสอนเกี่ยวกับอันตรายของการทำความสะอาดข้อมูล บทเรียนเหล่านี้ไม่ผิด แต่ฉันไม่คิดว่าการศึกษาที่เป็นทางการของฉันเน้นย้ำถึงประโยชน์ของการทำความสะอาดข้อมูล

— หน้าผา AB

42

เห็นได้ชัดว่าฉันไม่สามารถพูดได้ทั้งหมดอุตสาหกรรม แต่ฉันทำงานในอุตสาหกรรมและมีการแข่งขัน Kaggle ดังนั้นฉันจะแบ่งปัน POV ของฉัน

ขั้นแรกคุณต้องสงสัยว่า Kaggle ไม่ตรงกับสิ่งที่ผู้คนทำในอุตสาหกรรม มันเป็นเกมและอยู่ภายใต้การควบคุมของ gamesmanship โดยมีข้อ จำกัด มากมาย ตัวอย่างเช่นในการแข่งขันซานทานแดร์ที่กำลังรันอยู่:

ชื่อฟีเจอร์ถูกแฮชปลอมเพื่อซ่อนความหมาย
ชุด "การฝึกอบรม" ถูก จำกัด ดุ้งดิ้งให้มีแถวน้อยกว่าคอลัมน์โดยเฉพาะเพื่อให้การเลือกคุณสมบัติความทนทานและเทคนิคการทำให้เป็นมาตรฐานเป็นสิ่งที่ขาดไม่ได้สำหรับความสำเร็จ
ชุด "ทดสอบ" ที่เรียกว่ามีการแจกแจงที่แตกต่างกันอย่างชัดเจนกว่าชุดฝึกอบรมและทั้งสองอย่างชัดเจนไม่ใช่ตัวอย่างแบบสุ่มจากประชากรเดียวกัน

หากมีคนให้ชุดข้อมูลแบบนี้กับฉันในที่ทำงานฉันจะเสนอให้ทำงานกับพวกเขาในงานวิศวกรรมคุณลักษณะเพื่อให้เราได้รับคุณลักษณะที่มีประโยชน์มากขึ้น ฉันขอแนะนำให้เราใช้ความรู้ในโดเมนเพื่อตัดสินใจเกี่ยวกับเงื่อนไขการโต้ตอบ, เกณฑ์, กลยุทธ์การเข้ารหัสตัวแปรเด็ดขาด, ฯลฯ การเข้าถึงปัญหาด้วยวิธีนี้จะมีประสิทธิผลมากกว่าการพยายามดึงความหมายจากไฟล์ไอเสียที่ผลิตโดยวิศวกรฐานข้อมูลที่ไม่มี การฝึกอบรมใน ML

นอกจากนี้หากคุณเรียนรู้พูดว่าคอลัมน์ตัวเลขเฉพาะนั้นไม่ใช่ตัวเลข แต่เป็นรหัสไปรษณีย์คุณสามารถไปและรับข้อมูลจากแหล่งข้อมูลบุคคลที่สามเช่น US Census เพื่อเพิ่มข้อมูลของคุณ หรือถ้าคุณมีวันที่บางทีคุณอาจรวมราคาปิด S&P 500 สำหรับวันนั้น กลยุทธ์การเสริมภายนอกดังกล่าวจำเป็นต้องมีความรู้โดยละเอียดเกี่ยวกับชุดข้อมูลที่เฉพาะเจาะจงและความรู้ด้านโดเมนที่สำคัญ แต่มักจะมีการจ่ายผลตอบแทนที่ใหญ่กว่าการปรับปรุงอัลกอริทึมที่บริสุทธิ์

ดังนั้นความแตกต่างใหญ่ครั้งแรกระหว่างอุตสาหกรรมและ Kaggle ก็คือในอุตสาหกรรมคุณสมบัติ (ในแง่ของข้อมูลอินพุต) ต่อรองได้

ความแตกต่างระดับที่สองคือประสิทธิภาพ บ่อยครั้งที่แบบจำลองจะถูกปรับใช้กับการผลิตด้วยวิธีใดวิธีหนึ่งจากสองวิธี: 1) การทำนายแบบจำลองจะถูกคำนวณล่วงหน้าสำหรับทุกแถวในตารางฐานข้อมูลขนาดใหญ่มากหรือ 2) แอปพลิเคชันหรือเว็บไซต์จะส่งข้อมูลแถวเดียว ต้องการการคาดการณ์ที่ส่งคืนในเวลาจริง ทั้งสองกรณีใช้ต้องมีประสิทธิภาพที่ดี ด้วยเหตุผลเหล่านี้คุณมักจะไม่เห็นรูปแบบที่สามารถคาดเดาหรือใช้หน่วยความจำจำนวนมากเช่น K- ใกล้เคียง - เพื่อนบ้านหรือป่าสุ่มพิเศษ ในทางกลับกันการถดถอยโลจิสติกหรือโครงข่ายประสาทเทียมนั้นสามารถให้คะแนนชุดระเบียนที่มีการคูณเมทริกซ์ไม่กี่และการคูณเมทริกซ์สามารถปรับให้เหมาะสมกับห้องสมุดที่เหมาะสมแม้ว่าฉันจะได้รับ +0.001 AUC ถ้าฉันวางซ้อนกับรุ่นอื่นที่ไม่ใช่พารามิเตอร์ แต่ฉันก็ไม่ได้เพราะการคาดการณ์ปริมาณงานและความล่าช้าจะลดลงมากเกินไป

มีมิติความน่าเชื่อถือสำหรับสิ่งนี้เช่นกัน - การจัดเรียงไลบรารีบุคคลที่สามที่ล้ำสมัยสี่แบบกล่าวว่าLightGBM , xgboost , catboostและTensorflow (บนGPUsแน่นอนอาจทำให้คุณได้รับการลดลง. 01 ใน MSE ชนะการแข่งขัน Kaggle แต่เป็นห้องสมุดที่แตกต่างกันสี่แห่งในการติดตั้งปรับใช้และแก้ไขข้อบกพร่องหากมีสิ่งผิดปกติเกิดขึ้น มันยอดเยี่ยมมากถ้าคุณสามารถทำให้ทุกอย่างทำงานบนแล็ปท็อปของคุณได้ แต่การทำให้มันทำงานใน Docker container ที่ทำงานบน AWS นั้นเป็นเรื่องที่แตกต่างอย่างสิ้นเชิง บริษัท ส่วนใหญ่ไม่ต้องการอยู่หน้าทีมผู้พัฒนาเล็ก ๆ เพื่อจัดการกับปัญหาการปรับใช้เหล่านี้

ที่กล่าวว่าการสแต็คในตัวเองไม่จำเป็นต้องเป็นเรื่องใหญ่ ในความเป็นจริงการซ้อนโมเดลที่แตกต่างกันสองสามแบบซึ่งทำงานได้ดีเท่า ๆ กัน แต่มีขอบเขตการตัดสินใจที่แตกต่างกันมากเป็นวิธีที่ยอดเยี่ยมในการรับชนขนาดเล็กใน AUC และการชนขนาดใหญ่ในความทนทาน อย่าไปโยนชุดครัวจำนวนมากเข้าไปในชุดที่แตกต่างของคุณซึ่งคุณเริ่มมีปัญหาการปรับใช้

— olooney
แหล่งที่มา

เล็กน้อยฉันคิดว่าสัญลักษณ์แสดงหัวข้อย่อยของคุณ # 2 หายไปในตอนท้ายของประโยค?

— mbrig

20

จากประสบการณ์ของฉันข้อมูลที่มากขึ้นและคุณสมบัติอื่น ๆ มีความสำคัญมากกว่า fanciest, stacked, tuned มากที่สุดรุ่นหนึ่งที่สามารถเกิดขึ้นได้

ดูการแข่งขันโฆษณาออนไลน์ที่เกิดขึ้น แบบจำลองที่ชนะนั้นซับซ้อนมากพวกเขาลงเอยด้วยการฝึกฝนตลอดทั้งสัปดาห์ (ในชุดข้อมูลขนาดเล็กมากเมื่อเทียบกับมาตรฐานอุตสาหกรรม) ด้านบนของที่คาดการณ์ในรูปแบบสแต็คมีความยาวมากกว่าในรูปแบบเชิงเส้นง่าย ในหัวข้อเดียวกันจำไว้ว่าNetflix ไม่เคยใช้อัลกอริทึม 1M $ เพราะของค่าใช้จ่ายด้านวิศวกรรม

ฉันจะบอกว่าการแข่งขันวิทยาศาสตร์ข้อมูลออนไลน์เป็นวิธีที่ดีสำหรับ บริษัท ที่จะรู้ว่า "อะไรคือความแม่นยำสูงสุด (หรือการวัดประสิทธิภาพใด ๆ ) ที่สามารถทำได้" โดยใช้ข้อมูลที่รวบรวม (ณ เวลาใดเวลาหนึ่ง) โปรดทราบว่านี่เป็นปัญหาที่ยากซึ่งกำลังแก้ไขอยู่! แต่ในอุตสาหกรรมความรู้ด้านฟิลด์ฮาร์ดแวร์และข้อ จำกัด ทางธุรกิจมักจะกีดกันการใช้ "การสร้างแบบจำลองแฟนซี"

— RUser4512
แหล่งที่มา

2

จริงอยู่อาจเป็นไปได้ว่ากระบวนการรวบรวมข้อมูลนั้นมีการพัฒนาอยู่เสมอ ซึ่งหมายความว่าอัลกอริทึมที่ใช้ในปัจจุบันจะล้าสมัย (นอกเหนือจากค่าใช้จ่ายด้านวิศวกรรมหรือเวลาการฝึกอบรมตามที่คุณชี้) ดังนั้นจึงจำเป็นต้องมีอัลกอริทึมที่ง่ายกว่าเร็วขึ้นและยืดหยุ่นมากขึ้น

— Tom

4

ฉันได้ยินหนึ่งในประเด็นหลักของการโพสต์นี้สรุปว่า "การเลือกตัวแปรที่ดีมักจะดีกว่าการเลือกรูปแบบที่ดี '

— aginensky

14

การซ้อนเพิ่มความซับซ้อนและลดความสามารถในการตีความได้อย่างมาก กำไรมักจะค่อนข้างเล็กเพื่อปรับมัน ดังนั้นในขณะที่การใช้ตระการตาอาจใช้กันอย่างแพร่หลาย (เช่น XGBoost) ฉันคิดว่าการซ้อนกันค่อนข้างหายากในอุตสาหกรรม

— rinspy
แหล่งที่มา

1

จุดดี. การตีความหมายมีความสำคัญอย่างมากในแอปพลิเคชันของฉัน (ผู้จัดการร้านค้าต้องการที่จะเข้าใจว่าเหตุใดการพยากรณ์จึงเป็นเช่นนั้น) ดังนั้นรูปแบบที่ยากต่อการตีความจึงมีปัญหา

— S. Kolassa - Reinstate Monica

ขอบคุณสำหรับข้อมูลเชิงลึกส่วนบุคคลสเตฟาน ในขณะที่ฉันพิจารณาว่าการตีความได้รับความทุกข์หรือหายไปเมื่อความซับซ้อนของแบบจำลองเพิ่มขึ้นฉันไม่ได้นึกถึงข้อ จำกัด ด้านเวลาที่กดดัน บริษัท อย่างแน่นอน การสร้างแบบจำลองแฟนซีอาจมีอัตราส่วนที่เลวร้ายที่สุดของ (ได้รับความแม่นยำ) / (ใช้เวลา)

— Tom

8

จากประสบการณ์ของฉันการรวบรวมข้อมูลและคุณสมบัติที่ดีนั้นมีความสำคัญมากกว่า

ลูกค้าที่เราทำงานด้วยมักจะมีข้อมูลจำนวนมากและไม่ใช่ทั้งหมดในรูปแบบที่สามารถส่งออกได้อย่างง่ายดายหรือใช้งานได้ง่าย ข้อมูลชุดแรกมักไม่ค่อยมีประโยชน์ มันเป็นหน้าที่ของเราที่จะต้องทำงานกับลูกค้าเพื่อให้ทราบว่าเราจำเป็นต้องใช้ข้อมูลใดเพื่อทำให้โมเดลมีประโยชน์มากขึ้น นี่เป็นกระบวนการที่วนซ้ำมาก

มีการทดลองมากมายเกิดขึ้นและเราต้องการโมเดลที่:

รวดเร็วในการฝึก
คาดเดาอย่างรวดเร็ว (มักเป็นข้อกำหนดทางธุรกิจ)
ตีความง่าย

จุดที่ 3) มีความสำคัญอย่างยิ่งเนื่องจากโมเดลที่ตีความได้ง่ายนั้นง่ายต่อการสื่อสารกับลูกค้าและง่ายต่อการจับถ้าเราทำอะไรผิด

— Akavall
แหล่งที่มา

7

นี่คือบางสิ่งที่ไม่ได้เกิดขึ้นมากบน Kaggle:

คุณมีตัวแปรมากขึ้นในโมเดลของคุณและ
ความสัมพันธ์ที่ซับซ้อนระหว่างตัวแปรเหล่านั้นกับเอาท์พุท

ความเสี่ยงมากขึ้นคุณจะเผชิญในช่วงชีวิตของรูปแบบว่า โดยทั่วไปเวลาจะถูกตรึงในการแข่งขัน Kaggle หรือมีช่วงเวลาสั้น ๆ ในอนาคตที่มีค่าชุดการทดสอบมาในอุตสาหกรรมรูปแบบนั้นอาจทำงานเป็นเวลาหลายปี และทั้งหมดที่อาจเป็นไปได้คือตัวแปรตัวเดียวที่จะยุ่งเหยิงสำหรับรุ่นทั้งหมดของคุณไปสู่นรกแม้ว่ามันจะถูกสร้างขึ้นอย่างไร้ที่ติ ฉันเข้าใจแล้วไม่มีใครอยากดูการแข่งขันที่คู่แข่งระมัดระวังสร้างความซับซ้อนของแบบจำลองกับความเสี่ยง แต่ในงานธุรกิจและคุณภาพชีวิตของคุณจะได้รับความเดือดร้อนหากมีสิ่งผิดปกติเกิดขึ้นกับแบบจำลองที่คุณรับผิดชอบ แม้แต่คนที่ฉลาดที่สุดก็ยังไม่ได้รับภูมิคุ้มกัน ใช้ตัวอย่างเช่นที่ความล้มเหลวในการทำนาย Google แนวโน้มไข้หวัดใหญ่ โลกเปลี่ยนไปและพวกเขาไม่เห็นว่ามา

สำหรับคำถามของ OP " โดยทั่วไปจากประสบการณ์ของคุณการสร้างแบบจำลองที่มีความสำคัญเช่นการซ้อน vs เพียงแค่รวบรวมข้อมูลเพิ่มเติมและคุณสมบัติอื่น ๆ สำหรับข้อมูล " มีอะไรบ้างฉันอายุมากอย่างเป็นทางการ แต่คำตอบของฉันคือถ้าคุณไม่มี โครงสร้างพื้นฐานการสร้างแบบจำลองที่แข็งแกร่งจริงๆมันจะดีกว่าถ้ามีโมเดลที่ตรงไปตรงมาด้วยชุดของตัวแปรที่น้อยที่สุดซึ่งความสัมพันธ์ระหว่างอินพุตกับเอาท์พุตนั้นค่อนข้างตรงไปตรงมา หากตัวแปรเพิ่งปรับปรุงตัวชี้วัดการสูญเสียของคุณ จำไว้ว่ามันเป็นงาน รับงานเตะนอกการแข่งขัน Kaggle ที่มีแรงจูงใจ "ไปใหญ่หรือกลับบ้าน"

ข้อยกเว้นประการหนึ่งคือหากสถานการณ์ทางธุรกิจเรียกร้องให้มีแบบจำลองประสิทธิภาพในระดับหนึ่งตัวอย่างเช่นหาก บริษัท ของคุณต้องการจับคู่หรือเอาชนะประสิทธิภาพของคู่แข่งเพื่อให้ได้เปรียบ (อาจเป็นในด้านการตลาด) แต่เมื่อมีความสัมพันธ์เชิงเส้นตรงระหว่างประสิทธิภาพของแบบจำลองกับผลกำไรทางธุรกิจการเพิ่มความซับซ้อนนั้นไม่ได้แสดงถึงความได้เปรียบทางการเงิน (ดู " Netflix ไม่เคยใช้อัลกอริทึม $ 1 ล้านเนื่องจากต้นทุนทางวิศวกรรม " - ขอโทษกับ @ RUser4512 บทความ). อย่างไรก็ตามในการแข่งขัน Kaggle นั้นกำไรที่เพิ่มขึ้นอาจส่งผลให้คุณมีหลายร้อยอันดับเมื่อคุณผ่านการแก้ปัญหาในบริเวณใกล้เคียง

— เบ็นโอโกเร็ก
แหล่งที่มา

3

คำตอบสั้น ๆ ซึ่งเป็นคำพูดที่ฉันชอบจากหนังสือ Deep Thinking ของ Gary Kasparov

กระบวนการที่ชาญฉลาดเต้นความรู้ที่เหนือกว่าและเทคโนโลยีที่เหนือกว่า

ฉันทำงานส่วนใหญ่กับข้อมูลทางการเงินตามลำดับเวลาและกระบวนการจากการรวบรวมข้อมูลทำความสะอาดประมวลผลแล้วทำงานร่วมกับเจ้าของปัญหาเพื่อหาว่าพวกเขาต้องการทำอะไรจริง ๆ แล้วสร้างคุณลักษณะและแบบจำลองเพื่อลองและแก้ไขปัญหา ปัญหาและสุดท้ายเพื่อย้อนกระบวนการตรวจสอบเพื่อปรับปรุงในครั้งต่อไป

กระบวนการทั้งหมดนี้มากกว่าผลรวมของส่วนต่างๆ ฉันมักจะได้รับประสิทธิภาพการทำงานทั่วไป 'ยอมรับ' ด้วยการถดถอยเชิงเส้น / โลจิสติกและพูดคุยกับผู้เชี่ยวชาญด้านโดเมนเพื่อสร้างคุณสมบัติวิธีที่ใช้เวลาได้ดีกว่าการใช้เวลามากกว่าปรับโมเดลของฉันให้พอดีกับข้อมูลที่ฉันมี

— Ken Syme
แหล่งที่มา