เมื่อคุณมีชุดข้อมูลขนาดใหญ่เช่นนั้นคุณสามารถเล่นกับเทคนิคการสร้างแบบจำลองทางสถิติและการเรียนรู้ของเครื่องและได้รับการสนับสนุนอย่างมาก อย่างที่คนอื่นแนะนำผมขอแนะนำให้ลองสุ่มเลือกตัวอย่างจากข้อมูลและเล่นกับมัน เนื่องจากนี่เป็นปัญหาการจัดหมวดหมู่ฉันจะทำตามเทคนิคการจำแนกอย่างง่ายก่อนแล้วค่อยไปต่อด้วยวิธีที่ซับซ้อนกว่าในภายหลัง การถดถอยโลจิสติกเป็นสิ่งที่ดีในการเริ่มต้น
ฉันต้องการเพิ่มโมเดลกำเนิดที่ต้องลองด้วย ตัวแยกประเภท Naive Bayesเป็นหนึ่งในตัวแยกประเภทความน่าจะเป็นที่ง่ายที่สุดและมีประสิทธิภาพเหนือกว่าวิธีการที่ซับซ้อนมากมายเช่นการสนับสนุนเครื่องเวกเตอร์ในงานต่างๆ คุณสามารถดูนี้การดำเนินงานที่เรียบง่ายของ NB และนี้การเชื่อมโยงสำหรับการเปรียบเทียบ NB การถดถอยโลจิสติก
หนึ่งสามารถสร้างลักษณนาม Naive Bayes (NB) เป็นแบบจำลองพื้นฐานและจากนั้นไปสำหรับเทคนิคการเรียนรู้ของเครื่องเช่น Support vector machines (SVM) หรือ multilayer perceptrons (MLP) การปิดการซื้อขายที่นี่คือ NB มีราคาถูกกว่า MLP ที่คำนวณได้ดังนั้นจึงต้องการประสิทธิภาพที่ดีขึ้นจาก MLP
การค้นหาที่ตรงประเด็นของคุณ: การเรียนรู้อย่างลึกล้ำและการเพิ่มระดับความลาดชันของต้นไม้เป็นเทคนิคที่ทรงพลังมากซึ่งสามารถสร้างแบบจำลองความสัมพันธ์ใด ๆ ในข้อมูล แต่ถ้าในกรณีของคุณการถดถอยโลจิสติกอย่างง่ายหรือ NB นั้นให้ความแม่นยำ ดังนั้นจึงเป็นการดีกว่าที่จะลองใช้เทคนิคง่าย ๆ ก่อนและมีประสิทธิภาพพื้นฐาน จากนั้นหนึ่งสามารถไปสำหรับรุ่นที่ซับซ้อนและเปรียบเทียบกับพื้นฐาน