ฉันไม่ได้พบคำตอบที่น่าพอใจนี้จากGoogle
แน่นอนถ้าข้อมูลที่ฉันมีนั้นเป็นของคำสั่งซื้อหลายล้านรายการการเรียนรู้อย่างลึกซึ้งเป็นวิธี
และฉันได้อ่านว่าเมื่อฉันไม่มีข้อมูลขนาดใหญ่แล้วอาจเป็นการดีกว่าถ้าใช้วิธีอื่นในการเรียนรู้ของเครื่อง เหตุผลที่ได้รับคือความพอดี การเรียนรู้ของเครื่อง: เช่นการดูข้อมูลการแยกคุณลักษณะการสร้างฟีเจอร์ใหม่จากสิ่งที่รวบรวม ฯลฯ สิ่งต่าง ๆ เช่นการลบตัวแปรที่มีความสัมพันธ์สูง ฯลฯ การเรียนรู้ของเครื่องทั้งหมด 9 หลา
และฉันสงสัยว่า: ทำไมเครือข่ายประสาทที่มีเลเยอร์ที่ซ่อนอยู่หนึ่งชั้นนั้นไม่ใช่ยาครอบจักรวาลเพื่อแก้ไขปัญหาการเรียนรู้ของเครื่อง? พวกมันคือตัวประมาณสากลการจัดการที่มากเกินไปสามารถจัดการได้ด้วย dropout, l2 normalization, l1 normalization, batch-normalization ความเร็วการฝึกอบรมไม่ใช่ปัญหาถ้าเรามีตัวอย่างการฝึกอบรมเพียง 50,000 ตัวอย่าง เวลาทดสอบดีกว่าให้เราบอกว่าป่าสุ่ม
ดังนั้นทำไมไม่ - ทำความสะอาดข้อมูล, กำหนดค่าที่หายไปตามปกติ, จัดทำข้อมูล, จัดทำมาตรฐานข้อมูล, โยนมันไปยังเครือข่ายประสาทเทียมโดยใช้เลเยอร์ที่ซ่อนอยู่หนึ่งชั้นและใช้การทำให้เป็นมาตรฐานจนกว่าคุณจะเห็นว่า พวกเขาไปยังจุดสิ้นสุด ไม่มีปัญหาเรื่องการไล่ระดับสีหรือการไล่ระดับสีหายไปเนื่องจากเป็นเพียงเครือข่าย 2 ชั้น หากต้องการเลเยอร์ลึกนั่นหมายความว่าจะต้องเรียนรู้คุณลักษณะแบบลำดับชั้นและอัลกอริธึมการเรียนรู้ของเครื่องอื่นก็ไม่ดีเช่นกัน ตัวอย่างเช่น SVM เป็นเครือข่ายประสาทเทียมที่มีการสูญเสียบานพับเท่านั้น
ตัวอย่างที่บางอัลกอริทึมการเรียนรู้ของเครื่องอื่นจะมีประสิทธิภาพสูงกว่าเครือข่ายนิวรัล 2 ชั้น (อาจจะ 3? คุณสามารถให้ลิงค์กับปัญหาและฉันจะฝึกอบรมโครงข่ายประสาทเทียมที่ดีที่สุดที่ฉันสามารถทำได้และเราสามารถดูได้ว่าเครือข่ายประสาท 2 ชั้นหรือ 3 ชั้นตกต่ำจากอัลกอริธึมการเรียนรู้เครื่องจักรมาตรฐานอื่น ๆ