เมื่อความคิดเห็นเกี่ยวกับคำถามของคุณชี้ให้เห็นว่ามีคนจำนวนมากที่ทำงานค้นหาสิ่งที่ดีกว่า ฉันอยากจะตอบคำถามนี้ด้วยการขยายความคิดเห็นที่เหลือโดย @josh
ทุกรุ่นผิด แต่บางรุ่นก็มีประโยชน์ (Wiki)
ข้อความข้างต้นเป็นความจริงทั่วไปที่ใช้เพื่ออธิบายลักษณะของแบบจำลองทางสถิติ การใช้ข้อมูลที่เรามีอยู่เราสามารถสร้างแบบจำลองที่ให้เราทำสิ่งที่มีประโยชน์เช่นประมาณค่าที่ทำนาย
ใช้ตัวอย่างการถดถอยเชิงเส้น
ด้วยการสังเกตจำนวนหนึ่งเราสามารถใส่แบบจำลองเพื่อให้เรามีค่าประมาณสำหรับตัวแปรที่ขึ้นต่อกันซึ่งให้ค่าใด ๆ สำหรับตัวแปรอิสระ
อัม, KP; แอนเดอร์สัน, DR (2002), การเลือกรูปแบบและหลายโมเดล> การอนุมาน: แนวทางปฏิบัติเชิงทฤษฎีข้อมูล (2nd ed.):
"แบบจำลองเป็นการทำให้ง่ายขึ้นหรือประมาณความเป็นจริงและด้วยเหตุนี้จะไม่สะท้อนความเป็นจริงทั้งหมด ... กล่องตั้งข้อสังเกตว่า" แบบจำลองทั้งหมดผิด แต่บางส่วนมีประโยชน์ "ในขณะที่แบบจำลองไม่สามารถเป็น" ความจริง "แบบจำลองอาจ ได้รับการจัดอันดับจากที่มีประโยชน์มากไปถึงมีประโยชน์ไปจนถึงค่อนข้างมีประโยชน์
การเบี่ยงเบนจากแบบจำลองของเรา (ดังที่เห็นในภาพด้านบน) ปรากฏแบบสุ่มการสังเกตบางอย่างอยู่ด้านล่างบรรทัดและบางส่วนอยู่ด้านบน แต่เส้นการถดถอยของเราแสดงความสัมพันธ์ทั่วไป ในขณะที่การเบี่ยงเบนในแบบจำลองของเราปรากฏแบบสุ่มในสถานการณ์จริงจะมีปัจจัยอื่น ๆ ที่ทำให้เกิดการเบี่ยงเบนนี้ ตัวอย่างเช่นลองจินตนาการว่ากำลังดูรถในขณะที่พวกเขาขับรถผ่านทางแยกที่พวกเขาจะต้องเลี้ยวซ้ายหรือขวาเพื่อดำเนินการต่อ ในขณะที่เราสามารถพูดได้ว่าทิศทางที่รถเลี้ยวเป็นแบบสุ่มสมบูรณ์ผู้ขับขี่ทุกคนจะมาถึงทางแยกและ ณ จุดนั้นจะมีการตัดสินใจแบบสุ่มว่าจะเลี้ยวอย่างไร ในความเป็นจริงพวกเขาอาจจะมุ่งไปที่อื่นด้วยเหตุผลเฉพาะและโดยไม่พยายามหยุดรถแต่ละคันเพื่อถามพวกเขาเกี่ยวกับเหตุผลของพวกเขาเราสามารถอธิบายการกระทำของพวกเขาเป็นการสุ่มเท่านั้น
ในกรณีที่เราสามารถพอดีกับโมเดลที่มีการเบี่ยงเบนน้อยที่สุดเราจะแน่ใจได้อย่างไรว่าตัวแปรที่ไม่รู้จักไม่มีใครสังเกตเห็นหรือไม่สามารถวัดได้จะไม่เกิดขึ้นในบางครั้งที่จะโยนโมเดลของเรา ปีกของผีเสื้อในบราซิลปิดทอร์นาโดในเท็กซัสไหม
ปัญหาของการใช้แบบจำลองเชิงเส้นและแบบ SVN ที่คุณพูดถึงเพียงอย่างเดียวคือเราจำเป็นต้องสังเกตตัวแปรของเราด้วยตนเอง จากนั้นเราต้องตัดสินใจว่าตัวแปรใดที่มีความสำคัญและเขียนอัลกอริทึมเฉพาะงาน สิ่งนี้สามารถตรงไปตรงมาถ้าเรามีตัวแปรเพียงเล็กน้อย แต่ถ้าเรามีหลายพัน ถ้าเราต้องการสร้างแบบจำลองการจดจำภาพทั่วไปสิ่งนี้สามารถทำได้จริงด้วยวิธีการนี้หรือไม่?
การเรียนรู้อย่างลึกซึ้งและโครงข่ายประสาทเทียม (ANNs) สามารถช่วยเราสร้างแบบจำลองที่มีประโยชน์สำหรับชุดข้อมูลขนาดใหญ่ที่มีตัวแปรจำนวนมาก (เช่นไลบรารีรูปภาพ) ดังที่คุณพูดถึงมีวิธีแก้ปัญหาจำนวนมากที่ไม่สามารถเข้าใจข้อมูลได้โดยใช้ ANNs แต่ตัวเลขนี้แตกต่างจากจำนวนโซลูชั่นที่เราจะต้องพัฒนาตัวเองผ่านการลองผิดลองถูกหรือไม่?
แอปพลิเคชันของ ANNs ทำงานให้เรามากเราสามารถระบุอินพุตและเอาต์พุตที่ต้องการ (และปรับแต่งภายหลังเพื่อทำการปรับปรุง) และปล่อยให้ ANN หาวิธีแก้ปัญหา นี่คือเหตุผลที่ ANNs มักจะอธิบายว่า"กล่องดำ" จากอินพุตที่กำหนดพวกมันให้ผลลัพธ์ประมาณ (โดยทั่วไป) การประมาณเหล่านี้จะไม่รวมรายละเอียดเกี่ยวกับวิธีการประมาณ
และมันก็จะลงเอยกับปัญหาที่คุณพยายามแก้ไขเนื่องจากปัญหาจะกำหนดวิธีการแบบจำลองที่มีประโยชน์มากกว่า แบบจำลองไม่แม่นยำอย่างแน่นอนและมีองค์ประกอบของการ 'ผิด' อยู่เสมออย่างไรก็ตามยิ่งผลลัพธ์ของคุณมีความแม่นยำมากเท่าใดก็ยิ่งมีประโยชน์มากขึ้นเท่านั้น การมีรายละเอียดเพิ่มเติมในผลลัพธ์เกี่ยวกับวิธีการประมาณอาจมีประโยชน์ขึ้นอยู่กับปัญหาที่อาจมีประโยชน์มากกว่าความแม่นยำที่เพิ่มขึ้น
ตัวอย่างเช่นหากคุณกำลังคำนวณคะแนนเครดิตบุคคลการใช้การถดถอยและ SVM จะให้การคำนวณที่สามารถสำรวจได้ดีขึ้น ความสามารถในการปรับแต่งทั้งสองแบบโดยตรงและอธิบายให้ลูกค้าฟังว่าตัวแปรอิสระที่แยกจากกันมีผลต่อคะแนนโดยรวมของพวกเขานั้นมีประโยชน์มาก ANN อาจช่วยในการประมวลผลตัวแปรจำนวนมากขึ้นเพื่อให้ได้คะแนนที่แม่นยำยิ่งขึ้น แต่ความแม่นยำนี้มีประโยชน์มากกว่าหรือไม่