น่าเศร้าที่ความแตกต่างระหว่างพื้นที่เหล่านี้ส่วนใหญ่เป็นที่ที่พวกเขาสอน: สถิติตั้งอยู่ในภาควิชาคณิตศาสตร์, ai, การเรียนรู้เครื่องในแผนกวิทยาการคอมพิวเตอร์และการทำเหมืองข้อมูลถูกนำไปใช้มากขึ้น (ใช้โดยแผนกธุรกิจหรือการตลาดพัฒนาโดย บริษัท ซอฟต์แวร์) .
ประการแรก AI (แม้ว่ามันอาจหมายถึงระบบอัจฉริยะใด ๆ ) มีความหมายแบบดั้งเดิมตามวิธีตรรกะ (เช่นระบบผู้เชี่ยวชาญ) มากกว่าการประมาณทางสถิติ สถิติที่อยู่ในแผนกคณิตศาสตร์มีความเข้าใจทางทฤษฎีที่ดีมากพร้อมกับประสบการณ์การใช้งานที่แข็งแกร่งในด้านวิทยาศาสตร์การทดลองที่มีรูปแบบทางวิทยาศาสตร์ที่ชัดเจนและสถิติจำเป็นต้องจัดการกับข้อมูลการทดลองที่มีอยู่อย่าง จำกัด การโฟกัสมักเป็นการบีบข้อมูลสูงสุดจากชุดข้อมูลขนาดเล็กมาก นอกจากนี้ยังมีอคติต่อการพิสูจน์ทางคณิตศาสตร์: คุณจะไม่ได้รับการเผยแพร่จนกว่าคุณจะสามารถพิสูจน์สิ่งต่าง ๆ เกี่ยวกับวิธีการของคุณ สิ่งนี้มีแนวโน้มที่จะหมายความว่าสถิติมีความล่าช้าในการใช้คอมพิวเตอร์เพื่อทำการวิเคราะห์อัตโนมัติ อีกครั้ง การขาดความรู้ด้านการเขียนโปรแกรมทำให้นักสถิติสามารถทำงานกับปัญหาที่มีขนาดใหญ่ซึ่งปัญหาการคำนวณกลายเป็นเรื่องสำคัญ ฉันเชื่อว่าพื้นที่เช่นชีวสารสนเทศศาสตร์ได้ย้ายสถิติมากขึ้นในทิศทางนี้ ในที่สุดฉันก็จะบอกว่านักสถิติเป็นกลุ่มที่มีข้อกังขามากกว่า: พวกเขาไม่อ้างว่าคุณค้นพบความรู้ทางสถิติ - นักวิทยาศาสตร์มาพร้อมกับสมมติฐานและหน้าที่ของนักสถิติคือการตรวจสอบว่าสมมติฐานได้รับการสนับสนุนจากข้อมูล การเรียนรู้ของเครื่องนั้นถูกสอนในแผนก cs ซึ่งน่าเสียดายที่ไม่ได้สอนคณิตศาสตร์ที่เหมาะสม: แคลคูลัสหลายตัวแปร, ความน่าจะเป็น, สถิติและการหาค่าเหมาะที่สุดไม่ใช่เรื่องธรรมดา ... เรามีแนวคิด 'เสน่ห์' ที่คลุมเครือเช่นการเรียนรู้จากตัวอย่าง ...องค์ประกอบของการเรียนรู้เชิงสถิติหน้า 30. นี่หมายความว่ามีความเข้าใจทางทฤษฎีน้อยมากและการระเบิดของอัลกอริธึมเนื่องจากนักวิจัยสามารถค้นหาชุดข้อมูลที่อัลกอริทึมของพวกเขาพิสูจน์ได้ดีกว่าเสมอ ดังนั้นจึงมีเฟสใหญ่ของ hype ในฐานะนักวิจัย ML ไล่ล่าสิ่งที่ใหญ่ต่อไป: เครือข่ายประสาทการเรียนรู้ลึก ฯลฯ น่าเสียดายที่มีเงินจำนวนมากในแผนก CS (คิดว่า google, Microsoft, พร้อมกับตลาดการเรียนรู้เพิ่มเติม ') นักสถิติสงสัยมากขึ้นจะถูกละเว้น ในที่สุดก็มีนักทดลองเกี่ยวกับการงอ: โดยทั่วไปมีความเชื่อพื้นฐานว่าถ้าคุณโยนข้อมูลมากพอที่อัลกอริทึมมันจะ 'เรียนรู้' การทำนายที่ถูกต้อง ในขณะที่ฉันลำเอียงกับ ML มีความเข้าใจพื้นฐานใน ML ที่นักสถิติได้ละเลย: คอมพิวเตอร์สามารถปฏิวัติการประยุกต์ใช้สถิติ
มีสองวิธีคือ a) การประยุกต์ใช้การทดสอบมาตรฐานและแบบจำลองโดยอัตโนมัติ เช่นใช้แบตเตอรี่ของรุ่น (การถดถอยเชิงเส้นฟอเรสต์แบบสุ่ม ฯลฯ พยายามรวมอินพุตการตั้งค่าพารามิเตอร์ ฯลฯ ) สิ่งนี้ไม่ได้เกิดขึ้นจริง - แม้ว่าฉันสงสัยว่าคู่แข่งใน kaggle จะพัฒนาเทคนิคอัตโนมัติของพวกเขาเอง b) การนำแบบจำลองทางสถิติมาตรฐานไปใช้กับข้อมูลขนาดใหญ่: ลองนึกถึงเช่น Google แปลภาษาระบบผู้แนะนำ ฯลฯ (ไม่มีใครอ้างว่าเช่นผู้คนแปลหรือแนะนำเช่นนั้น แต่เป็นเครื่องมือที่มีประโยชน์) แบบจำลองทางสถิติพื้นฐานนั้นตรงไปตรงมา แต่มีปัญหาการคำนวณขนาดใหญ่ในการนำวิธีการเหล่านี้ไปใช้กับจุดข้อมูลหลายพันล้านจุด
การขุดข้อมูลเป็นสุดยอดของปรัชญานี้ ... การพัฒนาวิธีการแยกความรู้จากข้อมูลโดยอัตโนมัติ อย่างไรก็ตามมันมีวิธีการที่ใช้งานได้จริง: โดยพื้นฐานแล้วมันถูกนำไปใช้กับข้อมูลพฤติกรรมซึ่งไม่มีทฤษฎีทางวิทยาศาสตร์ที่ครอบคลุม (การตลาด, การตรวจจับการฉ้อโกง, สแปม ฯลฯ ) และเป้าหมายคือการวิเคราะห์ปริมาณข้อมูลขนาดใหญ่โดยอัตโนมัติ ทีมนักสถิติสามารถทำการวิเคราะห์ได้ดีกว่าในเวลาที่กำหนด แต่มันคุ้มค่ากว่าที่จะใช้คอมพิวเตอร์ นอกจากนี้ในขณะที่ D. Hand อธิบายว่าเป็นการวิเคราะห์ข้อมูลทุติยภูมิ - ข้อมูลที่ถูกบันทึกไว้แทนที่จะเป็นข้อมูลที่ได้รับการรวบรวมอย่างชัดเจนเพื่อตอบคำถามทางวิทยาศาสตร์ในการออกแบบการทดลองที่มั่นคง สถิติการขุดข้อมูลและอีกมากมาย D Hand
ดังนั้นฉันจะสรุปว่า AI แบบดั้งเดิมเป็นตรรกะมากกว่าสถิติการเรียนรู้ของเครื่องคือสถิติที่ไม่มีทฤษฎีและสถิติคือ 'สถิติที่ไม่มีคอมพิวเตอร์' และการขุดข้อมูลคือการพัฒนาเครื่องมืออัตโนมัติสำหรับการวิเคราะห์ทางสถิติโดยมีการแทรกแซงผู้ใช้น้อยที่สุด