IMHO ไม่มีความแตกต่างอย่างเป็นทางการที่แยกความแตกต่างระหว่างการเรียนรู้ของเครื่องและสถิติในระดับพื้นฐานของโมเดลที่เหมาะสมกับข้อมูล อาจมีความแตกต่างทางวัฒนธรรมในการเลือกแบบจำลองวัตถุประสงค์ของแบบจำลองที่เหมาะสมกับข้อมูลและเพื่อขยายการตีความ
ในตัวอย่างทั่วไปฉันคิดได้ว่าเรามีเสมอ
- คอลเลกชันของแบบจำลองสำหรับสำหรับดัชนีบางส่วนตั้ง ,ฉัน∈ ฉันฉันMii∈II
- และสำหรับแต่ละไม่รู้จักองค์ประกอบ (พารามิเตอร์ที่อาจจะไม่มีที่สิ้นสุดมิติ) ของรูปแบบM_iθ ฉันM ฉันiθiMi
การปรับให้เหมาะสมกับข้อมูลเป็นปัญหาการเพิ่มประสิทธิภาพทางคณิตศาสตร์เกือบตลอดเวลาซึ่งประกอบด้วยการค้นหาตัวเลือกที่ดีที่สุดของส่วนประกอบที่ไม่รู้จักเพื่อให้เหมาะสมกับข้อมูลที่วัดโดยฟังก์ชันที่ชื่นชอบบางอย่างθ ฉันM ฉันMiθiMi
การเลือกระหว่างรุ่นนั้นน้อยกว่ามาตรฐานและมีเทคนิคหลากหลายให้เลือก หากวัตถุประสงค์ของการปรับแบบจำลองนั้นเป็นการทำนายแบบหมดจดการเลือกแบบจำลองจะทำด้วยความพยายามเพื่อให้ได้ประสิทธิภาพการทำนายที่ดีในขณะที่ถ้าวัตถุประสงค์หลักคือการตีความแบบจำลองที่ได้ผลลัพธ์อาจจะเลือกแบบจำลองที่ตีความได้ง่ายกว่าแบบจำลองอื่น ๆ พลังการคาดการณ์คาดว่าจะแย่ลงMi
สิ่งที่อาจเรียกได้ว่าการเลือกรูปแบบสถิติของโรงเรียนเก่าขึ้นอยู่กับการทดสอบทางสถิติซึ่งอาจรวมกับกลยุทธ์การเลือกขั้นตอนที่ชาญฉลาดในขณะที่การเลือกรูปแบบการเรียนรู้ของเครื่องมักจะมุ่งเน้นไปที่ข้อผิดพลาดทั่วไปที่คาดไว้ การพัฒนาในปัจจุบันและความเข้าใจของการเลือกรูปแบบการทำ แต่ดูเหมือนจะบรรจบสู่พื้นดินทั่วไปเพิ่มเติมโปรดดูตัวอย่างเช่นรุ่นการคัดเลือกและรุ่น Averaging
การอนุมานสาเหตุของแบบจำลอง
ปมของเรื่องคือวิธีการที่เราสามารถตีความรูปแบบ? หากข้อมูลที่ได้มาจากการทดลองออกแบบอย่างรอบคอบและแบบจำลองมีความเพียงพอก็เป็นไปได้ที่เราสามารถตีความผลกระทบของการเปลี่ยนแปลงของตัวแปรในรูปแบบที่เป็นผลเชิงสาเหตุและถ้าเราทำการทดลองซ้ำและแทรกแซงตัวแปรเฉพาะนี้ เราสามารถคาดหวังให้สังเกตผลที่คาดการณ์ไว้ อย่างไรก็ตามหากข้อมูลเป็นแบบสังเกตเราไม่สามารถคาดหวังได้ว่าผลกระทบโดยประมาณในแบบจำลองนั้นสอดคล้องกับผลจากการแทรกแซงที่สังเกตได้ สิ่งนี้จะต้องมีการตั้งสมมติฐานเพิ่มเติมโดยไม่คำนึงว่าโมเดลนั้นเป็น "โมเดลการเรียนรู้ของเครื่อง" หรือ "โมเดลทางสถิติแบบดั้งเดิม"
อาจเป็นไปได้ว่าผู้ฝึกอบรมในการใช้แบบจำลองทางสถิติแบบดั้งเดิมโดยมุ่งเน้นไปที่การประมาณค่าพารามิเตอร์แบบไม่แปรและการตีความขนาดผลมีความรู้สึกว่าการตีความเชิงสาเหตุมีความถูกต้องมากกว่าในกรอบการเรียนรู้ด้วยเครื่อง ฉันจะบอกว่ามันไม่ได้
พื้นที่ของการอนุมานเชิงสาเหตุในสถิติไม่ได้ลบปัญหา แต่จริงๆแล้วมันทำให้สมมติฐานที่ข้อสรุปเชิงสาเหตุที่เหลือชัดเจน พวกเขาจะเรียกว่าสมมติฐานที่ไม่สามารถทดสอบได้ การอนุมานสาเหตุของกระดาษในสถิติ: ภาพรวมโดยจูเดียเพิร์ลเป็นกระดาษที่ดีในการอ่าน การสนับสนุนที่สำคัญจากการอนุมานเชิงสาเหตุคือการรวบรวมวิธีการในการประมาณค่าผลกระทบเชิงสาเหตุภายใต้สมมติฐานที่มีคนที่ไม่ได้รับความไว้วางใจซึ่งเป็นข้อกังวลที่สำคัญ ดูหัวข้อ 3.3 ในกระดาษมุกด้านบน ตัวอย่างที่สูงขึ้นสามารถพบได้ในกระดาษMarginal รุ่นโครงสร้างและสาเหตุการอนุมานระบาดวิทยา
มันเป็นคำถามในประเด็นที่ว่าข้อสันนิษฐานที่ไม่สามารถพิสูจน์ได้เกิดขึ้นหรือไม่ ไม่สามารถทดสอบได้อย่างแม่นยำเพราะเราไม่สามารถทดสอบได้โดยใช้ข้อมูล ในการปรับสมมติฐานให้มีข้อโต้แย้งอื่น ๆ ที่จำเป็น
เป็นตัวอย่างของการที่การเรียนรู้ของเครื่องจักรและการอนุมานเชิงสาเหตุตรงกับความคิดของการประมาณค่าความน่าจะเป็นเป้าหมายสูงสุดตามที่นำเสนอในการเรียนรู้ความน่าจะเป็นเป้าหมายสูงสุดโดย Mark van der Laan และ Daniel Rubin โดยทั่วไป "ไปยังพารามิเตอร์ที่น่าสนใจ หลังอาจเป็นพารามิเตอร์ที่มีการตีความสาเหตุ ความคิดในSuper Learnerคือต้องอาศัยเทคนิคการเรียนรู้ของเครื่องจักรเป็นอย่างมากสำหรับการประมาณค่าพารามิเตอร์ที่น่าสนใจ มันเป็นประเด็นสำคัญโดย Mark van der Laan (การสื่อสารส่วนตัว) ว่ารูปแบบทางสถิติแบบเรียบง่ายและ "ตีความ" มักจะผิดซึ่งนำไปสู่การประมาณค่าแบบเอนเอียงและการประเมินความไม่แน่นอนของการประเมินในแง่ดีเกินไป