การทดสอบทางสถิติใช้สำหรับการอนุมานจากข้อมูลซึ่งจะบอกคุณว่าสิ่งต่าง ๆ เกี่ยวข้องกันอย่างไร ผลที่ได้คือสิ่งที่มีความหมายในโลกแห่งความจริง เช่นการสูบบุหรี่สัมพันธ์กับมะเร็งปอดทั้งในแง่ของทิศทางและขนาด มันยังไม่บอกคุณว่าทำไมสิ่งต่าง ๆ เกิดขึ้น เพื่อที่จะตอบว่าทำไมสิ่งต่าง ๆ จึงเกิดขึ้นเราจำเป็นต้องพิจารณาถึงความสัมพันธ์กับตัวแปรอื่น ๆ และทำการปรับเปลี่ยนที่เหมาะสม (ดู Pearl, J. (2003) CAUSALITY: MODELS REASONING และ INFERENCE
การเรียนรู้ภายใต้การดูแลนั้นใช้สำหรับการคาดการณ์มันจะบอกคุณว่าจะเกิดอะไรขึ้น เช่นจากสถานะการสูบบุหรี่ของบุคคลเราสามารถทำนายได้ว่าเขา / เธอจะเป็นมะเร็งปอดหรือไม่ ในกรณีง่าย ๆ มันยังบอกคุณว่า "อย่างไร" โดยดูที่การตัดสถานะการสูบบุหรี่ที่ระบุโดยอัลกอริทึม แต่รูปแบบที่ซับซ้อนมากขึ้นนั้นยากที่จะตีความหรือตีความยาก (เรียนรู้อย่างลึกซึ้ง / ส่งเสริมด้วยคุณสมบัติมากมาย)
การเรียนรู้ที่ไม่ได้สำรองมักใช้ในการอำนวยความสะดวกทั้งสองอย่างข้างต้น
- สำหรับการทดสอบทางสถิติโดยการค้นพบกลุ่มย่อยที่ไม่ทราบพื้นฐานของข้อมูล (การจัดกลุ่ม) เราสามารถอนุมานถึงความแตกต่างในการเชื่อมโยงระหว่างตัวแปร เช่นการสูบบุหรี่เพิ่มโอกาสที่จะเป็นมะเร็งปอดสำหรับกลุ่มย่อย A แต่ไม่ใช่กลุ่มย่อย B
- สำหรับการเรียนรู้ภายใต้การดูแลเราสามารถสร้างคุณสมบัติใหม่เพื่อปรับปรุงความแม่นยำและความแม่นยำในการทำนาย เช่นโดยการระบุกลุ่มย่อย (การจัดกลุ่ม) หรือการรวมกันของคุณสมบัติ (การลดขนาด) ที่เกี่ยวข้องกับอัตราต่อรองของการเป็นมะเร็งปอด
เมื่อจำนวนคุณสมบัติ / ตัวแปรเพิ่มขึ้นความแตกต่างระหว่างการทดสอบทางสถิติและการเรียนรู้แบบมีผู้สอนจะยิ่งมากขึ้น การทดสอบทางสถิติอาจไม่ได้รับประโยชน์จากสิ่งนี้มันขึ้นอยู่กับว่าคุณต้องการทำการอนุมานสาเหตุโดยการควบคุมปัจจัยอื่น ๆ หรือการระบุความแตกต่างในสมาคมที่กล่าวถึงข้างต้น การเรียนรู้ภายใต้การดูแลจะทำงานได้ดีขึ้นหากคุณลักษณะเกี่ยวข้องและจะกลายเป็นเหมือนกล่องดำมากขึ้น
เมื่อจำนวนตัวอย่างเพิ่มขึ้นเราสามารถรับผลลัพธ์ที่แม่นยำยิ่งขึ้นสำหรับการทดสอบทางสถิติผลลัพธ์ที่แม่นยำยิ่งขึ้นสำหรับการเรียนรู้แบบมีผู้สอนและผลลัพธ์ที่มีประสิทธิภาพมากขึ้นสำหรับการเรียนรู้ที่ไม่ได้รับการดูแล แต่สิ่งนี้ขึ้นอยู่กับคุณภาพของข้อมูล ข้อมูลคุณภาพต่ำอาจทำให้มีอคติหรือเสียงรบกวนกับผลลัพธ์
บางครั้งเราต้องการทราบว่า "อย่างไร" และ "ทำไม" เพื่อแจ้งการดำเนินการแทรกแซงเช่นการระบุว่าการสูบบุหรี่เป็นสาเหตุของโรคมะเร็งปอดสามารถกำหนดนโยบายเพื่อจัดการกับสิ่งนั้นได้ บางครั้งเราต้องการทราบว่า "อะไร" เพื่อแจ้งการตัดสินใจเช่นการค้นหาว่าใครมีแนวโน้มที่จะเป็นมะเร็งปอดและให้การรักษาเบื้องต้น มีฉบับพิเศษที่เผยแพร่ทางวิทยาศาสตร์เกี่ยวกับการทำนายและขีด จำกัด ( http://science.sciencemag.org/content/355/6324/468)) “ ความสำเร็จดูเหมือนจะประสบความสำเร็จมากที่สุดอย่างต่อเนื่องเมื่อคำถามถูกจัดการในความพยายามของสหสาขาวิชาที่เข้าร่วมความเข้าใจของมนุษย์เกี่ยวกับบริบทด้วยความสามารถของอัลกอริทึมในการจัดการเทราไบต์ของข้อมูล” ในความคิดของฉัน เราควรรวบรวมข้อมูล / ฟีเจอร์ใดตั้งแต่แรก ในอีกทางหนึ่งการเรียนรู้แบบมีผู้สอนสามารถช่วยสร้างสมมติฐานโดยแจ้งตัวแปรใดบ้าง