การทำเหมืองข้อมูลนั้นจัดอยู่ในประเภท Descriptive หรือ Predictive การทำเหมืองข้อมูลเชิงพรรณนาคือการค้นหาชุดข้อมูลขนาดใหญ่และค้นหาตำแหน่งของโครงสร้างหรือความสัมพันธ์ที่ไม่คาดคิดรูปแบบแนวโน้มกลุ่มและค่าผิดปกติในข้อมูล ในทางกลับกัน Predictive คือการสร้างแบบจำลองและขั้นตอนสำหรับการถดถอยการจำแนกการจดจำรูปแบบหรืองานการเรียนรู้ของเครื่องและประเมินความแม่นยำในการทำนายของแบบจำลองและขั้นตอนเหล่านั้นเมื่อนำไปใช้กับข้อมูลใหม่
กลไกที่ใช้ในการค้นหารูปแบบหรือโครงสร้างในข้อมูลมิติสูงอาจเป็นแบบแมนนวลหรือแบบอัตโนมัติ การค้นหาอาจต้องมีการสอบถามระบบการจัดการฐานข้อมูลแบบโต้ตอบหรืออาจเกี่ยวข้องกับการใช้ซอฟต์แวร์การสร้างภาพเพื่อค้นหาความผิดปกติในข้อมูล ในแง่ของเครื่องจักรการเรียนรู้การทำเหมืองข้อมูลเชิงพรรณนานั้นเรียกว่าการเรียนรู้แบบไม่สำรองในขณะที่การทำเหมืองข้อมูลเชิงทำนายนั้นเรียกว่าการเรียนรู้แบบมีผู้สอน
วิธีการส่วนใหญ่ที่ใช้ในการขุดข้อมูลนั้นเกี่ยวข้องกับวิธีการที่พัฒนาขึ้นในด้านสถิติและการเรียนรู้ของเครื่อง สิ่งสำคัญที่สุดในบรรดาวิธีการเหล่านั้นคือหัวข้อทั่วไปของการถดถอยการจัดกลุ่มการจัดกลุ่มและการสร้างภาพข้อมูล เนื่องจากชุดข้อมูลมีขนาดใหญ่มากการใช้งานหลายอย่างของ data mining มุ่งเน้นไปที่เทคนิคการลดขนาด (เช่นการเลือกตัวแปร) และสถานการณ์ที่ข้อมูลมิติสูงสงสัยว่านอนอยู่บนเครื่องบินไฮเปอร์ - มิติ ความสนใจล่าสุดได้ถูกส่งไปยังวิธีการระบุข้อมูลมิติสูงที่วางอยู่บนพื้นผิวที่ไม่เชิงเส้นหรือท่อร่วม
นอกจากนี้ยังมีสถานการณ์ในการทำเหมืองข้อมูลเมื่อการอนุมานเชิงสถิติ - ในความหมายดั้งเดิม - ไม่มีความหมายหรือความถูกต้องที่น่าสงสัย: อดีตเกิดขึ้นเมื่อเรามีประชากรทั้งหมดเพื่อค้นหาคำตอบและหลังเกิดขึ้นเมื่อชุดข้อมูลเป็น ตัวอย่าง "ความสะดวกสบาย" แทนที่จะเป็นตัวอย่างแบบสุ่มที่ดึงมาจากประชากรจำนวนมาก เมื่อมีการรวบรวมข้อมูลผ่านเวลา (เช่นธุรกรรมค้าปลีกธุรกรรมตลาดหุ้นบันทึกผู้ป่วยบันทึกสภาพอากาศ) การสุ่มตัวอย่างอาจไม่สมเหตุสมผล ลำดับเวลาของการสังเกตเป็นสิ่งสำคัญในการทำความเข้าใจปรากฏการณ์ที่สร้างข้อมูลและการปฏิบัติต่อการสังเกตเป็นอิสระเมื่อพวกเขาอาจมีความสัมพันธ์กันอย่างมากจะให้ผลลัพธ์ที่ลำเอียง
ส่วนประกอบสำคัญของการทำเหมืองข้อมูลคือ - นอกเหนือจากทฤษฎีและวิธีการทางสถิติ - การคำนวณและประสิทธิภาพการคำนวณการประมวลผลข้อมูลอัตโนมัติเทคนิคการสร้างภาพข้อมูลแบบไดนามิกและแบบโต้ตอบและการพัฒนาอัลกอริทึม
หนึ่งในประเด็นที่สำคัญที่สุดในการทำเหมืองข้อมูลเป็นปัญหาของการคำนวณความยืดหยุ่น อัลกอริทึมที่พัฒนาขึ้นสำหรับการคำนวณมาตรฐานวิธีการสำรวจและยืนยันทางสถิติได้รับการออกแบบให้มีความรวดเร็วและมีประสิทธิภาพในการคำนวณเมื่อใช้กับชุดข้อมูลขนาดเล็กและขนาดกลาง แต่ก็แสดงให้เห็นว่าอัลกอริทึมเหล่านี้ส่วนใหญ่ไม่ได้ขึ้นอยู่กับความท้าทายในการจัดการชุดข้อมูลขนาดใหญ่ เมื่อชุดข้อมูลเติบโตขึ้นอัลกอริทึมที่มีอยู่จำนวนมากแสดงให้เห็นถึงแนวโน้มที่จะชะลอความเร็วลงอย่างมาก