ในสถิติเช่นเดียวกับใน Data Mining คุณเริ่มต้นด้วยข้อมูลและเป้าหมาย ในสถิติมีการมุ่งเน้นที่การอนุมานจำนวนมากนั่นคือการตอบคำถามระดับประชากรโดยใช้ตัวอย่าง ในการทำเหมืองข้อมูลโดยปกติจะเน้นการทำนาย: คุณสร้างแบบจำลองจากตัวอย่างของคุณ (ข้อมูลการฝึกอบรม) เพื่อทำนายข้อมูลการทดสอบ
กระบวนการในสถิติคือ:
สำรวจข้อมูลโดยใช้ข้อมูลสรุปและกราฟขึ้นอยู่กับว่าสถิติขับเคลื่อนด้วยข้อมูลอย่างไรบางคนจะเปิดกว้างมากขึ้นมองข้อมูลจากทุกมุมมองขณะที่คนอื่น ๆ (โดยเฉพาะนักวิทยาศาสตร์สังคม) จะดูข้อมูลผ่านเลนส์ของ คำถามที่น่าสนใจ (เช่นพล็อตโดยเฉพาะตัวแปรที่น่าสนใจและไม่ใช่เรื่องอื่น)
เลือกตระกูลโมเดลทางสถิติที่เหมาะสม (เช่นการถดถอยเชิงเส้นสำหรับ Y ต่อเนื่อง, การถดถอยโลจิสติกสำหรับไบนารี Y หรือ Poisson สำหรับข้อมูลนับ) และทำการเลือกแบบจำลอง
ประเมินรุ่นสุดท้าย
ข้อสมมติฐานการทดสอบแบบจำลองเพื่อให้แน่ใจว่าตรงตามความสมเหตุสมผล (แตกต่างจากการทดสอบเพื่อความแม่นยำในการทำนายข้อมูลในการขุดข้อมูล)
ใช้โมเดลสำหรับการอนุมาน - นี่คือขั้นตอนหลักที่แตกต่างจากการทำเหมืองข้อมูล คำว่า "p-value" มาถึงที่นี่ ...
ลองดูที่ตำราสถิติพื้นฐานและคุณจะพบบทเกี่ยวกับการวิเคราะห์ข้อมูลเชิงสำรวจตามด้วยการแจกแจงบางส่วน (ซึ่งจะช่วยเลือกแบบจำลองการประมาณที่เหมาะสม) จากนั้นจึงอนุมาน (ช่วงความเชื่อมั่นและการทดสอบสมมติฐาน) และแบบจำลองการถดถอย
ฉันอธิบายให้คุณกระบวนการทางสถิติคลาสสิก อย่างไรก็ตามฉันมีปัญหามากมายกับมัน การมุ่งเน้นที่การอนุมานนั้นมีอิทธิพลเหนือทุ่งนาอย่างสมบูรณ์ในขณะที่การคาดการณ์ (ซึ่งมีความสำคัญและมีประโยชน์มาก) ก็เกือบจะถูกมองข้ามไป ยิ่งกว่านั้นถ้าคุณดูว่านักสังคมศาสตร์ใช้สถิติในการอนุมานคุณจะพบว่าพวกเขาใช้มันแตกต่างกันมาก! คุณสามารถตรวจสอบเพิ่มเติมเกี่ยวกับเรื่องนี้ได้ที่นี่