กลเม็ดและเคล็ดลับในการเริ่มต้นกับการสร้างแบบจำลองทางสถิติ?


10

ฉันทำงานด้านการขุดข้อมูลและมีสถิติการศึกษาน้อยมาก เมื่อเร็ว ๆ นี้ฉันได้อ่านงานจำนวนมากที่มุ่งเน้นกระบวนทัศน์แบบเบย์สำหรับการเรียนรู้และการขุดซึ่งฉันพบว่าน่าสนใจมาก

คำถามของฉันคือ (ในหลายส่วน) เนื่องจากปัญหามีกรอบทั่วไปที่เป็นไปได้หรือไม่ที่จะสร้างแบบจำลองทางสถิติ สิ่งแรกที่คุณทำเมื่อได้รับชุดข้อมูลที่คุณต้องการสร้างแบบจำลองกระบวนการพื้นฐานคืออะไร? มีหนังสือ / แบบฝึกหัดที่ดีที่อธิบายกระบวนการนี้หรือเป็นเรื่องของประสบการณ์หรือไม่? การอนุมานอยู่ในระดับแนวหน้าของความคิดของคุณเมื่อสร้างแบบจำลองของคุณหรือคุณต้องการที่จะอธิบายข้อมูลก่อนที่คุณจะกังวลเกี่ยวกับวิธีการใช้ในการคำนวณ?

ความเข้าใจใด ๆ จะได้รับการชื่นชมอย่างมาก! ขอบคุณ


4
สวัสดีนิค - ยินดีต้อนรับสู่ประวัติย่อ คำถามของคุณกว้างมาก คุณอาจโชคดีกว่าที่จะได้คำตอบที่ดีถ้าคุณแยกคำถามออกเป็นคำถามเล็ก ๆ (และเมื่อคุณทำแล้วคุณอาจพบว่าบางคนได้รับคำตอบแล้วที่นี่) อย่างไรก็ตามอย่างน้อยคุณควรทำเครื่องหมายคำถามของคุณว่า "community wiki" นั่นหมายความว่าโดยทั่วไปแล้วแทนที่จะเป็นรูปแบบการแข่งขันคำตอบปกติที่นี่คำตอบทั้งหมดโดยรวมจะถูกพิจารณาว่าเป็นคำตอบ
Matt Parker

1
@Matt ช่องทำเครื่องหมาย CW จะไม่ปรากฏขึ้นสำหรับคำถามอีกต่อไป mod จะต้องทำเครื่องหมายคำถามว่า CW ตามต้องการ

@ Nick .. ฉันยังใหม่เช่นกัน ฉันคิดว่าสิ่งทั่วไปและสิ่งที่สำคัญที่สุดที่เราต้องการเก็บไว้คือคุณต้องการอธิบายตัวแปรเอาต์พุตของคุณอย่างไรมันต่อเนื่องมันเป็นไบนารีหรือไม่ เพราะ ณ สิ้นวันคุณต้องการสังเกต / จำลองตัวแปรเอาต์พุต สิ่งต่อไปที่ฉันคิดว่าเป็นวิธีที่เป็นไปได้ในการสร้างแบบจำลองตัวแปรที่ต้องการ .. สิ่งที่จะเกิดขึ้นคือถ้าตัวแปรนั้นมีความแตกต่างกันขั้นตอนคือ logit model .. การพิจารณาครั้งต่อไปจะเป็นข้อมูล ปัญหาต่าง ๆ ที่หนึ่งพบ .. หวังว่านี้เหมาะสม
ayush biyani

คำตอบ:


6

ในสถิติเช่นเดียวกับใน Data Mining คุณเริ่มต้นด้วยข้อมูลและเป้าหมาย ในสถิติมีการมุ่งเน้นที่การอนุมานจำนวนมากนั่นคือการตอบคำถามระดับประชากรโดยใช้ตัวอย่าง ในการทำเหมืองข้อมูลโดยปกติจะเน้นการทำนาย: คุณสร้างแบบจำลองจากตัวอย่างของคุณ (ข้อมูลการฝึกอบรม) เพื่อทำนายข้อมูลการทดสอบ

กระบวนการในสถิติคือ:

  1. สำรวจข้อมูลโดยใช้ข้อมูลสรุปและกราฟขึ้นอยู่กับว่าสถิติขับเคลื่อนด้วยข้อมูลอย่างไรบางคนจะเปิดกว้างมากขึ้นมองข้อมูลจากทุกมุมมองขณะที่คนอื่น ๆ (โดยเฉพาะนักวิทยาศาสตร์สังคม) จะดูข้อมูลผ่านเลนส์ของ คำถามที่น่าสนใจ (เช่นพล็อตโดยเฉพาะตัวแปรที่น่าสนใจและไม่ใช่เรื่องอื่น)

    1. เลือกตระกูลโมเดลทางสถิติที่เหมาะสม (เช่นการถดถอยเชิงเส้นสำหรับ Y ต่อเนื่อง, การถดถอยโลจิสติกสำหรับไบนารี Y หรือ Poisson สำหรับข้อมูลนับ) และทำการเลือกแบบจำลอง

    2. ประเมินรุ่นสุดท้าย

    3. ข้อสมมติฐานการทดสอบแบบจำลองเพื่อให้แน่ใจว่าตรงตามความสมเหตุสมผล (แตกต่างจากการทดสอบเพื่อความแม่นยำในการทำนายข้อมูลในการขุดข้อมูล)

    4. ใช้โมเดลสำหรับการอนุมาน - นี่คือขั้นตอนหลักที่แตกต่างจากการทำเหมืองข้อมูล คำว่า "p-value" มาถึงที่นี่ ...

ลองดูที่ตำราสถิติพื้นฐานและคุณจะพบบทเกี่ยวกับการวิเคราะห์ข้อมูลเชิงสำรวจตามด้วยการแจกแจงบางส่วน (ซึ่งจะช่วยเลือกแบบจำลองการประมาณที่เหมาะสม) จากนั้นจึงอนุมาน (ช่วงความเชื่อมั่นและการทดสอบสมมติฐาน) และแบบจำลองการถดถอย

ฉันอธิบายให้คุณกระบวนการทางสถิติคลาสสิก อย่างไรก็ตามฉันมีปัญหามากมายกับมัน การมุ่งเน้นที่การอนุมานนั้นมีอิทธิพลเหนือทุ่งนาอย่างสมบูรณ์ในขณะที่การคาดการณ์ (ซึ่งมีความสำคัญและมีประโยชน์มาก) ก็เกือบจะถูกมองข้ามไป ยิ่งกว่านั้นถ้าคุณดูว่านักสังคมศาสตร์ใช้สถิติในการอนุมานคุณจะพบว่าพวกเขาใช้มันแตกต่างกันมาก! คุณสามารถตรวจสอบเพิ่มเติมเกี่ยวกับเรื่องนี้ได้ที่นี่


2

เท่าที่หนังสืออ่าน "องค์ประกอบของการเรียนรู้ทางสถิติ" โดย Hastie, Tibshirani และ Friedman นั้นดีมาก

หนังสือเต็มรูปแบบที่มีอยู่ในเว็บไซต์ของผู้เขียน ; คุณอาจต้องการดูว่าเหมาะสมกับความต้องการของคุณหรือไม่


2

ในฐานะที่เป็น (On-line) ลำดับที่ผมจะขอแนะนำให้ดูที่แอนดรูมัวร์สไลด์การสอนเกี่ยวกับสถิติการทำเหมืองข้อมูล

มีหนังสือหลายเล่มเกี่ยวกับการขุดข้อมูลและการเรียนรู้ของเครื่อง อาจเป็นจุดเริ่มต้นที่ดีคือหลักการของการทำเหมืองข้อมูลโดย Hand et al. และIntroduction to Machine Learningโดย Alpaydin


โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.