มีแนวคิดของข้อมูล“ เพียงพอ” สำหรับการฝึกอบรมแบบจำลองทางสถิติหรือไม่?


10

ฉันทำงานเกี่ยวกับการสร้างแบบจำลองทางสถิติค่อนข้างมากเช่น Hidden Markov Models และ Gaussian Mixture Models ฉันเห็นว่าแบบจำลองการฝึกอบรมที่ดีในแต่ละกรณีเหล่านี้จำเป็นต้องใช้ข้อมูลจำนวนมาก (> 20,000 ประโยคสำหรับ HMMs) ที่นำมาจากสภาพแวดล้อมที่คล้ายคลึงกันเป็นการใช้งานครั้งสุดท้าย คำถามของฉันคือ:

  1. มีแนวคิดของข้อมูลการฝึกอบรมที่ "เพียงพอ" ในวรรณกรรมหรือไม่ ข้อมูลการฝึกอบรม "ดีพอ" เท่าใด
  2. ฉันจะคำนวณจำนวนประโยคที่จำเป็นสำหรับโมเดล "ดี" (ที่ให้ความแม่นยำในการรู้จำที่ดี (> 80%)) เพื่อฝึกอบรมได้อย่างไร
  3. ฉันจะรู้ได้อย่างไรว่าแบบจำลองได้รับการฝึกฝนอย่างเหมาะสมหรือไม่ สัมประสิทธิ์ในแบบจำลองจะเริ่มแสดงความผันผวนแบบสุ่มหรือไม่? ถ้าเป็นเช่นนั้นฉันจะแยกความผันผวนแบบสุ่มและการเปลี่ยนแปลงจริงเนื่องจากการอัปเดตโมเดลได้อย่างไร

โปรดอ่านคำถามนี้ซ้ำในกรณีที่ต้องการแท็กเพิ่มเติม

คำตอบ:


10

คุณสามารถแบ่งชุดข้อมูลของคุณเป็นชุดย่อยต่อเนื่องได้ด้วย 10%, 20%, 30%, ... , 100% ของข้อมูลของคุณและแต่ละชุดย่อยจะประเมินความแปรปรวนของความแม่นยำของตัวประมาณโดยใช้การตรวจสอบความถูกต้องแบบครอส หากคุณมีข้อมูล "เพียงพอ" การวางแผนความแปรปรวนควรแสดงบรรทัดโมโนโทนที่ลดลงซึ่งควรถึงที่ราบสูงก่อน 100%: การเพิ่มข้อมูลมากขึ้นจะไม่ลดความแปรปรวนของความแม่นยำของตัวประมาณในลักษณะที่สำคัญ


ฉันจะต้องลองสิ่งนั้น ฟังดูน่าสนใจ. ขอบคุณ!
ศรีราม
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.