ฉันทำงานเกี่ยวกับการสร้างแบบจำลองทางสถิติค่อนข้างมากเช่น Hidden Markov Models และ Gaussian Mixture Models ฉันเห็นว่าแบบจำลองการฝึกอบรมที่ดีในแต่ละกรณีเหล่านี้จำเป็นต้องใช้ข้อมูลจำนวนมาก (> 20,000 ประโยคสำหรับ HMMs) ที่นำมาจากสภาพแวดล้อมที่คล้ายคลึงกันเป็นการใช้งานครั้งสุดท้าย คำถามของฉันคือ:
- มีแนวคิดของข้อมูลการฝึกอบรมที่ "เพียงพอ" ในวรรณกรรมหรือไม่ ข้อมูลการฝึกอบรม "ดีพอ" เท่าใด
- ฉันจะคำนวณจำนวนประโยคที่จำเป็นสำหรับโมเดล "ดี" (ที่ให้ความแม่นยำในการรู้จำที่ดี (> 80%)) เพื่อฝึกอบรมได้อย่างไร
- ฉันจะรู้ได้อย่างไรว่าแบบจำลองได้รับการฝึกฝนอย่างเหมาะสมหรือไม่ สัมประสิทธิ์ในแบบจำลองจะเริ่มแสดงความผันผวนแบบสุ่มหรือไม่? ถ้าเป็นเช่นนั้นฉันจะแยกความผันผวนแบบสุ่มและการเปลี่ยนแปลงจริงเนื่องจากการอัปเดตโมเดลได้อย่างไร
โปรดอ่านคำถามนี้ซ้ำในกรณีที่ต้องการแท็กเพิ่มเติม