ฉันเพิ่งพบกับ "เกณฑ์ข้อมูล Akaike" และฉันสังเกตเห็นวรรณคดีจำนวนมากเกี่ยวกับการเลือกแบบจำลอง (เช่นสิ่งที่ดูเหมือน BIC มีอยู่)
เหตุใดจึงไม่วิธีการเรียนรู้ด้วยเครื่องจักรร่วมสมัยใช้ประโยชน์จากเกณฑ์การเลือกรูปแบบ BIC และ AIC เหล่านี้
ฉันเพิ่งพบกับ "เกณฑ์ข้อมูล Akaike" และฉันสังเกตเห็นวรรณคดีจำนวนมากเกี่ยวกับการเลือกแบบจำลอง (เช่นสิ่งที่ดูเหมือน BIC มีอยู่)
เหตุใดจึงไม่วิธีการเรียนรู้ด้วยเครื่องจักรร่วมสมัยใช้ประโยชน์จากเกณฑ์การเลือกรูปแบบ BIC และ AIC เหล่านี้
คำตอบ:
ใช้ AIC และ BIC เช่นในการถดถอยแบบขั้นตอน จริงๆแล้วมันเป็นส่วนหนึ่งของ "ฮิวริสติก" ที่มีการใช้งานมากขึ้น ตัวอย่างเช่น DIC (Deviance Information Criterion) มักใช้ในการเลือกแบบจำลองแบบเบย์
อย่างไรก็ตามโดยพื้นฐานแล้วพวกเขาเป็น "ฮิวริสติก" ในขณะที่มันสามารถแสดงให้เห็นว่าทั้ง AIC และ BIC เข้าหา asymptotically ไปสู่วิธีการตรวจสอบข้าม (ฉันคิดว่า AIC มุ่งไปสู่ CV แบบครั้งต่อไปและ BIC ไปหาวิธีอื่น แต่ฉันไม่แน่ใจ) พวกเขารู้ว่า ต่ำกว่าลงโทษและลงโทษสูงกว่าตามลำดับ นั่นคือการใช้ AIC คุณมักจะได้รับแบบจำลองซึ่งมีความซับซ้อนมากกว่าที่ควรจะเป็นในขณะที่ด้วย BIC คุณมักจะได้รับแบบจำลองที่ง่ายเกินไป
เนื่องจากทั้งคู่เกี่ยวข้องกับประวัติย่อ CV จึงเป็นตัวเลือกที่ดีกว่าซึ่งไม่ประสบปัญหาเหล่านี้
ในที่สุดก็มีปัญหาของ # ของพารามิเตอร์ที่จำเป็นสำหรับ BIC และ AIC ด้วยฟังก์ชั่นการประมาณทั่วไป (เช่น KNNs) กับอินพุตมูลค่าจริงมันเป็นไปได้ที่จะ "ซ่อน" พารามิเตอร์คือการสร้างจำนวนจริงซึ่งมีข้อมูลเดียวกับตัวเลขจริงสองจำนวน (คิดว่าเช่นการตัดตัวเลข) ในกรณีนั้นจำนวนพารามิเตอร์ที่แท้จริงคืออะไร? บนมืออื่น ๆ ด้วยรูปแบบที่มีความซับซ้อนมากขึ้นคุณอาจจะมีข้อ จำกัด ในพารามิเตอร์ของคุณบอกว่าคุณสามารถพารามิเตอร์เท่านั้นพอดีเช่นที่ (ดูเช่นที่นี่ ) หรือคุณอาจไม่สามารถระบุตัวตนได้ซึ่งในกรณีนี้ค่าหลายค่าของพารามิเตอร์จะให้แบบจำลองเดียวกัน ในกรณีเหล่านี้เพียงแค่การนับพารามิเตอร์ไม่ได้ให้การประมาณที่เหมาะสม
เนื่องจากอัลกอริทึมการเรียนรู้ด้วยเครื่องจักรร่วมสมัยจำนวนมากแสดงคุณสมบัติเหล่านี้ (เช่นการประมาณสากลจำนวนพารามิเตอร์ที่ไม่ชัดเจนการไม่ระบุตัวตน), AIC และ BIC นั้นมีประโยชน์น้อยกว่าสำหรับแบบจำลองเหล่านี้
แก้ไข :
บางจุดเพิ่มเติมที่สามารถชี้แจงได้: