เหตุใดเกณฑ์ข้อมูล Akaike จึงไม่ใช้ในการเรียนรู้ของเครื่องมากกว่า


16

ฉันเพิ่งพบกับ "เกณฑ์ข้อมูล Akaike" และฉันสังเกตเห็นวรรณคดีจำนวนมากเกี่ยวกับการเลือกแบบจำลอง (เช่นสิ่งที่ดูเหมือน BIC มีอยู่)

เหตุใดจึงไม่วิธีการเรียนรู้ด้วยเครื่องจักรร่วมสมัยใช้ประโยชน์จากเกณฑ์การเลือกรูปแบบ BIC และ AIC เหล่านี้


9
เพราะไม่มีใครคำนวณความน่าจะเป็น
Aksakal

1
คุณหมายถึงอะไรโดย "วิธีการเรียนรู้เครื่องร่วมสมัย"? เท่าที่ฉันใช้ AIC และ BIC มีการใช้บ่อย
Ferdi

4
ทำไมถึงยัง -1 โปรดจำไว้ว่าไม่มีคำถามที่โง่ - คำถามแต่ละข้อพยายามที่จะทำให้กระจ่างในจักรวาล
echo

4
@echo: ฉันไม่ได้ลงคะแนน แต่ฉันคิดว่าคำถามของคุณจะดีขึ้นหากคุณสามารถสนับสนุน / สนับสนุนข้อเรียกร้องหลัก (วิธีการเรียนรู้ของเครื่องนั้นใช้ประโยชน์จากเกณฑ์การเลือกรูปแบบ BIC และ AIC เหล่านี้)
user603

2
@ Aksakal ขอบคุณ ฉันคิดว่ามันจะดีกว่าถ้าคำถามที่สร้างขึ้นโดยใช้การอ้างสิทธิ์แบบกวาดอาจทำให้เกิดข้อเรียกร้องนั้น ฉันหมายถึงเป็นกฎทั่วไป
user603

คำตอบ:


15

ใช้ AIC และ BIC เช่นในการถดถอยแบบขั้นตอน จริงๆแล้วมันเป็นส่วนหนึ่งของ "ฮิวริสติก" ที่มีการใช้งานมากขึ้น ตัวอย่างเช่น DIC (Deviance Information Criterion) มักใช้ในการเลือกแบบจำลองแบบเบย์

อย่างไรก็ตามโดยพื้นฐานแล้วพวกเขาเป็น "ฮิวริสติก" ในขณะที่มันสามารถแสดงให้เห็นว่าทั้ง AIC และ BIC เข้าหา asymptotically ไปสู่วิธีการตรวจสอบข้าม (ฉันคิดว่า AIC มุ่งไปสู่ ​​CV แบบครั้งต่อไปและ BIC ไปหาวิธีอื่น แต่ฉันไม่แน่ใจ) พวกเขารู้ว่า ต่ำกว่าลงโทษและลงโทษสูงกว่าตามลำดับ นั่นคือการใช้ AIC คุณมักจะได้รับแบบจำลองซึ่งมีความซับซ้อนมากกว่าที่ควรจะเป็นในขณะที่ด้วย BIC คุณมักจะได้รับแบบจำลองที่ง่ายเกินไป

เนื่องจากทั้งคู่เกี่ยวข้องกับประวัติย่อ CV จึงเป็นตัวเลือกที่ดีกว่าซึ่งไม่ประสบปัญหาเหล่านี้

ในที่สุดก็มีปัญหาของ # ของพารามิเตอร์ที่จำเป็นสำหรับ BIC และ AIC ด้วยฟังก์ชั่นการประมาณทั่วไป (เช่น KNNs) กับอินพุตมูลค่าจริงมันเป็นไปได้ที่จะ "ซ่อน" พารามิเตอร์คือการสร้างจำนวนจริงซึ่งมีข้อมูลเดียวกับตัวเลขจริงสองจำนวน (คิดว่าเช่นการตัดตัวเลข) ในกรณีนั้นจำนวนพารามิเตอร์ที่แท้จริงคืออะไร? บนมืออื่น ๆ ด้วยรูปแบบที่มีความซับซ้อนมากขึ้นคุณอาจจะมีข้อ จำกัด ในพารามิเตอร์ของคุณบอกว่าคุณสามารถพารามิเตอร์เท่านั้นพอดีเช่นที่θ1>θ2 (ดูเช่นที่นี่ ) หรือคุณอาจไม่สามารถระบุตัวตนได้ซึ่งในกรณีนี้ค่าหลายค่าของพารามิเตอร์จะให้แบบจำลองเดียวกัน ในกรณีเหล่านี้เพียงแค่การนับพารามิเตอร์ไม่ได้ให้การประมาณที่เหมาะสม

เนื่องจากอัลกอริทึมการเรียนรู้ด้วยเครื่องจักรร่วมสมัยจำนวนมากแสดงคุณสมบัติเหล่านี้ (เช่นการประมาณสากลจำนวนพารามิเตอร์ที่ไม่ชัดเจนการไม่ระบุตัวตน), AIC และ BIC นั้นมีประโยชน์น้อยกว่าสำหรับแบบจำลองเหล่านี้

แก้ไข :

บางจุดเพิ่มเติมที่สามารถชี้แจงได้:

  1. ดูเหมือนว่าผมผิดที่จะต้องพิจารณาการทำแผนที่โดย interleaving ตัวเลข bijection ระหว่างที่RRN (ดูที่นี่ ) อย่างไรก็ตามรายละเอียดว่าทำไมนี่ไม่ใช่ bijection ค่อนข้างยากที่จะเข้าใจ อย่างไรก็ตามเราไม่จำเป็นต้องมี bijection เพื่อให้ความคิดนี้ทำงานได้ (การปฏิเสธก็เพียงพอแล้ว)
  2. ตามหลักฐานจากต้นเสียง (1877)จะต้องมี bijection ระหว่างRRN N แม้ว่าการอ้างถึงแบบนี้ไม่สามารถกำหนดได้อย่างชัดเจน แต่การมีอยู่นั้นสามารถพิสูจน์ได้ (แต่สิ่งนี้ต้องการความจริงที่ไม่ได้รับการพิสูจน์) bijection นี้ยังสามารถใช้ในแบบจำลองทางทฤษฎี (อาจเป็นไปไม่ได้ที่จะนำโมเดลนี้ไปใช้ในคอมพิวเตอร์) เพื่อคลายพารามิเตอร์เดียวให้เป็นจำนวนพารามิเตอร์ตามอำเภอใจ
  3. เราไม่ต้องการการทำแผนที่ระหว่างRRNเพื่อ bijection ฟังก์ชัน surjective ใด ๆRRNก็เพียงพอที่จะนำพารามิเตอร์หลาย ๆ ตัวออกจากอันเดียว การแสดงความคิดเห็นดังกล่าวสามารถแสดงให้เห็นว่ามีอยู่เป็นข้อ จำกัด ในลำดับของฟังก์ชั่นอื่น ๆ (เช่นที่เรียกว่าเส้นโค้งการเติมพื้นที่เช่นเส้นโค้ง Peano )
  4. เพราะไม่ใช่ข้อพิสูจน์จากคันทอร์สร้างสรรค์ (มันก็พิสูจน์การดำรงอยู่ของ bijection โดยไม่ให้ตัวอย่าง) หรือช่องว่าง - เติมโค้ง (เพราะพวกเขามีอยู่แค่ในฐานะที่เป็นข้อ จำกัด ของวัตถุที่สร้างสรรค์และดังนั้นจึงไม่สร้างสรรค์ตัวเอง) ทำเป็นเพียงหลักฐานทางทฤษฎี ในทางทฤษฎีเราสามารถเพิ่มพารามิเตอร์ลงในแบบจำลองเพื่อลด BIC ต่ำกว่าค่าที่ต้องการ (ในชุดฝึกอบรม) อย่างไรก็ตามในการใช้โมเดลจริงเราต้องประมาณเส้นโค้งการเติมช่องว่างดังนั้นข้อผิดพลาดการประมาณอาจห้ามเราไม่ให้ทำเช่นนั้น (ฉันไม่ได้ทดสอบสิ่งนี้จริง ๆ )
  5. เนื่องจากทั้งหมดนี้ต้องใช้สัจพจน์ของการเลือกหลักฐานจึงไม่ถูกต้องหากคุณไม่ยอมรับความจริงนี้ (แม้ว่านักคณิตศาสตร์ส่วนใหญ่จะทำเช่นนั้น) นั่นหมายความว่าในทางคณิตศาสตร์เชิงสร้างสรรค์สิ่งนี้อาจเป็นไปไม่ได้ แต่ฉันไม่รู้ว่าคณิตศาสตร์เชิงสร้างสรรค์มีบทบาทอะไรกับสถิติ
  6. การระบุตัวตนนั้นเชื่อมโยงกับความซับซ้อนในการทำงาน หากใครใช้โมเดลพารามิเตอร์Nสามารถระบุตัวได้และเพิ่มพารามิเตอร์ที่ไม่จำเป็น (เช่นไม่ได้ใช้ที่ใดก็ได้) โมเดลใหม่จะกลายเป็นแบบไม่ระบุตัวตน เป็นหลักหนึ่งคือการใช้รูปแบบที่มีความซับซ้อนของการRN+1ในการแก้ปัญหาที่มีความซับซ้อนRN N ในทำนองเดียวกันกับรูปแบบอื่น ๆ ที่ไม่ใช่การระบุตัวตน ยกตัวอย่างเช่นกรณีของการเปลี่ยนลำดับพารามิเตอร์ที่ไม่สามารถระบุตัวได้ ในกรณีนั้นมีใครใช้โมเดลที่มีความซับซ้อนของRNแต่ปัญหาที่เกิดขึ้นจริงมีเพียงความซับซ้อนของชุดของคลาสที่เท่าเทียมกันมากกว่าRN. อย่างไรก็ตามนี่เป็นเพียงการถกเถียงอย่างไม่เป็นทางการฉันไม่ทราบถึงการรักษาอย่างเป็นทางการของแนวคิด "ความซับซ้อน" นี้

สนใจที่จะพูดถึงในโพสต์นี้stats.stackexchange.com/questions/325129/… ? ฉันไม่เคยโชคดีมานานแล้ว
Skander H. - Reinstate Monica

1
@LiKao คุณสามารถอ้างอิงการอ้างอิงถึง "เทคนิค" ของพารามิเตอร์ hidding ได้เช่นกรณีของตัวเลขที่ตัดกัน
horaceT

@horaceT น่าเสียดายที่ฉันไม่รู้กระดาษเลยนั่นเป็นตัวอย่างนี้ ในเอกสารเกี่ยวกับ MDL มีแนวคิดของ "ความซับซ้อนเชิงหน้าที่" (เช่นlpl.psy.ohio-state.edu/documents/MNP.pdfดู eq 10) บ่อยครั้งที่ตัวอย่างถูกสร้างขึ้นด้วยพารามิเตอร์ที่ จำกัด (เช่นresearchgate.net/publication/… ) ฉันชอบที่จะพลิกตัวอย่างเมื่อพูดถึงเรื่องนี้และแสดงให้เห็นว่าพารามิเตอร์เดี่ยวที่ซับซ้อนสามารถจับพารามิเตอร์ง่าย ๆ หลายตัวเพราะฉันพบว่าใช้งานง่ายกว่า
LiKao

f1,2:RR21,ยังไม่มีข้อความ:RRยังไม่มีข้อความยังไม่มีข้อความ1,ยังไม่มีข้อความ ก่อนอื่นจะได้รับ ยังไม่มีข้อความ มิติเวกเตอร์จากพารามิเตอร์เดียวของฉันจากนั้นใส่เวกเตอร์นี้เป็นพารามิเตอร์ให้กับ ยังไม่มีข้อความโมเดลพารามิเตอร์ สิ่งนี้ทำให้ฉันทำงานได้เทียบเท่า1โมเดลพารามิเตอร์ การประกอบโมเดลนั้นให้มีความซับซ้อนเป็นอย่างน้อย
LiKao

@LiKao นี่มันช่างน่าหลงใหลทีเดียว กรุณาอ้างอิงกล่าวว่าหลักฐานของ "เส้นโค้งยื่น" ฉันเห็นว่าพารามิเตอร์ที่ จำกัด มีระดับความอิสระ "น้อยลง" อย่างไร้เดียงสาถ้า f (x, y) = 0, y เป็นเพียงฟังก์ชันของ x; คุณแค่ใส่ g (x) โดยที่ y อยู่ คุณไม่สามารถทำสิ่งที่คล้ายกันด้วยการเพิ่มประสิทธิภาพที่ จำกัด
horaceT
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.