คำถามนี้โดยมนุษย์ถ้ำเป็นที่นิยม แต่มีไม่มีการพยายามตอบสำหรับเดือนจนกว่าฉันแย้งหนึ่ง อาจเป็นได้ว่าคำตอบที่แท้จริงด้านล่างไม่ใช่ในตัวของมันเองการโต้เถียงเพียง แต่คำถามนั้นเป็นคำถามที่ "โหลด" เพราะสนามดูเหมือนว่า (สำหรับฉันอย่างน้อย) จะมีประชากรโดย AOL และ BIC ซึ่งค่อนข้างจะใช้ OLS กว่าวิธีของกันและกัน โปรดดูสมมติฐานทั้งหมดที่ระบุไว้และข้อ จำกัด ที่วางไว้ในประเภทข้อมูลและวิธีการวิเคราะห์และโปรดแสดงความคิดเห็น แก้ไขปัญหานี้สนับสนุน ป่านนี้คนฉลาดบางคนมีส่วนทำให้ความคืบหน้าช้าจึงถูกสร้างขึ้น ฉันรับทราบการมีส่วนร่วมของ Richard Hardy และ GeoMatt22 คำพูดที่ชัดเจนจาก Antoni Parellada และความพยายามอันกล้าหาญของ Cagdas Ozgenc และ Ben Ogorek เพื่อเชื่อมโยง KL divergence กับความแตกต่างที่แท้จริง
ก่อนที่เราจะเริ่มต้นให้เราทบทวนสิ่งที่เป็นศูนย์กลางและเป็นหนึ่งในแหล่งที่มาสำหรับเรื่องนี้คือข้อกำหนดเบื้องต้นสำหรับการเปรียบเทียบรูปแบบ AICและอื่น ๆ จากร็อบเจ Hyndman โดยเฉพาะ AIC จะถูกคำนวณให้เท่ากับ
2k−2log(L(θ)),
โดยที่คือจำนวนพารามิเตอร์ในตัวแบบและฟังก์ชันความน่าจะเป็น AIC เปรียบเทียบการแลกเปลี่ยนระหว่างความแปรปรวน ( ) และอคติ ( ) จากการสร้างแบบจำลองสมมติฐาน จากข้อเท็จจริงและความล้มเหลวของ AICจุดที่ 3 "AIC ไม่ถือว่าส่วนที่เหลือเป็น Gaussian มันเป็นเพียงความเป็นไปได้ของ Gaussian ที่ใช้บ่อยที่สุด แต่ถ้าคุณต้องการใช้การกระจายแบบอื่นให้ไปข้างหน้า" เอไอซีเป็นโอกาสลงโทษแล้วแต่จำนวนใดโอกาสที่คุณเลือกที่จะใช้งาน ยกตัวอย่างเช่นในการแก้ AIC สำหรับ Student's-T เหลือกระจายเราสามารถใช้วิธีการแก้ปัญหาโอกาสสูงสุดสำหรับ Student's-T kL(θ)2k2log(L(θ))บันทึกความน่าจะเป็นที่มักจะนำมาใช้สำหรับ AICมาจากการบันทึกความน่าจะเป็นแบบเกาส์และได้รับจาก
log(L(θ))=−|D|2log(2π)−12log(|K|)−12(x−μ)TK−1(x−μ),
Kเป็นโครงสร้างความแปรปรวนร่วมของโมเดลขนาดตัวอย่าง; จำนวนการสังเกตในชุดข้อมูลการตอบสนองเฉลี่ยและตัวแปรตาม โปรดทราบว่าการพูดอย่างเคร่งครัดมันไม่จำเป็นสำหรับ AIC ในการแก้ไขขนาดตัวอย่างเนื่องจาก AIC ไม่ได้ใช้เพื่อเปรียบเทียบชุดข้อมูลเฉพาะรุ่นที่ใช้ชุดข้อมูลเดียวกัน ดังนั้นเราไม่จำเป็นต้องตรวจสอบว่าการแก้ไขขนาดตัวอย่างทำได้อย่างถูกต้องหรือไม่ แต่เราจะต้องกังวลเกี่ยวกับเรื่องนี้หากเราสามารถพูดคุยทั่วไป AIC ให้เป็นประโยชน์ระหว่างชุดข้อมูล ในทำนองเดียวกันมีการสร้างเกี่ยวกับเพื่อประกันประสิทธิภาพของ asymptotic มุมมองแบบมินิมัลลิสต์อาจถือว่า AIC เป็นเพียง "ดัชนี" ซึ่งทำให้|D|μxK>>|D|>2K>|D|มีความเกี่ยวข้องและที่ไม่เกี่ยวข้อง อย่างไรก็ตามได้มีการให้ความสนใจในรูปแบบของการเสนอการเปลี่ยนแปลง AIC สำหรับไม่ใหญ่กว่าเรียกว่า AICดูย่อหน้าที่สองของคำตอบสำหรับ Q2 ด้านล่าง การแพร่กระจายของ "มาตรการ" นี้เป็นการตอกย้ำความคิดที่ว่า AIC เป็นดัชนีเท่านั้น อย่างไรก็ตามขอแนะนำให้ใช้ความระมัดระวังเมื่อใช้คำว่า "i" เนื่องจากผู้ให้การสนับสนุน AIC บางคนถือเอาการใช้คำว่า "ดัชนี" ที่มีความชื่นชอบเช่นเดียวกับที่อาจติดอยู่กับการอ้างถึง ontogeny ว่าเป็นคนนอกโลกK>>|D|K|D|c
คำถามที่ 1: แต่คำถามคือทำไมเราต้องใส่ใจกับความเรียบง่ายของการออกกำลังกายที่เฉพาะเจาะจงนี้?
ตอบเป็นสองส่วน ก่อนคำถามเฉพาะ คุณควรสนใจเพราะนั่นคือวิธีที่มันถูกกำหนดไว้ หากคุณต้องการไม่มีเหตุผลที่จะไม่กำหนด CIC; เกณฑ์ข้อมูลมนุษย์ถ้ำมันจะไม่เป็น AIC แต่ CIC จะให้คำตอบเดียวกับ AIC มันจะไม่ส่งผลกระทบต่อการแลกเปลี่ยนระหว่างความดีงามพอดีและการวางตัวเรียบง่าย ค่าคงที่ใด ๆ ที่สามารถใช้เป็นตัวคูณ AIC รวมถึงหนึ่งครั้งจะต้องได้รับการคัดเลือกและปฏิบัติตามเนื่องจากไม่มีมาตรฐานอ้างอิงเพื่อบังคับใช้มาตราส่วนแบบสัมบูรณ์ อย่างไรก็ตามการยึดมั่นในคำนิยามมาตรฐานไม่ได้มีความหมายว่ามีที่ว่างสำหรับหนึ่งและเพียงหนึ่งคำจำกัดความหรือ "การประชุม" สำหรับปริมาณเช่น AIC ที่กำหนดไว้ในระดับที่สัมพันธ์กันเท่านั้น ดูที่สมมติฐาน AIC # 3 ด้านล่าง
คำตอบที่สองสำหรับคำถามนี้เกี่ยวข้องกับความเฉพาะเจาะจงของการแลกเปลี่ยน AIC ระหว่างความดีงามพอดีและการวางตัวเรียบง่ายโดยไม่คำนึงว่าจะมีการเลือกตัวคูณคงที่อย่างไร นั่นคือสิ่งที่จริงผลกระทบ "การแลกเปลี่ยน"? สิ่งหนึ่งที่มีผลต่อสิ่งนี้คือการปรับระดับความเป็นอิสระของจำนวนพารามิเตอร์ในแบบจำลองสิ่งนี้นำไปสู่การนิยาม AIC "ใหม่" ที่เรียกว่า AICดังนี้:c
AICc=AIC+2k(k+1)n−k−1=2knn−k−1−2ln(L),
โดยที่คือขนาดตัวอย่าง เนื่องจากการให้น้ำหนักตอนนี้แตกต่างกันเล็กน้อยเมื่อเปรียบเทียบแบบจำลองที่มีจำนวนพารามิเตอร์ที่แตกต่างกัน AICเลือกแบบจำลองที่แตกต่างจาก AIC และเหมือนกันกับ AIC เมื่อทั้งสองรุ่นมีความแตกต่างกัน แต่มีจำนวนพารามิเตอร์เท่ากัน วิธีอื่น ๆ จะเลือกแบบจำลองที่แตกต่างกันเช่น "BIC [sic, Bayesian data criterion ] โดยทั่วไปจะลงโทษพารามิเตอร์อิสระที่รุนแรงกว่าเกณฑ์ข้อมูล Akaike ถึงแม้ว่ามันจะขึ้นอยู่กับ ... " ANOVA ก็จะลงโทษพารามิเตอร์ที่เกินความเป็นไปได้ ความจำเป็นของค่าพารามิเตอร์แตกต่างกันและในบางสถานการณ์จะดีกว่าการใช้ AICnc. โดยทั่วไปวิธีการประเมินความเหมาะสมของแบบจำลองจะมีข้อดีและข้อเสีย คำแนะนำของฉันคือการทดสอบประสิทธิภาพของวิธีการเลือกแบบจำลองใด ๆ สำหรับการประยุกต์ใช้กับวิธีการถดถอยข้อมูลอย่างจริงจังมากกว่าการทดสอบตัวแบบจำลองเอง เหตุผลใดที่จะสงสัย? ใช่ควรระมัดระวังเมื่อสร้างหรือเลือกการทดสอบแบบจำลองใด ๆ เพื่อเลือกวิธีการที่เหมาะสมตามระเบียบวิธี AIC มีประโยชน์สำหรับชุดย่อยของการประเมินแบบจำลองเพื่อดูไตรมาสที่ 3 ต่อไป ตัวอย่างเช่นการดึงข้อมูลด้วยโมเดล A อาจทำได้ดีที่สุดด้วยวิธีการถดถอย 1 และสำหรับโมเดล B ด้วยวิธีการถดถอย 2 ซึ่งบางครั้งโมเดล B และวิธีที่ 2 ให้ผลลัพธ์ที่ไม่ใช่คำตอบทางกายภาพและที่ไม่มีวิธีการถดถอยคือ MLR
Q3 สิ่งนี้เกี่ยวข้องกับทฤษฎีข้อมูลอย่างไร :
สมมติฐาน MLR # 1 AIC ได้รับการบอกกล่าวตามข้อสันนิษฐานของการประยุกต์ใช้ความน่าจะเป็นสูงสุด (MLR) กับปัญหาการถดถอย มีเพียงสถานการณ์เดียวที่การถดถอยกำลังสองน้อยที่สุดธรรมดาและความน่าจะเป็นการถดถอยสูงสุดได้ชี้ให้ฉันเห็นว่าเหมือนกัน นั่นก็คือเมื่อส่วนที่เหลือจากการถดถอยเชิงเส้นน้อยที่สุดธรรมดา (OLS) มีการกระจายตัวตามปกติและ MLR มีฟังก์ชันการสูญเสียแบบเกาส์ ในกรณีอื่น ๆ ของการถดถอยเชิงเส้น OLS สำหรับการถดถอย OLS แบบไม่เชิงเส้นและฟังก์ชั่นการสูญเสียที่ไม่ใช่แบบเกาส์ MLR และ OLS อาจแตกต่างกัน มีเป้าหมายการถดถอยอื่น ๆ อีกมากมายนอกเหนือจาก OLS หรือ MLR หรือแม้กระทั่งความดีที่เหมาะสมและบ่อยครั้งที่คำตอบที่ดีก็มีส่วนเกี่ยวข้องเช่นกันสำหรับปัญหาผกผันส่วนใหญ่. ความพยายามที่มีการอ้างถึงสูง (เช่น 1100 ครั้ง) ที่จะใช้คุย AIC สำหรับกึ่งโอกาสเพื่อให้การพึ่งพาการถดถอยโอกาสสูงสุดที่ผ่อนคลายมากขึ้นที่จะยอมรับฟังก์ชั่นการสูญเสียทั่วไป นอกจากนี้อัตราดอกเบี้ย MLR-T Student's แม้จะไม่ได้อยู่ในรูปแบบปิดเป็นมาบรรจบกันอย่างทนทาน เนื่องจากการแจกแจงแบบเศษซากของนักเรียนมีทั้งแบบทั่วไปและแบบทั่วไปมากกว่ารวมถึงเงื่อนไขแบบเกาส์ฉันจึงไม่เห็นเหตุผลพิเศษที่จะใช้สมมติฐานแบบเกาส์สำหรับ AIC
สมมติฐาน MLR # 2 MLR คือความพยายามในการหาปริมาณของความพอดี บางครั้งมันถูกนำไปใช้เมื่อไม่เหมาะสม ตัวอย่างเช่นสำหรับข้อมูลช่วงที่ถูกตัดทอนเมื่อรุ่นที่ใช้ไม่ได้ถูกตัดแต่ง Goodness-of-fit นั้นดีและดีถ้าเรามีข้อมูลที่ครอบคลุมครบถ้วน ในอนุกรมเวลาเรามักไม่มีข้อมูลเร็วพอที่จะเข้าใจอย่างเต็มที่ว่าเหตุการณ์ทางกายภาพเกิดขึ้นในตอนแรกหรือแบบจำลองของเราอาจไม่สมบูรณ์เพียงพอที่จะตรวจสอบข้อมูลที่เร็วมาก ปัญหาที่น่ากังวลยิ่งกว่าคือการที่มักจะไม่สามารถทดสอบความดีงามที่เหมาะสมในเวลาที่ผ่านมาเนื่องจากขาดข้อมูล ดังนั้นความดีของความพอดีอาจเป็นเพียงการสร้างแบบจำลอง 30% ของพื้นที่ที่เหมาะสมภายใต้เส้นโค้งและในกรณีนี้เรากำลังตัดสินรูปแบบการประมาณโดยใช้ข้อมูลที่เป็นและเราไม่ได้ตรวจสอบสิ่งที่หมายถึง เพื่อคาดการณ์ เราต้องดูไม่เพียง แต่ความดีของพอดี 'จำนวน' แต่ยังรวมถึงอนุพันธ์ของจำนวนที่ล้มเหลวซึ่งเราไม่มี "ความดี" ของการคาดการณ์ ดังนั้นเทคนิคพอดีเช่น B-splines ค้นหาการใช้งานเพราะพวกเขาสามารถทำนายได้อย่างราบรื่นมากขึ้นว่าข้อมูลคืออะไรเมื่ออนุพันธ์นั้นเหมาะสมหรือวิธีการแก้ปัญหากลับกันเช่นการรักษาแบบอินทิกรัลแบบไม่ดีตลอดช่วงโมเดลทั้งหมด กู
ข้อกังวลที่ซับซ้อนอีกประการหนึ่งคือข้อมูลสามารถบอกเราได้ว่าเราควรทำอะไรกับมัน สิ่งที่เราต้องการสำหรับความดี - พอดี (เมื่อเหมาะสม) คือการมีส่วนที่เหลืออยู่ในระยะทางในแง่ที่ว่าค่าเบี่ยงเบนมาตรฐานคือระยะทาง นั่นคือความดีของความพอดีจะไม่สมเหตุสมผลหากส่วนที่เหลือซึ่งมีค่าเป็นสองเท่าตราบใดที่ค่าเบี่ยงเบนมาตรฐานเดียวก็ไม่ได้มีความยาวส่วนเบี่ยงเบนมาตรฐานสองเท่า การเลือกการแปลงข้อมูลควรถูกตรวจสอบก่อนที่จะใช้วิธีการเลือก / การถดถอยแบบจำลองใด ๆ หากข้อมูลมีข้อผิดพลาดประเภทตามสัดส่วนโดยทั่วไปแล้วการลอการิทึมก่อนที่จะเลือกการถดถอยนั้นไม่เหมาะสมเนื่องจากจะแปลงค่าเบี่ยงเบนมาตรฐานเป็นระยะทาง อีกวิธีหนึ่งเราสามารถปรับเปลี่ยนบรรทัดฐานเพื่อลดขนาดให้พอดีกับข้อมูลสัดส่วนที่เหมาะสม เช่นเดียวกับโครงสร้างข้อผิดพลาดของปัวซอง เราสามารถใช้สแควร์รูทของข้อมูลเพื่อทำให้ข้อผิดพลาดเป็นปกติหรือแก้ไขบรรทัดฐานของเราสำหรับการปรับ มีปัญหาที่ซับซ้อนกว่าหรือยากมากหากเราไม่สามารถเปลี่ยนบรรทัดฐานสำหรับการปรับตัวอย่างเช่นปัวซงนับสถิติจากการสลายตัวของนิวเคลียร์เมื่อการสลายกัมมันตภาพรังสีทำให้เกิดความสัมพันธ์เชิงเวลาขึ้นระหว่างข้อมูลการนับและมวลจริงที่จะมี การแพร่กระจายของสิ่งมีชีวิตเหล่านั้นไม่มีการเสื่อมสลาย ทำไม? หากเราสลายอัตราการนับที่ถูกต้องกลับไปเราจะไม่มีสถิติปัวซองและส่วนที่เหลือ (หรือข้อผิดพลาด) จากรากที่สองของการนับที่แก้ไขแล้วจะไม่มีระยะทางอีกต่อไป ถ้าหากเราต้องการทำการทดสอบข้อมูลที่ถูกต้องของการสลายตัว (เช่น AIC) เราจะต้องทำในลักษณะที่ไม่รู้จักตนเองที่ถ่อมตนของฉัน เปิดคำถามกับผู้อ่านหากเรายืนยันในการใช้ MLR เราสามารถเปลี่ยนบรรทัดฐานของมันเพื่อบัญชีสำหรับประเภทข้อผิดพลาดของข้อมูล (ที่ต้องการ) หรือเราจะต้องแปลงข้อมูลเพื่ออนุญาตให้ใช้ MLR (ไม่เป็นประโยชน์) หรือไม่? หมายเหตุ AIC ไม่ได้เปรียบเทียบวิธีการถดถอยสำหรับแบบจำลองเดียว แต่จะเปรียบเทียบแบบจำลองต่างๆสำหรับวิธีการถดถอยแบบเดียวกัน
สมมติฐาน AIC # 1 ก็ดูเหมือนว่า MLR ไม่ได้ จำกัด อยู่ที่เหลือปกติตัวอย่างเช่นดูคำถามเกี่ยวกับอัตราดอกเบี้ย MLR และ Student's-T ต่อไปให้เราสมมติว่า MLR เหมาะสมกับปัญหาของเราเพื่อให้เราติดตามการใช้งานเพื่อเปรียบเทียบค่า AIC ในทางทฤษฎี ต่อไปเราคิดว่ามี 1) ข้อมูลที่สมบูรณ์ 2) ชนิดเดียวกันของการกระจายของเศษ (เช่นปกติทั้ง Student's- ที ) อย่างน้อย 2 รุ่น นั่นคือเรามีอุบัติเหตุที่สองรุ่นควรมีประเภทการกระจายของสารตกค้าง เกิดขึ้นได้ไหม? ใช่อาจ แต่ไม่แน่นอนเสมอไป
สมมติฐาน AIC # 2 AIC เกี่ยวข้องกับลอการิทึมลบของปริมาณ (จำนวนพารามิเตอร์ในรูปแบบหารด้วย Kullback-Leibler divergence ) สมมติฐานนี้จำเป็นหรือไม่? ในฟังก์ชั่นการสูญเสียทั่วไปกระดาษจะใช้ "ความแตกต่าง" ที่แตกต่างกัน สิ่งนี้ทำให้เราถามว่ามาตรการอื่น ๆ นั้นกว้างกว่า KL divergence ทำไมเราถึงไม่ใช้มันสำหรับ AIC ด้วย?
ข้อมูลที่ไม่ตรงกันสำหรับ AIC จากKullback-Leibler divergenceคือ "แม้ว่า ... มักใช้วิธีวัดระยะห่างระหว่างการแจกแจงความน่าจะเป็น เราจะเห็นว่าทำไมในไม่ช้า
อาร์กิวเมนต์ KL มาถึงจุดที่ความแตกต่างระหว่างสองสิ่งที่แบบจำลอง (P) และ data (Q) คือ
DKL(P∥Q)=∫Xlog(dPdQ)dPdQdQ,
ซึ่งเรารับรู้ว่าเป็นเอนโทรปีของ '' P '' เทียบกับ '' Q ''
สมมติฐาน AIC # 3 สูตรส่วนใหญ่เกี่ยวข้องกับ Kullback – Leibler divergence โดยไม่คำนึงถึงฐานของลอการิทึม ตัวคูณคงที่อาจมีความหมายมากกว่านี้หาก AIC เกี่ยวข้องกับชุดข้อมูลมากกว่าหนึ่งชุดในเวลาเดียวกัน ขณะที่มันยืนเมื่อเปรียบเทียบกับวิธีการถ้าแล้วใดจำนวนบวกที่จะยังคงเป็น<เนื่องจากมันเป็นกฎเกณฑ์การตั้งค่าคงที่เป็นค่าเฉพาะเป็นเรื่องของคำนิยามจึงไม่เหมาะสมAICdata,model1<AICdata,model2<
สมมติฐาน AIC # 4 นั่นก็คือการที่ AIC ทำการวัดข้อมูลเอนโทรปีหรือข้อมูลตนเองของแชนนอน"สิ่งที่เราต้องรู้คือ" เอนโทรปีคือสิ่งที่เราต้องการสำหรับการวัดข้อมูลหรือไม่ "
เพื่อทำความเข้าใจว่า "ข้อมูลตัวเอง" คืออะไรมันทำให้เราต้องทำให้ข้อมูลเป็นมาตรฐานในบริบททางกายภาพใครก็ตามที่จะทำ ใช่ฉันต้องการการวัดข้อมูลเพื่อให้มีคุณสมบัติที่เป็นแบบฟิสิคัล ดังนั้นสิ่งที่จะดูเหมือนในบริบททั่วไปมากขึ้น?
สมการพลังงานกิ๊บส์ฟรี (ΔG=ΔH–TΔS) เกี่ยวข้องกับการเปลี่ยนแปลงพลังงานกับการเปลี่ยนแปลงในเอนทาลปีลบด้วยอุณหภูมิสัมบูรณ์เท่าการเปลี่ยนแปลงของเอนโทรปี อุณหภูมิเป็นตัวอย่างของเนื้อหาข้อมูลที่ได้รับการปรับมาตรฐานให้ประสบความสำเร็จเพราะหากมีการวางอิฐร้อนและเย็นหนึ่งก้อนในการสัมผัสซึ่งกันและกันในสภาพแวดล้อมที่ปิดด้วยความร้อนความร้อนจะไหลระหว่างกัน ทีนี้ถ้าเรากระโดดโดยไม่คิดหนักเกินไปเราจะบอกว่าความร้อนเป็นข้อมูล แต่มันคือข้อมูลเชิงสัมพัทธ์ที่ทำนายพฤติกรรมของระบบ ข้อมูลไหลจนกว่าจะถึงจุดสมดุล แต่ความสมดุลของอะไร อุณหภูมินั่นคือสิ่งที่ไม่ร้อนเหมือนในอนุภาคความเร็วของอนุภาคบางอย่างฉันไม่ได้พูดถึงอุณหภูมิโมเลกุลฉันกำลังพูดถึงอุณหภูมิรวมของสองก้อนซึ่งอาจมีมวลแตกต่างกันทำจากวัสดุต่าง ๆ มีความหนาแน่นต่างกันเป็นต้น และไม่มีสิ่งใดที่ฉันต้องรู้ทั้งหมดที่ฉันต้องรู้ก็คืออุณหภูมิรวมเป็นสิ่งที่ปรับสมดุล ดังนั้นหากอิฐหนึ่งก้อนร้อนจัดแสดงว่ามีเนื้อหาข้อมูลสัมพันธ์มากกว่าและเมื่อเย็นกว่า
ทีนี้ถ้าฉันบอกว่าอิฐก้อนหนึ่งมีเอนโทรปีมากกว่าอีกก้อนแล้วทำไมล่ะ? โดยตัวมันเองจะไม่ทำนายว่ามันจะได้รับหรือสูญเสียเอนโทรปีเมื่อสัมผัสกับอิฐก้อนอื่น ดังนั้นเอนโทรปีคือการวัดข้อมูลที่เป็นประโยชน์หรือไม่? ใช่ แต่ถ้าเรากำลังเปรียบเทียบอิฐก้อนเดียวกันกับตัวเองดังนั้นคำว่า "ข้อมูลตัวเอง"
จากข้อ จำกัด สุดท้ายที่มา: ในการใช้ KL divergence อิฐทั้งหมดจะต้องเหมือนกัน ดังนั้นสิ่งที่ทำให้ AIC เป็นดัชนีที่ผิดปกติคือมันไม่สามารถเคลื่อนย้ายได้ระหว่างชุดข้อมูล (เช่นก้อนอิฐที่แตกต่างกัน) ซึ่งไม่ใช่คุณสมบัติที่ต้องการโดยเฉพาะที่อาจได้รับการแก้ไขด้วยการทำให้เนื้อหาเป็นปกติ KL แตกต่างกันเป็นเส้นตรงหรือไม่ อาจจะใช่อาจจะไม่ อย่างไรก็ตามนั่นไม่สำคัญเราไม่จำเป็นต้องถือว่าเป็นเส้นตรงเพื่อใช้ AIC และตัวอย่างเช่นเอนโทรปีตัวเองฉันไม่คิดว่าเกี่ยวข้องกับอุณหภูมิ กล่าวอีกนัยหนึ่งเราไม่จำเป็นต้องใช้ตัวชี้วัดเชิงเส้นเพื่อใช้การคำนวณแบบเอนโทรปี
แหล่งข้อมูลที่ดีเกี่ยวกับ AIC อยู่ในวิทยานิพนธ์นี้ ในแง่ร้ายสิ่งนี้บอกว่า "ในตัวของมันเองค่าของ AIC สำหรับชุดข้อมูลที่กำหนดไม่มีความหมาย" ในแง่ดีสิ่งนี้กล่าวว่าโมเดลที่มีผลลัพธ์ใกล้เคียงสามารถสร้างความแตกต่างได้โดยการปรับให้เรียบเพื่อสร้างช่วงความมั่นใจและอื่น ๆ อีกมากมาย