สมมติว่าไม่มีอะไรพิเศษในกรณีของคุณฉันคิดว่ามีข้อโต้แย้งที่ดีสำหรับการใช้ค่าเริ่มต้น (Mean Square Error) หรือใช้ค่าเฉลี่ยของข้อผิดพลาดของบันทึกหรือแม้แต่ข้อผิดพลาดไคสแควร์
วัตถุประสงค์ของฟังก์ชั่นค่าใช้จ่ายคือเพื่อแสดงให้เห็นว่า "อารมณ์เสีย" คุณมีการคาดการณ์ที่ผิดโดยเฉพาะสิ่งที่ "ผิด" รบกวนคุณมากที่สุด สิ่งนี้มีความสำคัญอย่างยิ่งสำหรับการตอบกลับแบบไบนารี่
Mean Square Error (ของการตอบกลับ)
C=1n∑i(Yi−Y^i)2
การใช้ MSE นั้นคุณมีความไวต่อข้อผิดพลาดจากด้านบนและด้านล่างเท่ากันและมีความอ่อนไหวเท่า ๆ กันสำหรับการคาดการณ์ขนาดใหญ่และขนาดเล็ก นี่เป็นสิ่งมาตรฐานที่น่าทำและดังนั้นฉันไม่คิดว่าจะขมวดคิ้วในสถานการณ์ส่วนใหญ่
Mean Square Error (ของบันทึกการตอบกลับ)
C=1n∑i(lnYi−lnY^i)2
เนื่องจากคุณกำลังทำงานกับข้อมูลนับอาจเป็นที่ถกเถียงกันอยู่ว่าคุณไม่ได้เป็นแบบสมมาตรหรือขนาด การนับ 10 โดยการคาดการณ์ 10 นั้นแตกต่างจากการคาดคะเน 1,000 นี่เป็นฟังก์ชันต้นทุน "บัญญัติ" เนื่องจากคุณได้จับคู่ต้นทุนกับฟังก์ชันลิงก์ สิ่งนี้ทำให้มั่นใจได้ว่าค่าใช้จ่ายตรงกับการกระจายผลต่างที่สมมติในโมเดล
ข้อผิดพลาด Chi-Squared
C=1n∑i(Yi−Y^i)2Y^i
วิธีที่สามคือใช้ข้อผิดพลาด chi-squared สิ่งนี้อาจน่าสนใจเป็นพิเศษหากคุณกำลังเปรียบเทียบ GLM ของคุณกับรุ่นอื่น ๆ ที่ใช้การนับจำนวน - โดยเฉพาะอย่างยิ่งหากมีปัจจัยใน GLM ของคุณ เช่นเดียวกับการตอบสนองบันทึกข้อผิดพลาดสิ่งนี้จะปรับขนาดด้วยขนาด แต่ก็สมมาตรรอบจำนวนที่คาดการณ์ไว้ ตอนนี้คุณกำลังประเมินความดีที่เหมาะสมโดยพิจารณาจากความผิดพลาดเป็นเปอร์เซ็นต์
เมื่อวันที่ Discreteness
คำถามอ้างอิงตัวอย่างเอกสารที่พวกเขามีตัวแปรตอบสนองแบบไบนารีดังนั้นใช้ฟังก์ชั่นค่าใช้จ่ายที่แตกต่างกัน ปัญหาสำหรับการตอบกลับแบบไบนารีคือ GLM จะคาดการณ์จำนวนจริงระหว่าง 0 ถึง 1 แม้ว่าการตอบสนองจะเป็น 0 หรือ 1 เสมอมันใช้ได้อย่างสมบูรณ์ที่จะบอกว่ายิ่งหมายเลขนั้นใกล้กับการตอบสนองที่ถูกต้องมากเท่าไร การคาดการณ์ แต่บ่อยครั้งที่คนไม่ต้องการสิ่งนี้ เหตุผลที่คนมักจะต้องทำอย่างใดอย่างหนึ่งราวกับว่ามันเป็น 0 หรือ 1 และจะใช้อะไรน้อยกว่า 0.5 เป็นการคาดการณ์สำหรับ 0 ในกรณีนี้มันทำให้รู้สึกถึงการนับจำนวนของการคาดการณ์ที่ "ผิด" การโต้เถียงที่นี่คือสำหรับคำถามจริง / เท็จคุณสามารถถูกหรือผิด - ไม่มีการไล่ระดับของความผิด
ในกรณีของคุณคุณมีข้อมูลนับ ที่นี่เป็นเรื่องธรรมดามากที่จะยอมรับการคาดการณ์ที่ไม่ได้อยู่ในการสนับสนุนเดียวกับการตอบสนอง ตัวอย่างการคาดการณ์ของเด็ก 2.4 คนต่อครอบครัวหรือ 9.7 คนต่อปี โดยทั่วไปแล้วคนเราจะไม่พยายามทำอะไรเกี่ยวกับเรื่องนี้เพราะมันไม่เกี่ยวกับการ "ถูก" หรือ "ผิด" เพียงแค่ใกล้เคียงที่สุดเท่าที่จะทำได้ หากคุณต้องมีการทำนายว่าเป็นจำนวนเต็มอาจเป็นเพราะคุณมีอัตราการนับที่ต่ำมากดังนั้นจึงไม่มีเหตุผลที่คุณจะไม่สามารถปัดเศษการทำนายได้ก่อนและนับ "จำนวนเต็ม" หรือข้อผิดพลาด ในกรณีนี้การแสดงออกทั้งสามข้างต้นยังคงมีผลอยู่ แต่คุณต้องปัดเศษก่อนY^
cv.glmnet
ในแพ็คเกจglmnet
ใช้type.measure="deviance"
สำหรับตระกูลปัวซอง