ฉันสับสนเกี่ยวกับวิธีความน่าจะเป็นสูงสุดเมื่อเปรียบเทียบกับการคำนวณค่าเฉลี่ยเลขคณิต
โอกาสสูงสุดเกิดขึ้นเมื่อใดและเพราะเหตุใดประมาณการ "ดีกว่า" มากกว่าเช่นเลขคณิตหมายความว่าอย่างไร วิธีนี้พิสูจน์ได้
ฉันสับสนเกี่ยวกับวิธีความน่าจะเป็นสูงสุดเมื่อเปรียบเทียบกับการคำนวณค่าเฉลี่ยเลขคณิต
โอกาสสูงสุดเกิดขึ้นเมื่อใดและเพราะเหตุใดประมาณการ "ดีกว่า" มากกว่าเช่นเลขคณิตหมายความว่าอย่างไร วิธีนี้พิสูจน์ได้
คำตอบ:
ในขณะที่ค่าเฉลี่ยเลขคณิตอาจฟังดูเป็นตัวประมาณ "ธรรมชาติ" ใคร ๆ ก็ถามว่าทำไมมันถึงเป็นที่ต้องการของ MLE! เพียงให้แน่ใจว่าสถานที่ให้บริการที่เกี่ยวข้องกับค่าเฉลี่ยคือว่ามันเป็นประมาณการที่เป็นกลางจากเมื่อความคาดหวังนี้จะกำหนด (ลองนึกถึงการแจกแจงโคชีเป็นตัวอย่างแบบเคาน์เตอร์) ในเวลาต่อมามีคุณสมบัติที่หลากหลายภายใต้เงื่อนไขความสม่ำเสมอในฟังก์ชั่นความน่าจะเป็น หากต้องการยืมจากหน้าวิกิพีเดีย MLE คือ
เมื่อเปรียบเทียบกับค่าเฉลี่ยเลขคณิตคุณสมบัติเหล่านั้นส่วนใหญ่ก็พอใจสำหรับการแจกแจงที่พอเพียง ยกเว้น 4 และ 5 ในกรณีของตระกูล exponential ค่า MLE และเลขคณิตเฉลี่ยจะเหมือนกันสำหรับการประมาณค่าพารามิเตอร์ในการกำหนดค่าพารามิเตอร์เฉลี่ย (แต่ไม่ใช่สำหรับพารามิเตอร์อื่น ๆ ) และ MLE นั้นมีอยู่สำหรับตัวอย่างจากการแจกแจงโคชี
อย่างไรก็ตามเมื่อเปลี่ยนไปใช้คุณสมบัติการเพิ่มประสิทธิภาพตัวอย่างที่ จำกัด เช่นการย่อหรือการยอมรับก็อาจเกิดขึ้นได้ที่ MLE ไม่ใช่การย่อและย่อที่ยอมรับได้ ตัวอย่างเช่นผลกระทบ Steinแสดงว่ามีตัวประมาณที่มีความเสี่ยงกำลังสองน้อยกว่าสำหรับค่าทั้งหมดของพารามิเตอร์ภายใต้ข้อ จำกัด บางประการเกี่ยวกับการกระจายตัวอย่างและมิติของพารามิเตอร์ นี่คือกรณีที่เมื่อและ3
ลองตีความ "คำนวณค่าเฉลี่ยเลขคณิต" เป็นการประมาณโดยใช้วิธีการของช่วงเวลา (MoM) ฉันเชื่อว่าเป็นคำถามเดิมที่เชื่อถือได้เนื่องจากวิธีการที่ใช้แทนค่าเฉลี่ยตัวอย่างสำหรับทฤษฎี นอกจากนี้ยังแก้ไขข้อกังวลของ @ Xi'an เกี่ยวกับพารามิเตอร์ที่กำหนดเอง (จากโมเดลที่กำหนดเอง)
หากคุณยังอยู่กับฉันฉันก็คิดว่าที่ที่ดีสำหรับการไปคือตัวอย่างที่วิธีการของช่วงเวลาสามารถเอาชนะความน่าจะเป็นสูงสุดในกลุ่มตัวอย่างขนาดเล็ก? ข้อความคำถามชี้ให้เห็นว่า "ตัวประมาณความน่าจะเป็นสูงสุด (MLE) นั้นมีประสิทธิภาพเชิง asymptotically; เราเห็นผลที่เกิดขึ้นจริงซึ่งพวกเขามักจะทำได้ดีกว่าวิธีการประมาณช่วงเวลา (MoM) (เมื่อพวกเขาแตกต่างกัน)" และค้นหากรณีเฉพาะ บรรลุข้อผิดพลาดกำลังสองเฉลี่ยที่น้อยกว่า MLE คู่กัน ตัวอย่างบางส่วนที่ให้ไว้ในบริบทของการถดถอยเชิงเส้นการแจกแจงอินเวอร์สแบบเกาส์สองพารามิเตอร์และการแจกแจงกำลังไฟฟ้าไม่เท่ากันแบบอสมมาตร
แนวคิดเรื่อง "ประสิทธิภาพเชิงชีวประวัติ" นี้หมายความว่าตัวประมาณความน่าจะเป็นสูงสุดนั้นน่าจะใกล้เคียงกับการใช้ข้อมูลอย่างเต็มศักยภาพ (เพื่อประเมินพารามิเตอร์ที่เป็นปัญหา) ซึ่งเป็นการรับประกันว่าคุณจะไม่ได้รับวิธีทั่วไป ในขณะที่ความเป็นไปได้สูงสุดไม่ได้ "ดีกว่า" เสมอไปกว่าการทำงานกับค่าเฉลี่ยคุณสมบัติประสิทธิภาพนี้ (ถ้ามีในขีด จำกัด เท่านั้น) ทำให้เป็นวิธีการไปสู่ผู้ใช้บ่อยที่สุด แน่นอนว่าผู้คัดค้านอาจโต้แย้งว่าด้วยชุดข้อมูลที่เพิ่มขึ้นหากคุณชี้ไปที่เป้าหมายที่ถูกต้องด้วยฟังก์ชันเฉลี่ยให้ไปด้วย
มีตัวอย่างที่มีชื่อเสียงหลายประการที่ความน่าจะเป็นสูงสุด (ML) ไม่ได้ให้ทางออกที่ดีที่สุด ดูบทความในปี 1990 ของ Lucien Le Cam: "โอกาสสูงสุด: บทนำ" [1]ซึ่งมาจากการบรรยายที่เชิญของเขาที่ Univ ของรัฐแมรี่แลนด์
ตัวอย่างที่ฉันชอบมากที่สุดเพราะตรงไปตรงมาก็คือ:
ฉันจะไม่ทำลายความสนุกโดยให้คำตอบกับคุณ แต่ (ไม่แปลกใจ) มีสองวิธีในการแก้ปัญหานี้โดยใช้ ML และพวกเขาให้วิธีแก้ปัญหาที่แตกต่างกัน หนึ่งคือ "ค่าเฉลี่ยเลขคณิต" ของส่วนที่เหลือกำลังสอง (ตามที่คาดหวัง) และอีกครึ่งหนึ่งคือค่าเฉลี่ยเลขคณิต คุณสามารถหาคำตอบได้ที่นี่ในหน้า Github ของฉัน