โอกาสสูงสุดทำงานเมื่อใดและเมื่อใด


16

ฉันสับสนเกี่ยวกับวิธีความน่าจะเป็นสูงสุดเมื่อเปรียบเทียบกับการคำนวณค่าเฉลี่ยเลขคณิต

โอกาสสูงสุดเกิดขึ้นเมื่อใดและเพราะเหตุใดประมาณการ "ดีกว่า" มากกว่าเช่นเลขคณิตหมายความว่าอย่างไร วิธีนี้พิสูจน์ได้


4
+1 นี่เป็นคำถามที่ดีในการถามขั้นตอนทางสถิติใด ๆ
whuber

3
ฉันไม่คิดว่าคำถามนี้ไม่ชัดเจนเกินไป แน่นอนว่า OP ไม่มีความชัดเจน แต่นั่นเป็นสาเหตุที่พวกเขาถาม ปัญหาเกี่ยวกับธรรมชาติของ MLE & วิธีการทางคณิตศาสตร์ควรจะถูกล้างออกด้วยคำตอบที่ดี
gung - Reinstate Monica

3
คุณหมายถึงอะไร "ดีกว่า"? และทำไมเลขคณิตหมายถึงเป็นตัวประมาณที่ดีของพารามิเตอร์ที่กำหนดเอง?
ซีอาน

4
ไม่สามารถตอบคำถามได้โดยไม่ต้องตั้งคำจำกัดความของ "ดีกว่า" ก่อนเช่นฟังก์ชันการสูญเสียหรือเกณฑ์อื่นที่อนุญาตให้เปรียบเทียบตัวประมาณ ตัวอย่างเช่น MLE นั้นมีประสิทธิภาพซึ่งหมายความว่าไม่มีตัวประมาณที่มีความแปรปรวนเชิงซีกโลกที่เล็กกว่า (ภายใต้เงื่อนไขปกติบางอย่าง) และตัวอย่างเช่น MLE อาจไม่สามารถยอมรับได้ตามที่แสดงโดยสไตน์เอฟเฟ็กต์ซึ่งหมายความว่ามีตัวประมาณค่าที่มีความเสี่ยงกำลังสองที่เล็กกว่าสำหรับค่าทั้งหมดของพารามิเตอร์ภายใต้ข้อ จำกัด บางประการเกี่ยวกับการกระจายตัวอย่างและมิติของพารามิเตอร์
ซีอาน

2
@ ซีอานนั่นฟังดูเหมือนพื้นฐานของคำตอบ
whuber

คำตอบ:


10

ในขณะที่ค่าเฉลี่ยเลขคณิตอาจฟังดูเป็นตัวประมาณ "ธรรมชาติ" ใคร ๆ ก็ถามว่าทำไมมันถึงเป็นที่ต้องการของ MLE! เพียงให้แน่ใจว่าสถานที่ให้บริการที่เกี่ยวข้องกับค่าเฉลี่ยคือว่ามันเป็นประมาณการที่เป็นกลางจากเมื่อความคาดหวังนี้จะกำหนด (ลองนึกถึงการแจกแจงโคชีเป็นตัวอย่างแบบเคาน์เตอร์) ในเวลาต่อมามีคุณสมบัติที่หลากหลายภายใต้เงื่อนไขความสม่ำเสมอในฟังก์ชั่นความน่าจะเป็น หากต้องการยืมจากหน้าวิกิพีเดีย MLE คือx¯E[X]

  1. คงเส้นคงวา
  2. asymptotically ปกติ
  3. มีประสิทธิภาพในการที่จะบรรลุความแปรปรวน asymptotic ขั้นต่ำ
  4. ค่าคงที่ภายใต้การเปลี่ยนรูปไบโอทีฟ
  5. ภายในชุดพารามิเตอร์แม้สำหรับชุดพารามิเตอร์ที่ จำกัด

เมื่อเปรียบเทียบกับค่าเฉลี่ยเลขคณิตคุณสมบัติเหล่านั้นส่วนใหญ่ก็พอใจสำหรับการแจกแจงที่พอเพียง ยกเว้น 4 และ 5 ในกรณีของตระกูล exponential ค่า MLE และเลขคณิตเฉลี่ยจะเหมือนกันสำหรับการประมาณค่าพารามิเตอร์ในการกำหนดค่าพารามิเตอร์เฉลี่ย (แต่ไม่ใช่สำหรับพารามิเตอร์อื่น ๆ ) และ MLE นั้นมีอยู่สำหรับตัวอย่างจากการแจกแจงโคชี

อย่างไรก็ตามเมื่อเปลี่ยนไปใช้คุณสมบัติการเพิ่มประสิทธิภาพตัวอย่างที่ จำกัด เช่นการย่อหรือการยอมรับก็อาจเกิดขึ้นได้ที่ MLE ไม่ใช่การย่อและย่อที่ยอมรับได้ ตัวอย่างเช่นผลกระทบ Steinแสดงว่ามีตัวประมาณที่มีความเสี่ยงกำลังสองน้อยกว่าสำหรับค่าทั้งหมดของพารามิเตอร์ภายใต้ข้อ จำกัด บางประการเกี่ยวกับการกระจายตัวอย่างและมิติของพารามิเตอร์ นี่คือกรณีที่เมื่อและ3x~ยังไม่มีข้อความพี(θ,ผมพี)พี3


เพียงชี้แจงให้ชัดเจนเกี่ยวกับ mle - คุณสมบัติ 5 รายการที่แสดงอยู่ในบริบทของตัวแบบที่สันนิษฐานสำหรับประชากร
ความน่าจะเป็นทาง

@CagdasOzgenc: ใช่การปกครองนั้นไม่มีนัยสำคัญทาง asymptotically แต่ถือสำหรับทั้งหมด.. ! อย่างไรก็ตามช่วงของตัวประมาณค่าสูงสุดของเจมส์ - สไตน์ย่อตัวด้วยเนื่องจากค่าคงที่การหดตัวอยู่ระหว่างถึงโดยที่คือมิติและความแปรปรวนขององค์ประกอบการสังเกตหนึ่ง แม้ว่าฉันจะไม่เคยได้ยินเรื่องอาการขาดสติน้อยเลย nsn02(p2)σ2/npσ2
ซีอาน

2

ลองตีความ "คำนวณค่าเฉลี่ยเลขคณิต" เป็นการประมาณโดยใช้วิธีการของช่วงเวลา (MoM) ฉันเชื่อว่าเป็นคำถามเดิมที่เชื่อถือได้เนื่องจากวิธีการที่ใช้แทนค่าเฉลี่ยตัวอย่างสำหรับทฤษฎี นอกจากนี้ยังแก้ไขข้อกังวลของ @ Xi'an เกี่ยวกับพารามิเตอร์ที่กำหนดเอง (จากโมเดลที่กำหนดเอง)

หากคุณยังอยู่กับฉันฉันก็คิดว่าที่ที่ดีสำหรับการไปคือตัวอย่างที่วิธีการของช่วงเวลาสามารถเอาชนะความน่าจะเป็นสูงสุดในกลุ่มตัวอย่างขนาดเล็ก? ข้อความคำถามชี้ให้เห็นว่า "ตัวประมาณความน่าจะเป็นสูงสุด (MLE) นั้นมีประสิทธิภาพเชิง asymptotically; เราเห็นผลที่เกิดขึ้นจริงซึ่งพวกเขามักจะทำได้ดีกว่าวิธีการประมาณช่วงเวลา (MoM) (เมื่อพวกเขาแตกต่างกัน)" และค้นหากรณีเฉพาะ บรรลุข้อผิดพลาดกำลังสองเฉลี่ยที่น้อยกว่า MLE คู่กัน ตัวอย่างบางส่วนที่ให้ไว้ในบริบทของการถดถอยเชิงเส้นการแจกแจงอินเวอร์สแบบเกาส์สองพารามิเตอร์และการแจกแจงกำลังไฟฟ้าไม่เท่ากันแบบอสมมาตร

แนวคิดเรื่อง "ประสิทธิภาพเชิงชีวประวัติ" นี้หมายความว่าตัวประมาณความน่าจะเป็นสูงสุดนั้นน่าจะใกล้เคียงกับการใช้ข้อมูลอย่างเต็มศักยภาพ (เพื่อประเมินพารามิเตอร์ที่เป็นปัญหา) ซึ่งเป็นการรับประกันว่าคุณจะไม่ได้รับวิธีทั่วไป ในขณะที่ความเป็นไปได้สูงสุดไม่ได้ "ดีกว่า" เสมอไปกว่าการทำงานกับค่าเฉลี่ยคุณสมบัติประสิทธิภาพนี้ (ถ้ามีในขีด จำกัด เท่านั้น) ทำให้เป็นวิธีการไปสู่ผู้ใช้บ่อยที่สุด แน่นอนว่าผู้คัดค้านอาจโต้แย้งว่าด้วยชุดข้อมูลที่เพิ่มขึ้นหากคุณชี้ไปที่เป้าหมายที่ถูกต้องด้วยฟังก์ชันเฉลี่ยให้ไปด้วย


1

มีตัวอย่างที่มีชื่อเสียงหลายประการที่ความน่าจะเป็นสูงสุด (ML) ไม่ได้ให้ทางออกที่ดีที่สุด ดูบทความในปี 1990 ของ Lucien Le Cam: "โอกาสสูงสุด: บทนำ" [1]ซึ่งมาจากการบรรยายที่เชิญของเขาที่ Univ ของรัฐแมรี่แลนด์

ตัวอย่างที่ฉันชอบมากที่สุดเพราะตรงไปตรงมาก็คือ:

XjYjj=1,...,nXjN(μj,σ2)YjN(μj,σ2)jXjYjjσ2

ฉันจะไม่ทำลายความสนุกโดยให้คำตอบกับคุณ แต่ (ไม่แปลกใจ) มีสองวิธีในการแก้ปัญหานี้โดยใช้ ML และพวกเขาให้วิธีแก้ปัญหาที่แตกต่างกัน หนึ่งคือ "ค่าเฉลี่ยเลขคณิต" ของส่วนที่เหลือกำลังสอง (ตามที่คาดหวัง) และอีกครึ่งหนึ่งคือค่าเฉลี่ยเลขคณิต คุณสามารถหาคำตอบได้ที่นี่ในหน้า Github ของฉัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.