การประมาณความน่าจะเป็นสูงสุด - ทำไมจึงถูกใช้แม้ว่าจะมีอคติในหลาย ๆ กรณี


25

การประมาณความเป็นไปได้สูงสุดมักส่งผลให้ตัวประมาณแบบเอนเอียง (เช่นการประมาณค่าความแปรปรวนตัวอย่างนั้นมีความลำเอียงสำหรับการแจกแจงแบบเกาส์)

อะไรทำให้เป็นที่นิยมมาก ทำไมมันถูกใช้อย่างมาก? นอกจากนี้สิ่งใดที่ทำให้ดีกว่าวิธีอื่น - วิธีการของช่วงเวลา

นอกจากนี้ฉันสังเกตเห็นว่าสำหรับเกาส์เซียนตัวประมาณค่า MLE ที่เรียบง่ายทำให้มันไม่เอนเอียง เหตุใดการปรับขนาดนี้จึงไม่ใช่ขั้นตอนมาตรฐาน ฉันหมายถึง - เพราะเหตุใดหลังจากการคำนวณ MLE จึงไม่ใช่กิจวัตรในการค้นหามาตราส่วนที่จำเป็นเพื่อทำให้ตัวประมาณมีความเป็นกลาง การปฏิบัติมาตรฐานดูเหมือนจะเป็นการคำนวณธรรมดาของการประมาณค่า MLE ยกเว้นแน่นอนสำหรับกรณี Gaussian ที่รู้จักกันดีซึ่งเป็นที่รู้จักกันดีว่าปัจจัยการปรับสเกล


11
มีทางเลือกมากมายสำหรับ ML ไม่ใช่เพียงแค่วิธีการของช่วงเวลาเท่านั้น แต่ยังมีแนวโน้มที่จะสร้างตัวประมาณแบบเอนเอียง สิ่งที่คุณอาจต้องการถามแทนคือ "ทำไมทุกคนต้องการใช้ตัวประมาณที่ไม่เอนเอียง?" วิธีที่ดีที่จะเริ่มต้นการวิจัยปัญหานี้คือการค้นหาบนอคติแปรปรวนถ่วงดุลอำนาจ
whuber

7
ตามที่ whuber ชี้ให้เห็นไม่มีความเหนือกว่าที่แท้จริงในการเป็นกลาง
ซีอาน

4
ฉันคิดว่า @whuber หมายถึง "ทำไมทุกคนต้องการใช้เครื่องมือประเมินแบบเอนเอียง " ไม่ต้องใช้ความพยายามมากนักในการโน้มน้าวใครบางคนว่าตัวประมาณค่าที่เป็นกลางอาจเป็นเหตุผลที่สมเหตุสมผล
หน้าผา AB

5
ดูen.wikipedia.org/wiki/…สำหรับตัวอย่างที่ตัวประมาณค่าที่เป็นกลางเท่านั้นไม่ใช่อย่างที่คุณต้องการใช้
Scortchi - Reinstate Monica

4
@Cliff ฉันตั้งใจจะถามคำถามในรูปแบบที่เร้าใจมากขึ้นและอาจลึกลับมากขึ้น ที่ซ่อนอยู่ข้างหลังนี้เป็นความคิดที่ว่ามีหลายวิธีในการประเมินคุณภาพของตัวประมาณและหลายคนไม่มีความลำเอียง จากมุมมองนั้นเป็นเรื่องธรรมดาที่สุดที่จะถามว่าทำไมใครบางคนถึงเสนอตัวประมาณค่าที่เป็นกลาง ดูคำตอบของ glen_b เพิ่มเติมจากมุมมองนี้
whuber

คำตอบ:


18

ความเป็นกลางไม่จำเป็นต้องมีความสำคัญเป็นพิเศษ

นอกเหนือจากสถานการณ์ที่ จำกัด มากนักประมาณค่าที่มีประโยชน์ส่วนใหญ่ยังลำเอียง

หากทั้งสองประมาณมีความแปรปรวนเดียวกันหนึ่งได้อย่างง่ายดายสามารถติดอาร์กิวเมนต์สำหรับเลือกหนึ่งที่เป็นกลางจะลำเอียงหนึ่ง แต่นั่นคือสถานการณ์ที่ผิดปกติจะอยู่ใน (นั่นคือคุณพอสมควรอาจจะชอบ unbiasedness, ceteris paribus - แต่ที่น่ารำคาญceterisแทบจะไม่เคยparibus )

โดยทั่วไปหากคุณต้องการความเป็นกลางคุณจะต้องเพิ่มความแปรปรวนบางอย่างเพื่อให้ได้มาจากนั้นคำถามก็คือทำไมคุณถึงทำเช่นนั้น ?

อคติคือวิธีไกลคาดว่ามูลค่าของประมาณการของเราจะสูงเกินไปโดยเฉลี่ย (มีอคติเชิงลบบ่งชี้ต่ำเกินไป)

เมื่อฉันกำลังพิจารณาตัวประมาณตัวอย่างขนาดเล็กฉันไม่สนใจเลย ฉันมักจะสนใจว่าตัวประมาณของฉันจะผิดไปมากแค่ไหนในระยะนี้ - ระยะทางโดยทั่วไปจากด้านขวา ... บางอย่างเช่นข้อผิดพลาดรูต - เฉลี่ย - สแควร์หรือข้อผิดพลาดสัมบูรณ์เฉลี่ยจะสมเหตุสมผลมากกว่า

ดังนั้นถ้าคุณชอบความแปรปรวนต่ำและอคติต่ำการขอพูดตัวประมาณค่าคลาดเคลื่อนกำลังสองเฉลี่ยต่ำสุดจะสมเหตุสมผล เหล่านี้ไม่ค่อยเป็นกลาง

ความเอนเอียงและความเอนเอียงเป็นแนวคิดที่มีประโยชน์ที่ต้องระวัง แต่ก็ไม่ใช่คุณสมบัติที่มีประโยชน์โดยเฉพาะอย่างยิ่งในการค้นหานอกเสียจากคุณจะเปรียบเทียบตัวประมาณกับความแปรปรวนเดียวกันเท่านั้น

ตัวประมาณค่า ML มักจะแปรปรวนต่ำ พวกเขามักจะไม่ MSE ขั้นต่ำ แต่พวกเขามักจะมี MSE ต่ำกว่าการปรับเปลี่ยนให้เป็นแบบไม่ลำเอียง (เมื่อคุณสามารถทำได้เลย) จะให้คุณ

σ^MMSE2=S2n+1,σ^MLE2=S2n,σ^Unb2=S2n1n1


1
+1 มีสัญชาตญาณสำหรับ (หรือบางทฤษฎีที่อยู่เบื้องหลัง) ย่อหน้าที่สองของคุณก่อนย่อหน้าสุดท้ายหรือไม่? ทำไมตัวประมาณค่า ML จึงมีความแปรปรวนต่ำ ทำไมพวกเขาถึงมี MSE ต่ำกว่าตัวประมาณที่ไม่เอนเอียง? นอกจากนี้ฉันยังประหลาดใจที่เห็นการแสดงออกของ MMSE ประมาณค่าความแปรปรวน อย่างใดฉันไม่เคยพบมาก่อน ทำไมมันจึงไม่ค่อยถูกใช้? และมันเกี่ยวข้องกับการหดตัวหรือไม่? ดูเหมือนว่ามันจะ "หด" จากความเอนเอียงไปทางศูนย์ แต่ฉันสับสนเพราะฉันเคยคิดถึงการหดตัวในบริบทหลายตัวแปร (ตามแนวของเจมส์ - สไตน์)
อะมีบาพูดว่า Reinstate Monica

1
@amoeba MLE เป็นฟังก์ชันของสถิติที่เพียงพอและอย่างน้อยไม่แปรปรวน asymptotically ไม่เอนเอียงดังนั้นคุณคาดหวังว่าพวกเขาจะมีความแปรปรวนต่ำในกลุ่มตัวอย่างขนาดใหญ่ สิ่งนี้มักสะท้อนให้เห็นในตัวอย่างขนาดเล็กประมาณ MMSE จะหดตัวโดยทั่วไปที่มีต่อศูนย์เพราะที่ช่วยลดความแปรปรวน (และด้วยเหตุนี้จำนวนเล็ก ๆ ของอคติต่อ 0 นำโดยการหดตัวขนาดเล็กโดยทั่วไปแล้วจะลด MSE)
Glen_b

σ^MMSE2=S2n+1

นอกจากนี้นั่นหมายความว่าตัวประมาณค่า ML ของความแปรปรวนไม่ใช่ตัวประมาณค่าความแปรปรวนขั้นต่ำใช่หรือไม่ มิฉะนั้นตัวประมาณ MSE ขั้นต่ำจะเป็นค่าเฉลี่ยถ่วงน้ำหนักบางส่วน (ที่มีน้ำหนักเป็นบวก) ของ MLE และตัวประมาณที่ไม่เอนเอียง แต่ตอนนี้อยู่นอกช่วงนั้น ฉันสามารถถามคำถามนี้เป็นคำถามแยกต่างหากถ้าคุณคิดว่ามันสมเหตุสมผล
Richard Hardy

1
พบบทความทั้งหมดในWikipedia บน MSEฉันเดาว่าจะอธิบายทั้งหมด
Richard Hardy

16

MLE ให้ค่าพารามิเตอร์ที่น่าจะเป็นไปได้มากที่สุดจากโมเดลและข้อมูลในมือซึ่งเป็นแนวคิดที่น่าสนใจ ทำไมคุณถึงเลือกค่าพารามิเตอร์ที่ทำให้ข้อมูลมีความน่าจะเป็นน้อยลงเมื่อคุณสามารถเลือกค่าที่ทำให้ข้อมูลที่สังเกตได้มีโอกาสมากที่สุดในชุดของค่าใด ๆ คุณต้องการที่จะเสียสละคุณลักษณะนี้เพื่อความเป็นกลางหรือไม่? ฉันไม่ได้บอกว่าคำตอบนั้นชัดเจนเสมอ แต่แรงจูงใจของ MLE นั้นแข็งแกร่งและใช้งานง่าย

นอกจากนี้ MLE ยังสามารถใช้งานได้อย่างกว้างขวางกว่าวิธีการของช่วงเวลาเท่าที่ฉันรู้ MLE ดูเป็นธรรมชาติมากขึ้นในกรณีของตัวแปรแฝง ตัวอย่างแบบจำลองค่าเฉลี่ยเคลื่อนที่ (MA) หรือแบบจำลองอัตโนมัตติเงื่อนไขแบบ heteroskedasticity (GARCH) แบบทั่วไปสามารถประมาณได้โดยตรงจาก MLE (โดยโดยตรงฉันหมายความว่ามันเพียงพอที่จะระบุฟังก์ชั่นโอกาสและส่งไปยังรูทีนการเพิ่มประสิทธิภาพ) - แต่ ไม่ใช่โดยวิธีการของช่วงเวลา (แม้ว่าจะมีวิธีแก้ปัญหาทางอ้อมที่ใช้วิธีการของช่วงเวลา)


4
+1 แน่นอนว่ายังมีอีกหลายกรณีที่คุณไม่ต้องการประมาณการที่เป็นไปได้มากที่สุดเช่นแบบจำลองการผสมแบบเกาส์เซียน (เช่นโอกาสที่ไม่ได้ จำกัด ) โดยทั่วไปแล้วคำตอบที่ดีในการช่วยปรีชาญาณของ MLE
หน้าผา AB

3
(+1) แต่ฉันคิดว่าคุณจำเป็นต้องเพิ่มคำจำกัดความของค่าพารามิเตอร์ "น่าจะ" ที่สุดตามที่กำหนดซึ่งข้อมูลน่าจะเป็นที่ชัดเจนที่สุด คุณสมบัติอื่น ๆ ที่น่าพอใจอย่างสังหรณ์ใจของประมาณการที่ไม่เกี่ยวข้องกับพฤติกรรมในระยะยาวภายใต้การสุ่มตัวอย่างซ้ำอาจรวมถึงไม่ได้ขึ้นอยู่กับวิธีการที่คุณ parametrize รูปแบบและไม่ได้ผลิตเป็นไปไม่ได้ประมาณการค่าพารามิเตอร์ที่แท้จริง
Scortchi - Reinstate Monica

6
คิดว่ายังคงมีความเสี่ยงที่จะ "อ่าน" น่าจะเป็น "น่าจะเป็นไปได้มากที่สุด"
Scortchi - Reinstate Monica


2
@dsaxton: นักสถิติได้แยกความน่าจะเป็นของค่าพารามิเตอร์ที่ให้ข้อมูลจากความน่าจะเป็นของข้อมูลที่ได้รับค่าพารามิเตอร์มาเกือบศตวรรษ - ดูFisher (1921) "ใน 'ข้อผิดพลาดน่าจะเป็นของสหสัมพันธ์", Metron , 1 , pp 3-32 & Pawitan (2013), ในทุกโอกาส: การสร้างแบบจำลองทางสถิติและการอนุมานโดยใช้ความน่าจะเป็น - ดังนั้นแม้ว่าคำศัพท์จะมีความหมายเหมือนกันในการใช้งานทั่วไป
Scortchi - Reinstate Monica

12

ที่จริงแล้วการประมาณค่าความน่าจะเป็นสูงสุดเพื่อให้ได้ค่าประมาณที่ไม่เอนเอียงเป็นกระบวนการมาตรฐานในปัญหาการประมาณค่าจำนวนมาก เหตุผลก็คือว่า mle เป็นฟังก์ชั่นของสถิติที่เพียงพอและจากทฤษฎีบท Rao-Blackwellหากคุณสามารถหาตัวประมาณที่ไม่เอนเอียงตามสถิติที่เพียงพอคุณก็จะมีค่าความแปรปรวนขั้นต่ำที่ไม่เอนเอียง

ฉันรู้ว่าคำถามของคุณเป็นเรื่องทั่วไปมากกว่านั้น แต่สิ่งที่ฉันหมายถึงการเน้นคือแนวคิดหลักที่เกี่ยวข้องอย่างใกล้ชิดกับโอกาสและการประมาณการตาม การประมาณการเหล่านี้อาจไม่เป็นกลางในกลุ่มตัวอย่าง จำกัด แต่พวกเขาก็มีความเชิงเส้นกำกับและยิ่งกว่านั้นพวกเขาก็มีประสิทธิภาพเชิงเส้นกำกับนั่นคือพวกเขาได้รับ Cramer-Rao ซึ่งเป็นขอบเขตของความแปรปรวนสำหรับตัวประมาณแบบเอนเอียงซึ่งอาจไม่ใช่กรณีของ


11

ในการตอบคำถามของคุณว่าเหตุใด MLE จึงได้รับความนิยมให้พิจารณาว่าถึงแม้ว่ามันจะสามารถลำเอียง แต่ก็มีความสอดคล้องภายใต้เงื่อนไขมาตรฐาน นอกจากนี้มันยังมีประสิทธิภาพแบบ asymptotically ดังนั้นอย่างน้อยสำหรับกลุ่มตัวอย่างขนาดใหญ่ MLE มีแนวโน้มที่จะทำดีหรือดีกว่าตัวประมาณอื่น ๆ ที่คุณอาจปรุง ในที่สุด MLE ก็ถูกค้นพบด้วยสูตรง่ายๆ ใช้ฟังก์ชั่นโอกาสและเพิ่มประสิทธิภาพ ในบางกรณีสูตรนั้นอาจจะยากที่จะติดตาม แต่สำหรับปัญหาส่วนใหญ่ก็ไม่เป็นเช่นนั้น นอกจากนี้เมื่อคุณมีการประมาณนี้เราสามารถรับข้อผิดพลาดมาตรฐานแบบอะซิมโทติคได้ทันทีโดยใช้ข้อมูลของฟิชเชอร์ โดยไม่ต้องใช้ข้อมูลที่ฟิชเชอร์ก็มักจะเป็นจริงยากที่จะได้มาซึ่งขอบเขตข้อผิดพลาด

นี่คือเหตุผลที่การประเมิน MLE นั้นบ่อยครั้งมากไปที่ตัวประมาณ (เว้นแต่คุณจะเป็นแบบเบย์) มันง่ายที่จะใช้งานและมีแนวโน้มที่จะดีเหมือนกันถ้าไม่ดีไปกว่าสิ่งอื่นที่คุณต้องทำงานเพิ่มเติมเพื่อทำอาหาร


1
คุณช่วยอธิบายรายละเอียดเกี่ยวกับวิธีการเปรียบเทียบกับช่วงเวลาได้อย่างไรเนื่องจากนี่เป็นส่วนสำคัญของ OP
Antoni Parellada

1
ตัวชี้วัด MOM ก็มีอคติเช่นกันโดยชี้ให้เห็นว่ามีความเอนเอียงดังนั้นจึงไม่มีข้อได้เปรียบที่ "ไม่เอนเอียง" สำหรับตัวประมาณค่า MOM นอกจากนี้เมื่อตัวประมาณ MOM และ MLE ไม่เห็นด้วย MLE ก็มีแนวโน้มที่จะมี MSE ต่ำกว่า แต่คำตอบนี้เป็นจริงเกี่ยวกับสาเหตุที่ MLE มีแนวโน้มที่จะเป็นค่าเริ่มต้นแทนที่จะเปรียบเทียบโดยตรงกับวิธีอื่น ๆ
หน้าผา AB

2
@AntoniParellada มีหัวข้อที่น่าสนใจในการเปรียบเทียบ MLE และ MoM, stats.stackexchange.com/q/80380/28746
Alecos Papadopoulos

3

ฉันจะเพิ่มบางครั้ง (บ่อยครั้ง) เราใช้ตัวประมาณ MLE เพราะนั่นคือสิ่งที่เราได้รับแม้ว่าในโลกอุดมคติมันจะไม่เป็นอย่างที่เราต้องการ (ฉันมักจะคิดว่าสถิติเป็นเหมือนวิศวกรรมที่เราใช้สิ่งที่เราได้รับไม่ใช่สิ่งที่เราต้องการ) ในหลาย ๆ กรณีมันง่ายต่อการกำหนดและแก้ปัญหาสำหรับ MLE แล้วรับค่าโดยใช้วิธีการวนซ้ำ ในขณะที่พารามิเตอร์ที่กำหนดในสถานการณ์ที่กำหนดอาจมีตัวประมาณที่ดีกว่า (สำหรับบางค่าของ "ดีกว่า") แต่การค้นหามันอาจต้องใช้ความฉลาดมาก และเมื่อคุณทำตัวฉลาดคุณยังมีตัวประมาณที่ดีกว่าสำหรับปัญหานั้น


1
จากตัวอย่างที่อยากรู้อยากเห็นคุณต้องการอะไร (ในโลกอุดมคติ)
Glen_b -Reinstate Monica

2
@Glen_b: Dunno ไม่เอนเอียงความแปรปรวนต่ำสุดง่ายต่อการคำนวณในรูปแบบปิด? เมื่อคุณเรียนรู้ตัวประมาณค่าสำหรับการถดถอยน้อยกำลังสองดูเหมือนว่าชีวิตจะง่ายกว่าที่คุณคิด
eac2222
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.