แนวคิดและสัญชาตญาณที่อยู่เบื้องหลังการประมาณค่าความน่าจะเป็นสูงสุด (QMLE)


17

คำถาม (s):อะไรคือความคิดและสัญชาตญาณที่อยู่เบื้องหลังการประมาณความเป็นไปได้สูงสุดเสมือน (QMLE; หรือที่เรียกว่าการประมาณความน่าจะเป็นหลอกหลอกแบบ PMLE) อะไรทำให้ตัวประมาณทำงานได้เมื่อการแจกแจงข้อผิดพลาดจริงไม่ตรงกับการแจกแจงผิดพลาด

เว็บไซต์วิกิพีเดียสำหรับ QMLE ดี (สั้น ๆ ที่ใช้งานง่ายเพื่อจุด) แต่ฉันสามารถใช้บางปรีชาเพิ่มเติมและรายละเอียดอาจจะยังมีภาพประกอบ การอ้างอิงอื่น ๆ ยินดีต้อนรับมากที่สุด (ฉันจำได้ว่ามีหนังสือตำราเศรษฐศาสตร์จำนวนน้อยที่กำลังมองหาเนื้อหาเกี่ยวกับ QMLE และทำให้ฉันประหลาดใจ QMLE ถูกครอบคลุมเพียงหนึ่งหรือสองเล่มเช่น Wooldridge "การวิเคราะห์ทางเศรษฐมิติของข้อมูลส่วนและข้อมูลพาเนล" (2010) บทที่ 13 ส่วนที่ 11, หน้า 502-517)


2
คุณอ่านเอกสารของไวท์เกี่ยวกับเรื่องนี้หรือไม่?
hejseb

2
@ hejseb บางทีไม่อย่างน้อยฉันก็จำไม่ได้ อันนี้หรือเปล่า
Richard Hardy

1
ใช่นั่นคือสิ่งนั้น เขาสร้างอย่างหนักบนHuber (1967)และรับรู้อย่างเต็มที่ แต่ในสาขาเศรษฐมิติ และกระดาษของฮิวเดอร์นั้นแทบจะไม่สามารถอ่านได้เลยในระดับความสามารถทางเทคนิค Hal White ช่วยให้การย่อยของปัญหาง่ายขึ้น
StasK

คำตอบ:


7

"อะไรทำให้ตัวประมาณทำงานได้เมื่อการแจกแจงข้อผิดพลาดจริงไม่ตรงกับการแจกแจงผิดพลาด"

ในหลักการ QMPLE ทำ ได้ "ทำงาน" ในแง่ของการเป็นตัวประมาณ "ดี" ทฤษฎีที่พัฒนาขึ้นรอบ ๆ QMLE มีประโยชน์เพราะมันนำไปสู่การทดสอบการสะกดผิด

สิ่งที่ QMLE ทำก็คือการประมาณค่าพารามิเตอร์เวกเตอร์อย่างสม่ำเสมอซึ่งจะลดความแตกต่างระหว่าง Kullback-Leiber Divergence ระหว่างการแจกแจงจริงและค่าที่ระบุ ฟังดูดี แต่การลดระยะห่างนี้ไม่ได้หมายความว่าระยะทางย่อเล็กสุดจะไม่ใหญ่หลวง

ถึงกระนั้นเราอ่านว่ามีหลายสถานการณ์ที่ QMLE เป็นตัวประมาณที่สอดคล้องกันสำหรับเวกเตอร์พารามิเตอร์จริง สิ่งนี้จะต้องได้รับการประเมินเป็นกรณี ๆ ไป แต่ขอผมเล่าสถานการณ์ทั่วไปอย่างหนึ่งซึ่งแสดงให้เห็นว่าไม่มีอะไรใน QMLE ที่ทำให้มันสอดคล้องกับเวกเตอร์จริง ...

... มันเป็นความจริงที่ว่ามันเกิดขึ้นพร้อมกับตัวประมาณค่าอื่นที่สอดคล้องกันเสมอ (การรักษาสมมติฐานตัวอย่างที่คงที่ตามหลักสรีรศาสตร์): แบบเก่า, วิธีการประมาณช่วงเวลา

กล่าวอีกนัยหนึ่งเมื่อมีข้อสงสัยเกี่ยวกับการแจกแจงกลยุทธ์ที่ต้องพิจารณาคือ"ระบุการแจกแจงที่ตัวประมาณค่าความน่าจะเป็นสูงสุดสำหรับพารามิเตอร์ที่น่าสนใจเกิดขึ้นพร้อมกับวิธีการประมาณค่าช่วงเวลา" : ด้วยวิธีนี้ไม่ว่าเครื่องหมายจะเป็นอย่างไร คือสมมติฐานการกระจายของคุณผู้ประเมินอย่างน้อยจะต้องสอดคล้องกัน

คุณสามารถใช้กลยุทธ์นี้กับสุดขั้วไร้สาระ: สมมติว่าคุณมีตัวอย่างไอดด์ขนาดใหญ่มากจากตัวแปรสุ่มโดยที่ค่าทั้งหมดเป็นค่าบวก ดำเนินต่อไปและสมมติว่าปกติแล้วตัวแปรสุ่มจะถูกกระจายและใช้โอกาสสูงสุดสำหรับค่าเฉลี่ยและความแปรปรวน: QMLE ของคุณจะสอดคล้องกับค่าจริง

แน่นอนว่าสิ่งนี้ทำให้เกิดคำถามว่าทำไมการแกล้งใช้ MLE เนื่องจากสิ่งที่เรากำลังทำอยู่คืออาศัยและซ่อนอยู่หลังจุดแข็งของวิธีการของช่วงเวลา

ในกรณีที่มีการกลั่นกรองเพิ่มเติมอื่น ๆ QMLE อาจแสดงให้สอดคล้องกับพารามิเตอร์ที่น่าสนใจหากเราสามารถพูดได้ว่าเราได้ระบุฟังก์ชันค่าเฉลี่ยตามเงื่อนไขอย่างถูกต้อง แต่ไม่ใช่การแจกแจง (นี่คือตัวอย่างกรณีของ Pooled Poisson QMLE .


สิ่งนี้น่าสนใจ คุณสามารถโฆษณาอ้างอิงบางส่วนสำหรับทฤษฎีดังกล่าวได้หรือไม่?
kjetil b halvorsen

1
@kjetilbhalvorsen นี่ไม่ใช่กรอบทางทฤษฎีที่ได้รับการพัฒนาเนื่องจากมันเพิ่งสังเคราะห์อย่างชัดเจนผลลัพธ์บางอย่างที่พื้นฐานมาก การสังเคราะห์ปรากฏในหัวของฉันในขณะที่ฉันถูกทรมานเกี่ยวกับผลของการสะกดคำผิด และฉันก็เชื่อว่ายังมี "การเมือง" ด้านที่ไม่ได้ถูกโน้มน้าวเสียงดังในงานวิจัย: เราไม่ต้องการกำจัดกษัตริย์ MLE ตอนนี้เราจะได้ไหม
Alecos Papadopoulos

8

กระดาษที่มีต้นกำเนิดจาก Wedderburn ใน 74 คือการอ่านที่ดีเกี่ยวกับเรื่องของ quasilikelihood โดยเฉพาะอย่างยิ่งเขาสังเกตว่าสำหรับครอบครัวชี้แจงปกติการแก้สมการความน่าจะเป็นที่ได้รับจากการแก้สมการคะแนนทั่วไปของรูปแบบ:

0=i=1nS(β,Xi,Yi)=DTW(Yg1(XTβ))
Where D=βg1(XTβ) and W=V1. This notation originates in the work of McCullogh and Nelder in the originating text, "Generalized Linear Models". M&N describe solving these types of functions using the Gauss Newton type algorithm.

Interestingly, however, this formulation hearkened to a method-of-moments type estimator where one could simply sort of "set the thing they want to estimate" in the RHS of the parenthesized expression, and trust that the expression would converge to "that interesting thing". It was a proto form of estimating equations.

Estimating equations were no new concept. In fact, attempts as far back as 1870s and early 1900s to present EEs correctly derived limit theorems from EEs using Taylor expansions, but a lack of connection to a probabilistic model was a cause of contention among critical reviewers.

Wedderburn showed a few very important results: that using the first display in a general framework where the score equation S can be replaced by a quasiscore, not corresponding to any probabilistic model, but instead answering a question of interest, yielded statistically cogent estimates. Reverse transforming a general score resulted in a general qMLE which comes from a likelihood that is correct up to a proportional constant. That proportional constant is called the "dispersion". A useful result from Wedderburn is that strong departures from probabilistic assumptions can result in large or small dispersions.

However, in contrast to the answer above, quasilikelihood has been used extensively. One very nice discussion in McCullogh and Nelder deals with population modeling of horseshoe crabs. Not unlike humans, their mating habits are simply bizarre: where many males may flock to a single female in unmeasured "clusters". From an ecologist perspective, actually observing these clusters is far beyond the scope of their work, but nonetheless arriving at predictions of population size from catch-and-release posed a significant challenge. It turns out that the this mating pattern results in a Poisson model with significant under-dispersion, that is to say the variance is proportional, but not equal to the mean.

Dispersions are considered nuisance parameters in the sense that we generally do not base inference about their value, and jointly estimating them in a single likelihood results in highly irregular likelihoods. Quasilikelihood is a very useful area of statistics, especially in light of the later work on generalized estimating equations.


1
(+1) Very useful answer.
Alecos Papadopoulos

2

I had a similar question as the original one posted here from Richard Hardy. My confusion was that the parameters estimated from quasi-ML may not exist in the unknown "true" distribution. In this case, what does "consistency" exactly mean? What do the estimated parameters converge to?

After checking some references (White (1982) should be one of the original articles but is gated. A helpful exposition I found is http://homepage.ntu.edu.tw/~ckuan/pdf/et01/ch9.pdf), my thoughts in plain English are as follows: after admitting that the distribution we assume is just an approximation to the unknown true one, the practical thing we can do is to find the parameter value to minimize their distance (Kullback-Leibler distance to be precise). The beauty of the theory is that, without the need to know the true distribution, the estimated parameters from quasi-ML converge to this distance-minimizing parameter (of course, there are other useful results from the theory such as asymptotic distribution of the estimated parameters etc. but they are not the focus of my question here).

Just as Alecos Papadopolous mentioned in his reply above, the minimized distance could still be large. So the distribution we assume could be a poor approximation to the true one. All that quasi-ML can do is making our assumed distribution as close to the unknown true one as possible. Hope my experience shared here might be helpful for others having similar confusions.

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.