การถดถอยเชิงปริมาณเมื่อใดที่แย่กว่า OLS


22

นอกเหนือจากสถานการณ์เฉพาะบางอย่างที่เราต้องเข้าใจความสัมพันธ์ที่มีเงื่อนไขอย่างมีเงื่อนไขแล้วสถานการณ์ใดที่นักวิจัยควรเลือก OLS เหนือ Quantile Regression

ฉันไม่ต้องการคำตอบว่า "ถ้าไม่มีประโยชน์ในการทำความเข้าใจความสัมพันธ์ท้าย" เพราะเราสามารถใช้การถดถอยแบบมัธยฐานแทน OLS


4
ฉันคิดว่านักวิจัยส่วนใหญ่จะให้ความบันเทิงกับทั้ง OLS และการถดถอยเชิงปริมาณ ความแตกต่างระหว่างวิธีการจะส่องแสงในสิ่งที่คุณพยายามทำแบบจำลอง ด้วยความเคารพต่อ OLS หากคุณโยนสมมติฐานปกติคุณจะได้รับเอกสารที่เป็นธรรมและมีวิธีการทดสอบอย่างละเอียดมากมายที่มีอยู่ในแพ็คเกจสถิติส่วนใหญ่
Jonathan Lisic

คำตอบ:


18

หากคุณมีความสนใจในค่าเฉลี่ยให้ใช้ OLS หากอยู่ในค่ามัธยฐานให้ใช้ quantile

ความแตกต่างใหญ่อย่างหนึ่งคือค่าเฉลี่ยได้รับผลกระทบมากขึ้นจากค่าผิดปกติและข้อมูลที่รุนแรง บางครั้งนั่นคือสิ่งที่คุณต้องการ ตัวอย่างหนึ่งคือหากตัวแปรตามของคุณคือทุนทางสังคมในพื้นที่ใกล้เคียง การปรากฏตัวของคนคนเดียวที่มีทุนทางสังคมมากมายอาจมีความสำคัญอย่างมากต่อพื้นที่ใกล้เคียงทั้งหมด


6
ฉันขอท้าประโยคแรกของคุณ ทั้งสอง OLS และการถดถอย quantile (QR) ประมาณการสำหรับข้อมูลกระบวนการผลิตY = X β + ε หากกระจายความผิดพลาดมีหางหนัก β Q Rมีประสิทธิภาพมากขึ้นกว่าβ O L S โดยไม่คำนึงถึงช่วงเวลาของการกระจายเงื่อนไขP ( Y | X )เรามีความสนใจในการที่เราควรจะใช้หนึ่งในβ O L Sและβ Q Rβy=Xβ+εβ^QRβ^OLSP(y|X)β^OLSβ^QRที่มีประสิทธิภาพมากขึ้น
Richard Hardy

การติดตามคำติชมของ @RichardHardy ของการตอบกลับนี้ค่ามัธยฐานเป็นเพียงหนึ่งในปริมาณที่ประเมินได้ บทความ Hyndman นี้นำเสนอวิธีการที่เขาเรียกว่าการเพิ่มปริมาณการถดถอยแบบเสริมซึ่งสำรวจช่วงเต็มรูปแบบของปริมาณการพยากรณ์ความไม่แน่นอนในการผลิตไฟฟ้าข้อมูลสมาร์ทมิเตอร์โดยการส่งเสริมการถดถอย Quantile Additive ( ieeexplore.ieee.org/document/7423794 )
Mike Hunter

15

ดูเหมือนจะมีความสับสนในสถานที่ตั้งของคำถาม ในย่อหน้าที่สองกล่าวว่า "เราสามารถใช้การถดถอยแบบมัธยฐานแทน OLS" โปรดทราบว่าการถดถอยค่ามัธยฐานแบบมีเงื่อนไขบน X คือ (รูปแบบ) การถดถอยเชิงปริมาณ

หากข้อผิดพลาดในกระบวนการสร้างข้อมูลพื้นฐานนั้นมีการแจกจ่ายตามปกติ (ซึ่งสามารถประเมินได้โดยการตรวจสอบว่าส่วนที่เหลือเป็นเรื่องปกติ) ค่าเฉลี่ยตามเงื่อนไขเท่ากับค่ามัธยฐานตามเงื่อนไข ยิ่งไปกว่านั้นควอไทล์ใด ๆ ที่คุณอาจสนใจ (เช่นเปอร์เซ็นไทล์ 95 หรือเปอร์เซ็นไทล์ที่ 37) สามารถกำหนดได้ตามจุดที่กำหนดในมิติ X ด้วยวิธี OLS มาตรฐาน สิ่งดึงดูดหลักของการถดถอยแบบควอไทล์คือมันแข็งแกร่งกว่า OLS ข้อเสียคือถ้าทุกอย่างเป็นไปตามสมมติฐานมันจะมีประสิทธิภาพน้อยกว่า (นั่นคือคุณจะต้องมีขนาดตัวอย่างที่ใหญ่กว่าเพื่อให้ได้พลังงานเดียวกัน / การประมาณของคุณจะแม่นยำน้อยกว่า)


12

ทั้ง OLS และ quantile regression (QR) เป็นเทคนิคการประมาณค่าสำหรับการประมาณค่าสัมประสิทธิ์เวกเตอร์ในแบบจำลองการถดถอยเชิงเส้น y = X β + ε (สำหรับกรณีของ QR ดู Koenker (1978), หน้า 33 วรรคสอง)β

y=Xβ+ε

β^QRβ^OLSβ^OLSPY(y|X)β^OLSβ^QR

β^OLSβ^QRβ^OLSβ^QR

อ้างอิง:

  • Koenker, Roger และ Gilbert Bassett Jr. "การถดถอยเชิงปริมาณ" Econometrica: วารสารสมาคมเศรษฐมิติ (2521): 33-50

3

Peter Flom มีคำตอบที่ดีและกระชับฉันแค่ต้องการขยาย ส่วนที่สำคัญที่สุดของคำถามคือวิธีการกำหนด "แย่ลง"

ในการนิยามที่แย่กว่านั้นเราจำเป็นต้องมีตัวชี้วัดบางอย่างและฟังก์ชั่นในการคำนวณว่าส่วนควบที่ดีหรือไม่ดีนั้นเรียกว่าฟังก์ชั่นการสูญเสีย

เราสามารถมีคำจำกัดความที่แตกต่างกันของฟังก์ชั่นการสูญเสียและไม่มีความถูกหรือผิดในแต่ละคำจำกัดความ แต่คำนิยามที่แตกต่างกันสนองความต้องการที่แตกต่างกัน ฟังก์ชันการสูญเสียที่รู้จักกันดีสองฟังก์ชันคือการสูญเสียกำลังสองและการสูญเสียค่าสัมบูรณ์

Lsq(y,y^)=i(yiy^i)2
Labs(y,y^)=i|yiy^i|

If we use squared loss as a measure of success, quantile regression will be worse than OLS. On the other hand, if we use absolute value loss, quantile regression will be better.

Which is what Peter Folm's answer:

If you are interested in the mean, use OLS, if in the median, use quantile.


I think your example may be misleading since it addresses in-sample fit (which is of little interest since we already know our sample perfectly) rather than expected loss for new observations (when the goal is prediction) or loss of estimating the parameter vector (when the goal is explanation). See may comment under Peter Flom's answer and my answer for more details.
Richard Hardy

3

To say what some of the excellent responses above said, but in a slightly different way, quantile regression makes fewer assumptions. On the right hand side of the model the assumptions are the same as with OLS, but on the left hand side the only assumption is continuity of the distribution of Y (few ties). One could say that OLS provides an estimate of the median if the distribution of residuals is symmetric (hence median=mean), and under symmetry and not-too-heavy tails (especially under normality), OLS is superior to quantile regression for estimating the median, because of much better precision. If there is only an intercept in the model, the quantile regression estimate is exactly the sample median, which has efficiency of 2π when compared to the mean, under normality. Given a good estimate of the root mean squared error (residual SD) you can use OLS parametrically to estimate any quantile. But quantile estimates from OLS are assumption-laden, which is why we often use quantile regression.

If you want to estimate the mean, you can't get that from quantile regression.

If you want to estimate the mean and quantiles with minimal assumptions (but more assumptions than quantile regression) but have more efficiency, use semiparametric ordinal regression. This also gives you exceedance probabilities. A detailed case study is in my RMS course notes where it is shown on one dataset that the average mean absolute estimation error over several parameters (quantiles and mean) is achieved by ordinal regression. But for just estimating the mean, OLS is best and for just estimating quantiles, quantile regression was best.

Another big advantage of ordinal regression is that it is, except for estimating the mean, completely Y-transformation invariant.

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.