การถดถอยแบบควอไทล์อย่างไร“ ทำงาน”?


25

ฉันหวังว่าจะได้คำอธิบายที่เข้าใจง่ายและเข้าถึงได้ของการถดถอยเชิงปริมาณ

สมมติว่าฉันมีชุดข้อมูลผลลัพธ์และตัวทำนายอย่างง่ายYX1,X2

ตัวอย่างเช่นถ้าฉันใช้การถดถอยแบบควอไทล์ที่. 25, .5, .75 และกลับมา .β0,.25,β1,.25...β2,.75

เป็นค่าพบโดยเพียงแค่สั่งค่านิยมและการดำเนินการถดถอยเชิงเส้นขึ้นอยู่กับตัวอย่างซึ่งอยู่ที่ใกล้ / quantile ที่กำหนดหรือไม่βy

หรือตัวอย่างทั้งหมดมีส่วนร่วมในการประมาณโดยมีน้ำหนักจากมากไปหาน้อยเมื่อระยะห่างจากควอนไทล์เพิ่มขึ้น?β

หรือมันเป็นสิ่งที่แตกต่างอย่างสิ้นเชิง? ฉันยังไม่พบคำอธิบายที่สามารถเข้าถึงได้


3
เกี่ยวกับคณิตศาสตร์คุณอาจพบคำตอบสองข้อนี้มีประโยชน์: stats.stackexchange.com/questions/102906/… , stats.stackexchange.com/questions/88387/…
Andy

คำตอบ:


21

ผมขอแนะนำให้Koenker และฮอลล็อค (2001 วารสารมุมมองทางเศรษฐกิจ)และ Koenker ของตำราบาร์

  1. จุดเริ่มต้นคือการสังเกตว่าค่ามัธยฐานของชุดข้อมูลลดผลรวมของข้อผิดพลาดทั้งหมดให้น้อยที่สุด นั่นคือ quantile 50% เป็นวิธีการแก้ปัญหาการปรับให้เหมาะสมเฉพาะ (เพื่อค้นหาค่าที่ช่วยลดผลรวมของข้อผิดพลาดสัมบูรณ์)
  2. จากนี้มันเป็นเรื่องง่ายที่จะพบว่าใด ๆ -quantile เป็นวิธีการแก้ปัญหาการลดเฉพาะคือเพื่อลดผลรวมของการไม่สมมาตรถ่วงน้ำหนักข้อผิดพลาดแน่นอนกับน้ำหนักที่ขึ้นอยู่กับ\τττ
  3. ในที่สุดเพื่อให้ขั้นตอนในการถดถอยเราทำแบบจำลองการแก้ปัญหาการย่อเล็กสุดนี้เป็นการรวมกันเชิงเส้นของตัวแปรทำนายดังนั้นตอนนี้ปัญหาคือหนึ่งในการค้นหาไม่ใช่ค่าเดียว แต่เป็นชุดของพารามิเตอร์การถดถอย

ดังนั้นสัญชาตญาณของคุณค่อนข้างถูกต้อง: ตัวอย่างทั้งหมดมีส่วนร่วมในการประมาณโดยมีน้ำหนักไม่สมดุลขึ้นอยู่กับ quantileเราตั้งไว้τβτ


เกี่ยวกับประเด็นของคุณ 1) นี่จะเป็นจริงหรือไม่ถ้าสมมุติว่า Y กระจายแบบสมมาตร? หาก Y เอียงเหมือน {1, 1, 2, 4, 10} ค่ามัธยฐาน 2 จะไม่ลดความผิดพลาดสัมบูรณ์อย่างแน่นอน การถดถอยแบบควอไทล์จะสมมติว่า Y มีการกระจายแบบสมมาตรหรือไม่? ขอบคุณ!
Ben

1
@Ben: ไม่จำเป็นต้องมีความสมมาตร จุดสำคัญคือค่ามัธยฐานลดข้อผิดพลาดสัมบูรณ์ที่คาดหวังให้น้อยที่สุด หากคุณมีการแจกแจงแบบไม่ต่อเนื่องที่มีค่า 1, 2, 4, 10 และความน่าจะเป็น 0.4, 0.2, 0.2, 0.2 ดังนั้นการสรุปประเด็นที่ 2 จะช่วยลดข้อผิดพลาดสัมบูรณ์ที่คาดหวังได้อย่างแท้จริง การจำลองเป็นเพียงโค้ด R ไม่กี่บรรทัด:foo <- sample(x=c(1,2,4,10),size=1e6,prob=c(.4,.2,.2,.2),replace=TRUE); xx <- seq(1,10,by=.1); plot(xx,sapply(xx,FUN=function(yy)mean(abs(yy-foo))),type="l")
S. Kolassa - Reinstate Monica

(และใช่ฉันควรชัดเจนในคำตอบของฉันแทนที่จะพูดถึง "จำนวนเงิน")
S. Kolassa - Reinstate Monica

Derp ฉันกำลังคิดอะไรอยู่ มันสมเหตุสมผลแล้วในตอนนี้ขอบคุณ
Ben

19

แนวคิดพื้นฐานของการถดถอยเชิงปริมาณมาจากข้อเท็จจริงที่นักวิเคราะห์สนใจในการกระจายข้อมูลแทนที่จะเป็นเพียงข้อมูล ให้เริ่มต้นด้วยค่าเฉลี่ย

y=XβE(Y|X=x)=xβargminβ(yxβ)(yXβ)นาที

ในทางกลับกันค่ามัธยฐานถดถอยจะมองหาเส้นที่คาดว่าข้อมูลครึ่งหนึ่งอยู่ด้านข้าง ในกรณีนี้ฟังก์ชันเป้าหมายคือที่ไหนเป็นบรรทัดฐานแรก| . |argminβ|yXβ||.|

การขยายแนวคิดของค่ามัธยฐานสู่ผลควอนตัมในการถดถอยแบบเชิงปริมาณ แนวคิดที่อยู่เบื้องหลังคือการค้นหาบรรทัดที่ -percent ของข้อมูลอยู่นอกเหนือจากนั้นα

ที่นี่คุณทำผิดพลาดเล็กน้อยการถดถอย Q ไม่เหมือนกับการค้นหาข้อมูลจำนวนมากจากนั้นใส่เส้นตรงกับชุดย่อยนั้น (หรือแม้แต่เส้นขอบที่ท้าทายยิ่งกว่า)

Q-regression มองหาบรรทัดที่แบ่งข้อมูลออกเป็น qroup a quantile และส่วนที่เหลือ ฟังก์ชั่นเป้าหมายโดยบอกว่าฟังก์ชั่นตรวจสอบของ Q-regression คือ βอัลฟ่า = หาเรื่องนาทีβ {อัลฟ่า| y - X β | I ( y > X β ) + ( 1 - α ) | y - X β | ฉัน( Y < X β ) }α

β^α=argminβ{α|yXβ|I(y>Xβ)+(1α)|yXβ|I(y<Xβ)}.

ในขณะที่คุณเห็นว่าฟังก์ชั่นเป้าหมายที่ฉลาดนี้ไม่มีอะไรมากไปกว่าที่จะแปลงควิไทล์เป็นปัญหาการเพิ่มประสิทธิภาพ

ยิ่งไปกว่านั้นอย่างที่คุณเห็น Q-regression ถูกกำหนดสำหรับปริมาณที่แน่นอน ( ) จากนั้นสามารถขยายเพื่อค้นหาปริมาณทั้งหมดได้ กล่าวอีกนัยหนึ่งการถดถอย Q- สามารถทำซ้ำการกระจายการตอบสนอง (เงื่อนไข)βα


คำตอบนี้ยอดเยี่ยม
Jinhua Wang
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.