ทำไมสแควร์ธรรมดาน้อยที่สุดจึงทำงานได้ดีกว่าการถดถอยปัวซอง?


18

ฉันกำลังพยายามทำให้การถดถอยเพื่ออธิบายจำนวนคดีฆาตกรรมในแต่ละเขตของเมือง แม้ว่าฉันจะรู้ว่าข้อมูลของฉันเป็นไปตามการแจกแจงปัวซอง แต่ฉันก็พยายามปรับให้เหมาะสมกับ OLS ดังนี้:

log(y+1)=α+βX+ϵ

จากนั้นฉันก็ลอง (ปฎิบัติ!) การถดถอยแบบปัวซอง ปัญหาคือว่าฉันมีผลลัพธ์ที่ดีกว่าในการถดถอย OLS: หลอก -สูงกว่า (0.71 เทียบกับ 0.57) และ RMSE เช่นกัน (3.8 vs 8.88 มาตรฐานที่มีหน่วยเดียวกัน)R2

ทำไม? เป็นเรื่องปกติหรือไม่ มีอะไรผิดปกติในการใช้ OLS ไม่ว่าการเผยแพร่ข้อมูลจะเป็นอย่างไร

แก้ไข ตามคำแนะนำของ kjetil b halvorsen และอื่น ๆ ฉันได้ติดตั้งข้อมูลผ่านสองรุ่น: OLS และ Negative Binomial GLM (NB) ฉันเริ่มด้วยฟีเจอร์ทั้งหมดที่ฉันมีจากนั้นฉันก็ทำการลบฟีเจอร์ที่ไม่สำคัญออกไปทีละแบบ OLS คือ

crimearea=α+βX+ϵ

ที่มีน้ำหนัก = R อีarea

summary(w <- lm(sqrt(num/area) ~  RNR_nres_non_daily + RNR_nres_daily + hType_mix_std + area_filtr + num_community_places+ num_intersect + pop_rat_num + employed + emp_rat_pop + nden_daily + nden_non_daily+ bld_rat_area + bor_rat_area + mdist_highways+ mdist_parks, data=p, weights=area))

error2 <- p$num - (predict(w, newdata=p[,-1:-2], type="response")**2)*p$area

rmse(error2)
[1] 80.64783

NB คาดการณ์จำนวนอาชญากรรมที่มีพื้นที่ของอำเภอเป็นชดเชย

summary(m3 <- glm.nb(num ~  LUM5_single  + RNR_nres + mdist_daily + mdist_non_daily+ hType_mix_std + ratio_daily_nondaily_area + area_filtr + num_community_places  + employed  + nden_daily + nden_non_daily+ bld_rat_area + bor_rat_area + mdist_smallparks + mdist_highways+ mdist_parks + offset(log(area)), data=p, maxit = 1000))

error <- p$num - predict(m3, newdata=p[,-1:-2], type="response")

rmse(error)
[1] 121.8714

ส่วนที่เหลือ OLS:

ป้อนคำอธิบายรูปภาพที่นี่

NB ที่เหลือ

ป้อนคำอธิบายรูปภาพที่นี่

ดังนั้น RMSE จึงต่ำกว่าใน OLS แต่ดูเหมือนว่าส่วนที่เหลือไม่ปกตินัก ....


คุณช่วยโพสต์รายละเอียดเพิ่มเติมได้ไหม? ลักษณะของข้อมูลคืออะไร? นั่นคืออะไรคือตัวแปรตอบสนองที่นับได้? ตัวแปรอธิบายคืออะไร?
kjetil b halvorsen

@kjetilbhalvorsen ตัวแปรตามคือจำนวนคดีฆาตกรรมต่ออำเภอ (112 อำเภอ) คน indipendent เป็นลักษณะโครงสร้างของเมือง (ทางแยกถนน, POI ฯลฯ )
marcodena

2
หากฉันปรับโมเดลนี้ให้เหมาะสมโดยใช้การถดถอยแบบปัวซอง นอกเสียจากว่าจะเป็น
mdewey

1
เหตุผลของคุณที่คิดว่าการเปรียบเทียบ OLS กับp s e u d o - R 2จากการประมาณ ML (และR M S E ) เป็นตัวบ่งชี้ว่าแบบจำลองนั้นดีแค่ไหน? OLS สร้างR 2 ให้ได้มากที่สุด คือการถดถอยพิษสร้างขึ้นเพื่อให้เป็นไปเพิ่มP s อียูd o - R 2 ? ฉันไม่คิดอย่างนั้นและฉันไม่คิดว่าการเปรียบเทียบนี้มีประโยชน์ R2pseudoR2RMSER2pseudoR2
coffeinjunky

1
R2z=log(y+1)R2y
ความน่าจะเป็นทาง

คำตอบ:


16

ฉันสงสัยว่าส่วนหนึ่งของปัญหาอาจอยู่ในการเลือกตัวชี้วัดประสิทธิภาพของคุณ หากคุณวัดประสิทธิภาพการทดสอบโดยใช้ RMSE ให้ทำการฝึกอบรมแบบจำลองเพื่อลด MSE ให้ตรงกับเกณฑ์การทดสอบให้คำแนะนำว่าสิ่งใดมีความสำคัญ คุณอาจพบว่าหากคุณวัดประสิทธิภาพการทดสอบโดยใช้ความน่าจะเป็นบันทึกเชิงลบของชุดทดสอบโดยใช้โอกาสปัวซองว่าโมเดลปัวซองทำงานได้ดีขึ้น (ตามที่คาดไว้) นี่อาจเป็นปัญหาเล็กน้อยเมื่อเทียบกับปัญหาอื่น ๆ ที่ยกขึ้น แต่อาจเป็นการตรวจสุขภาพที่มีประโยชน์


1
+1 หากวัตถุประสงค์ของ OPs เป็นการคาดการณ์อาจมีเหตุผลในการใช้แบบจำลอง OLS แทน! อย่างไรก็ตามการอนุมานตามข้อผิดพลาดแบบคลาสสิกที่เกิดขึ้นจาก OLS ไม่สามารถ / ไม่ควรใช้ใน GLMs ใครสามารถตรวจสอบเศษเหลือนักเรียนได้หรือตัวเลือกที่ดีกว่าคือการเปรียบเทียบแบบจำลองกับ AIC
AdamO

11

ก่อนอื่นด้วยข้อมูลดังกล่าวฉันคาดว่าจะใช้งานเกินขนาด (หากคุณไม่ทราบว่าคืออะไรให้ดูที่/stats//search?q=what+is+overdispersion%3F )

log(DistrictSize)Nr. homicidesDistrict Sizeอำเภอขนาดเหตุผลหนึ่งที่เป็นไปได้สำหรับความคลาดเคลื่อนของผลลัพธ์คือคุณได้จัดการกับปัญหานี้แตกต่างกันในสองกรณี คุณสามารถโพสต์ผลลัพธ์บางส่วนได้ที่นี่เช่นที่ดินที่เหลือเพื่อให้เราเห็นว่าเกิดอะไรขึ้น หรือคุณสามารถโพสต์ข้อมูลของคุณเป็นตารางในโพสต์ต้นฉบับ .... อาจน่าสนใจที่จะดู

ปัญหาอื่นคือการแปลงที่คุณใช้กับการถดถอยเชิงเส้น การแปรปรวนการแปรปรวนตามปกติที่ใช้กับข้อมูลนับเป็นรากที่สองไม่ใช่ลอการิทึม

Yi/xiYiPoisson(λxi)

EYixiλVYixixi1
xiYi/xilog(Yi/xi+1)
    EDIT

สำหรับการวิเคราะห์เพิ่มเติมของคุณในโพสต์โปรดทราบว่า rmse ไม่สามารถเปรียบเทียบได้โดยตรงระหว่างสองรุ่นเนื่องจากมีการใช้การตอบสนองที่แตกต่างกัน! หากต้องการทำการเปรียบเทียบโดยตรงคุณจะต้องเปลี่ยนรูปแบบการคาดการณ์กลับไปเป็นระดับเดิม จากนั้นคุณสามารถคำนวณ rmse ด้วยตัวคุณเองและดู แต่โปรดทราบว่าการคาดการณ์ที่ได้รับหลังจากการเปลี่ยนรูปหลังสามารถลำเอียงเพราะความไม่เชิงเส้น ดังนั้นการปรับเปลี่ยนการคาดการณ์ที่เปลี่ยนรูปกลับมาบางครั้งอาจทำให้มีประโยชน์มากกว่า ในบางกรณีสามารถคำนวณได้ในทางทฤษฎีคุณสามารถใช้ bootstrap ได้


ฉันติดตั้งโมเดลตามที่คุณแนะนำแม้ว่าฉันจะไม่เข้าใจ reson ที่อยู่เบื้องหลัง OLS ที่ถ่วงน้ำหนักจริงๆ คุณคิดอย่างไร?
marcodena


2

มันเป็นความจริงที่ว่าข้อมูลของคุณไม่ได้รับการกระจายตามปกติ (ซึ่งฉันคิดว่าเป็นสาเหตุที่คุณใช้การถดถอยแบบปัวซอง) แต่ข้อมูลของคุณก็ไม่ได้เป็นแบบปัวซอง การแจกแจงปัวซงถือว่าค่าเฉลี่ยและความแปรปรวนเหมือนกันซึ่งอาจไม่ใช่กรณี (ดังที่กล่าวไว้ในคำตอบอื่น ๆ - คุณสามารถจับความคลาดเคลื่อนนี้และรวมเข้ากับโมเดล) เนื่องจากข้อมูลของคุณไม่เหมาะอย่างยิ่งสำหรับทั้งสองรุ่นจึงเหมาะสมที่ OLS อาจทำงานได้ดีขึ้น

สิ่งที่ควรทราบอีกประการหนึ่งคือการประมาณค่ากำลังสองน้อยที่สุดแบบทั่วไปนั้นมีความทนทานต่อความไม่ธรรมดาซึ่งอาจเป็นสาเหตุที่ทำให้คุณได้แบบจำลองที่สมเหตุสมผล ทฤษฎีบทเกาส์ - มาร์คอฟบอกเราว่าการประมาณค่าสัมประสิทธิ์ OLS นั้นดีที่สุด (ในแง่ของความคลาดเคลื่อนกำลังสองเฉลี่ย) ตัวประมาณแบบไม่เอนเอียงเชิงเส้น (BLUE) ภายใต้สมมติฐานต่อไปนี้

  • ข้อผิดพลาดมีค่าเฉลี่ยเป็นศูนย์
  • ข้อสังเกตจะไม่เกี่ยวข้อง
  • ข้อผิดพลาดมีความแปรปรวนคงที่

ไม่มีข้อสันนิษฐานเรื่องสภาพปกติที่นี่เพื่อให้ข้อมูลของคุณมีความสมเหตุสมผลสำหรับรุ่นนี้! จากที่กล่าวมาฉันจะดูแบบจำลองของปัวซงโดยมีพารามิเตอร์กระจายตัวมากเกินไปและคุณควรได้ผลลัพธ์ที่ดีกว่า


@TynnaDoStat ขอบคุณ! ตอนนี้ฉันติดตั้งสองรุ่นหนึ่งอันพร้อมพารามิเตอร์การกระจาย คุณคิดอย่างไร?
marcodena

2
ความแปรปรวน = ค่าเฉลี่ยสำหรับ Poisson กระจายมักจะถูกเรียกว่าเป็นสมมติฐานที่เป็นปัญหาสำหรับ Poisson ถดถอยแต่ประเด็นก็คือไม่ได้เป็นเรื่องยากที่จะบอกเป็นนัยที่นี่ แม้จะมีชื่อแนวคิดหลักของการถดถอยของปัวซองก็คือฟังก์ชั่นบันทึกลิงค์ สมมติฐานเกี่ยวกับการแจกแจงแบบมีเงื่อนไขนั้นไม่สำคัญนัก สิ่งที่น่าเป็นไปได้ถ้าข้อสันนิษฐานที่ไม่ได้ยึดถือทั้งหมดนั้นส่วนใหญ่แล้วข้อผิดพลาดมาตรฐานจะปิดอยู่เว้นแต่คุณจะปรับ แต่ความพอดีมักจะสมเหตุสมผล
Nick Cox

2
อันที่จริงการถดถอยของปัวซองนั้นเหมาะสมสำหรับการตอบสนองที่ไม่เป็นลบที่วัดได้ซึ่งความแปรปรวนและค่าเฉลี่ยไม่ได้มีขนาดเท่ากัน ดูตัวอย่างเช่นblog.stata.com/2011/08/22/…
Nick Cox
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.