การถดถอยปัวซองมีข้อดีอะไรบ้างในกรณีนี้การถดถอยเชิงเส้น


12

ฉันได้รับชุดข้อมูลที่มีจำนวนรางวัลที่นักเรียนได้รับจากโรงเรียนมัธยมแห่งหนึ่งซึ่งผู้ทำนายจำนวนรางวัลที่ได้รับนั้นรวมถึงประเภทของโปรแกรมที่นักเรียนลงทะเบียนและคะแนนสอบปลายภาคในวิชาคณิตศาสตร์

ฉันสงสัยว่าถ้าใครสามารถบอกฉันได้ว่าทำไมแบบจำลองการถดถอยเชิงเส้นอาจไม่เหมาะสมในตัวอย่างนี้และทำไมมันจะดีกว่าถ้าใช้การถดถอยแบบปัวซอง ขอบคุณ

คำตอบ:


14

จุดสามจุดเกี่ยวกับปัวซองกับการถดถอยปกติ

ผลของการเปลี่ยนแปลงตัวทำนาย

ด้วยการทำนายอย่างต่อเนื่องเช่นคะแนนการทดสอบทางคณิตศาสตร์การถดถอยปัวซอง (พร้อมลิงค์บันทึกปกติ) แสดงว่าการเปลี่ยนแปลงหน่วยในตัวทำนายนำไปสู่การเปลี่ยนแปลงเปอร์เซ็นต์ในจำนวนรางวัลเช่น 10 คะแนนเพิ่มเติมในการทดสอบทางคณิตศาสตร์ที่เกี่ยวข้องกับเช่น 25 เปอร์เซ็นต์ รางวัลอื่น ๆ ขึ้นอยู่กับจำนวนรางวัลที่นักเรียนคาดการณ์ไว้ ในทางตรงกันข้ามการถดถอยปกติจะเชื่อมโยงอีก 10 คะแนนด้วยจำนวนเงินที่แน่นอนพูดอีก 3 รางวัลในทุกสถานการณ์ คุณควรจะพอใจกับสมมติฐานนั้นก่อนที่จะใช้โมเดลที่ทำ (fwiw ฉันคิดว่ามันสมเหตุสมผลมากโมดูโลจุดต่อไป)

การจัดการกับนักเรียนที่ไม่มีรางวัล

หากไม่มีรางวัลมากมายแผ่กระจายไปทั่วนักเรียนจำนวนมากการนับรางวัลของคุณจะค่อนข้างต่ำ ในความเป็นจริงฉันคาดการณ์อัตราเงินเฟ้อเป็นศูนย์นั่นคือนักเรียนส่วนใหญ่ไม่ได้รับรางวัลดังนั้นจำนวนศูนย์และนักเรียนที่ดีบางคนได้รับรางวัลไม่มากนัก สิ่งนี้ยุ่งกับสมมติฐานของโมเดลปัวซองและอย่างน้อยก็แย่สำหรับโมเดลปรกติ

หากคุณมีข้อมูลในปริมาณที่เหมาะสมโมเดล 'zero-inflated' หรือ 'hurdle' จะเป็นไปตามธรรมชาติ นี่คือสองแบบจำลองที่เชื่อมโยงกัน: หนึ่งเพื่อทำนายว่านักเรียนจะได้รับรางวัลใด ๆ และอีกแบบหนึ่งเพื่อทำนายว่าเธอจะได้รับมากแค่ไหนถ้าเธอได้รับอะไรเลย ฉันคาดว่าการกระทำทั้งหมดจะเป็นในรูปแบบแรก

รางวัลพิเศษ

ในที่สุดจุดเล็ก ๆ เกี่ยวกับรางวัล หากรางวัลนั้นเป็นเอกสิทธิ์เฉพาะบุคคลเช่นถ้านักเรียนคนหนึ่งได้รับรางวัลนักเรียนคนอื่น ๆ จะไม่ได้รับรางวัลดังนั้นผลลัพธ์ของคุณจะถูกนำมารวมเข้าด้วยกัน การนับหนึ่งครั้งสำหรับนักเรียนการนับจำนวนที่เป็นไปได้ของกันและกัน ไม่ว่าจะเป็นเรื่องน่ากังวลเกี่ยวกับเรื่องนี้ขึ้นอยู่กับโครงสร้างรางวัลและขนาดของประชากรนักศึกษา ฉันจะไม่สนใจมันในรอบแรก

สรุปได้ว่าปัวซองครองอำนาจได้อย่างปกติยกเว้นการนับจำนวนมาก แต่ตรวจสอบสมมติฐานของปัวซงก่อนที่จะเอนตัวไปหาการอนุมานอย่างหนักและเตรียมพร้อมที่จะย้ายไปเรียนแบบจำลองที่ซับซ้อนกว่านี้เล็กน้อยหากจำเป็น


9

การถดถอยของปัวซองนั้นเหมาะสมกว่าในกรณีนี้เพราะการตอบสนองของคุณคือการนับบางสิ่ง

เพียงแค่วางสิ่งที่เราจำลองว่าการกระจายของจำนวนของรางวัลสำหรับนักเรียนเป็นรายบุคคลที่มาจากการกระจาย Poisson และว่านักเรียนแต่ละคนมีของตัวเอง Poisson พารามิเตอร์ การถดถอยปัวซองนั้นเกี่ยวข้องกับพารามิเตอร์นี้กับตัวแปรอธิบายมากกว่าการนับλ

เหตุผลนี้ดีกว่าการถดถอยเชิงเส้นปกติเนื่องจากข้อผิดพลาด ถ้าแบบจำลองของเราถูกต้องและนักเรียนแต่ละคนมีของตัวเองแล้วสำหรับกำหนดเราคาดว่าการกระจายปัวซองของการนับมีอยู่รอบตัวนั่นคือการกระจายแบบไม่สมมาตร ซึ่งหมายความว่าค่าสูงผิดปกติไม่น่าแปลกใจว่าต่ำผิดปกติλλ

การถดถอยเชิงเส้นปกติถือว่าข้อผิดพลาดปกติรอบค่าเฉลี่ยและดังนั้นน้ำหนักพวกเขาเท่ากัน สิ่งนี้บอกว่าหากนักเรียนมีจำนวนรางวัลที่คาดหวังไว้ที่ 1 ก็เป็นไปได้ที่พวกเขาจะได้รับรางวัล -2 รางวัลสำหรับพวกเขาที่จะได้รับรางวัล 3 รางวัล: นี่เป็นเรื่องไร้สาระอย่างชัดเจนและสิ่งที่ปัวซองสร้างขึ้นเพื่อจัดการ


8

การถดถอยแบบสี่เหลี่ยมจัตุรัสน้อยที่สุดสามัญของผู้ทำนายจะให้ค่าพารามิเตอร์ที่สอดคล้องกันตราบใดที่ค่าเฉลี่ยตามเงื่อนไขของรางวัลนั้นเป็นเส้นตรงในตัวทำนาย แต่สิ่งนี้มักไม่เพียงพอเนื่องจากทำให้จำนวนรางวัลที่คาดการณ์ไว้เป็นค่าลบ (แม้สำหรับค่า "สมเหตุสมผล" ของผู้ทำนาย) ซึ่งไม่สมเหตุสมผล ผู้คนมักจะพยายามแก้ไขปัญหานี้ด้วยการบันทึกรางวัลตามธรรมชาติและใช้ OLS แต่สิ่งนี้ล้มเหลวเนื่องจากนักเรียนบางคนไม่ได้รับรางวัลดังนั้นคุณต้องใช้อะไรเช่นแต่สิ่งนี้จะสร้างปัญหาของตัวเองเนื่องจากคุณสนใจเรื่องรางวัลln(awards+0.5)

นอกจากนี้เนื่องจากจำนวนรางวัลที่คาดหวังมีขนาดใหญ่มาก OLS ควรทำงานได้ดีขึ้นด้วยเหตุผลที่ระบุไว้โดย @Corone ในLake Wobegon , OLS เป็นวิธีที่จะไป

หากจำนวนที่คาดไว้ต่ำมีจำนวนศูนย์ฉันจะใช้ปัวซองด้วยข้อผิดพลาดมาตรฐานที่มีประสิทธิภาพมากกว่าโมเดลทวินามลบ การถดถอยของ NB ทำให้สมมติฐานที่แข็งแกร่งเกี่ยวกับความแปรปรวนที่ปรากฏในเงื่อนไขการสั่งซื้อครั้งแรกที่ผลิตสัมประสิทธิ์ หากสมมติฐานเหล่านี้ไม่เป็นที่พอใจค่าสัมประสิทธิ์เองอาจถูกปนเปื้อน นั่นไม่ใช่กรณีของปัวซอง


4

@Corone เพิ่มคะแนนที่ดี แต่โปรดทราบว่าปัวซงนั้นไม่สมมาตรจริงๆเมื่อมีขนาดเล็ก แม้แต่ = 10 มันก็ค่อนข้างสมมาตร e..gλλ

set.seed(12345)
pois10 <- rpois(1000, 10)
plot(density(pois10))
library(moments)
skewness(pois10)

แสดงความเบ้ 0.31 ซึ่งค่อนข้างใกล้กับ 0

ฉันชอบคะแนนของ @conjugateprior จากประสบการณ์ของฉันมันหายากสำหรับปัวซองถดถอยเพื่อให้พอดี ฉันมักจะจบลงด้วยการใช้แบบทวินามลบหรือแบบศูนย์พอง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.