เหตุใดการถดถอยของปัวซองจึงใช้สำหรับนับข้อมูล


33

ฉันเข้าใจว่าสำหรับชุดข้อมูลบางอย่างเช่นการลงคะแนนจะทำงานได้ดีขึ้น เหตุใดการถดถอยของปัวซองจึงใช้กับการถดถอยเชิงเส้นปกติหรือการถดถอยโลจิสติก แรงจูงใจทางคณิตศาสตร์สำหรับมันคืออะไร?


ดูคำตอบของฉันที่โพสต์นี้สำหรับมุมมองอื่น: stats.stackexchange.com/questions/142338/ …
kjetil b halvorsen

คำตอบ:


51

ข้อมูลแบบกระจายของปัวซองนั้นมีค่าเป็นจำนวนเต็มซึ่งมีเหตุผลสำหรับการนับข้อมูล Ordinary Least Squares (OLS ซึ่งคุณเรียกว่า "การถดถอยเชิงเส้น") ถือว่าปกติแล้วค่าจริงจะถูกกระจายไปรอบ ๆ ค่าที่คาดหวังและสามารถรับค่าจริงใด ๆ บวกหรือลบจำนวนเต็มหรือเศษส่วนอะไรก็ตาม ในที่สุดการถดถอยโลจิสติกจะทำงานกับข้อมูลที่มีค่า 0-1 (มูลค่า TRUE-FALSE) เท่านั้นเช่น "มีโรค" เมื่อเทียบกับ "ไม่มีโรค" ดังนั้นการแจกแจงปัวซงจึงเหมาะสมที่สุดสำหรับการนับข้อมูล

ที่กล่าวว่าการแจกแจงแบบปกติมักเป็นการประมาณที่ดีสำหรับปัวซองสำหรับข้อมูลที่มีค่าเฉลี่ยสูงกว่า 30 หรือมากกว่านั้น และในกรอบการถดถอยที่คุณมีผู้ทำนายที่มีอิทธิพลต่อการนับ OLS ที่มีการแจกแจงแบบปกติอาจจะง่ายกว่าและเหมาะสมกว่าโดยทั่วไปเนื่องจากการแจกแจงและการถดถอยของปัวซองถือว่าค่าเฉลี่ยและความแปรปรวนเท่ากันในขณะที่ OLS สามารถจัดการด้วยวิธีการที่ไม่เท่าเทียมกันและความแปรปรวน - สำหรับรูปแบบข้อมูลนับด้วยวิธีการที่แตกต่างกันและต่างคนหนึ่งสามารถใช้การแจกแจงแบบทวินามเชิงลบเช่น


17
โปรดทราบว่าเพียงแค่การปรับใช้ OlS อย่างเหมาะสมไม่จำเป็นต้องมีกฎเกณฑ์ - เมื่อคุณทำการอนุมานพารามิเตอร์ที่คุณต้องการใช้การแจกแจงแบบปกติ
Dason

1
@Dason: ฉันยืนแก้ไข
S. Kolassa - Reinstate Monica

3
หากคุณใช้ตัวประมาณค่า Huber / White / Sandwich คุณสามารถผ่อนคลายสมมติฐานค่าความแปรปรวน
Dimitriy V. Masterov

@Dason ในขณะที่ไม่จำเป็นต้องเคร่งครัดใช้รูปแบบที่เหมาะสมสำหรับสิ่งที่คุณเหมาะสมเกือบจะให้การประเมินที่ดีกว่าและคุณสามารถดูได้ในแปลงของส่วนที่เหลือ
Joe

24

โดยพื้นฐานแล้วเป็นเพราะการถดถอยเชิงเส้นและลอจิสติกทำให้สมมติฐานผิดประเภทเกี่ยวกับผลลัพธ์ที่นับ ลองนึกภาพโมเดลของคุณในฐานะหุ่นยนต์ที่โง่มากที่จะทำตามคำสั่งของคุณอย่างไม่หยุดยั้งไม่ว่าคำสั่งเหล่านั้นไร้สาระจะเป็นอย่างไร มันไม่มีความสามารถในการประเมินสิ่งที่คุณบอกได้อย่างสมบูรณ์ หากคุณบอกหุ่นยนต์ของคุณว่ามีการกระจายการโหวตอย่างต่อเนื่องตั้งแต่อนันต์ไปจนถึงอินฟินิตี้นั่นคือสิ่งที่เชื่อว่าการโหวตนั้นเป็นแบบนั้นและอาจให้การคาดคะเนแบบไร้สาระของคุณ (Ross Perot

ในทางกลับกันการแจกแจงปัวซงนั้นไม่ต่อเนื่องและเป็นบวก (หรือศูนย์ ... นับเป็นบวกใช่หรือไม่) อย่างน้อยที่สุดสิ่งนี้จะบังคับให้หุ่นยนต์ของคุณให้คำตอบที่อาจเกิดขึ้นจริงในชีวิตจริง พวกเขาอาจหรืออาจไม่ใช่คำตอบที่ดีแต่อย่างน้อยพวกเขาก็จะถูกดึงออกมาจากชุดของ "จำนวนคะแนนโหวต" ที่เป็นไปได้

แน่นอนว่าปัวซงมีปัญหาของตัวเอง: มันสันนิษฐานว่าค่าเฉลี่ยของตัวแปรการนับคะแนนจะเท่ากับความแปรปรวน ฉันไม่รู้ว่าจริง ๆ แล้วฉันเคยเห็นตัวอย่างที่ไม่ได้วางแผนไว้แล้วหรือไม่ซึ่งนี่เป็นเรื่องจริง โชคดีที่ผู้คนที่สดใสนั้นเกิดขึ้นพร้อมกับการแจกแจงอื่น ๆ ที่เป็นบวกและไม่ต่อเนื่อง แต่นั่นก็เป็นการเพิ่มพารามิเตอร์เพื่อให้ความแปรปรวน, er, แปรผัน (เช่นการถดถอยแบบทวินามลบ)


5

T=1λT=เสื้อλ.เสื้อλ.เสื้อ

พี(ยังไม่มีข้อความ=n)=(λ.เสื้อ)nอี-λ.เสื้อn!

ผ่านทางนี้และวิธีโอกาสสูงสุดและทั่วไปเส้นตรงรุ่น (หรือวิธีอื่น ๆ ) คุณมาถึงที่Poisson ถดถอย

กล่าวง่ายๆว่า Poisson Regression เป็นตัวแบบที่เหมาะสมกับสมมติฐานของกระบวนการสุ่มพื้นฐานที่สร้างเหตุการณ์จำนวนเล็กน้อยในอัตรา (เช่นจำนวนต่อหน่วยเวลา) ที่กำหนดโดยตัวแปรอื่น ๆ ในตัวแบบ


3

คนอื่น ๆ มักจะพูดแบบเดียวกันกับที่ฉันจะไป แต่ฉันคิดว่าฉันจะเพิ่มสิ่งที่ฉันทำลงไป ขึ้นอยู่กับสิ่งที่คุณทำ แต่หลายครั้งเราชอบที่จะคิดปัญหา / ข้อมูลในมือ นี่เป็นวิธีที่แตกต่างกันเล็กน้อยเมื่อเทียบกับการสร้างแบบจำลองที่ทำนายได้ดี หากเราพยายามที่จะคิดในสิ่งที่เกิดขึ้นมันเป็นเรื่องสมเหตุสมผลที่จะสร้างแบบจำลองข้อมูลนับโดยใช้การแจกแจงแบบไม่ลบที่ทำให้มวลเป็นจำนวนเต็มเท่านั้น เรายังมีผลมากที่เป็นหลักต้มลงไปบอกว่าภายใต้เงื่อนไขบางนับข้อมูลจริงๆคือกระจายเป็นปัวซอง ดังนั้นหากเป้าหมายของเราคือการทำให้ปัญหาเกิดขึ้นจริงมันสมเหตุสมผลที่จะใช้ปัวซองเป็นตัวแปรตอบสนอง คนอื่น ๆ ได้ชี้เหตุผลอื่น ๆ ว่าทำไมจึงเป็นความคิดที่ดี แต่ถ้าคุณพยายามที่จะสร้างแนวคิดเกี่ยวกับปัญหาและเข้าใจว่าข้อมูลที่คุณเห็นสามารถสร้างขึ้นได้อย่างไรจากนั้นใช้การถดถอยแบบปัวซองทำให้รู้สึกในบางสถานการณ์


2

ความเข้าใจของฉันเป็นหลักเพราะการนับมีค่าเป็นบวกและไม่ต่อเนื่อง Poisson สามารถสรุปข้อมูลดังกล่าวด้วยพารามิเตอร์เดียว สิ่งที่จับได้คือความแปรปรวนเท่ากับค่าเฉลี่ย

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.