เหตุใดการถดถอยของปัวซองจึงใช้สำหรับนับข้อมูล

33

ฉันเข้าใจว่าสำหรับชุดข้อมูลบางอย่างเช่นการลงคะแนนจะทำงานได้ดีขึ้น เหตุใดการถดถอยของปัวซองจึงใช้กับการถดถอยเชิงเส้นปกติหรือการถดถอยโลจิสติก แรงจูงใจทางคณิตศาสตร์สำหรับมันคืออะไร?

count-data poisson-regression

— zaxtax
แหล่งที่มา

ดูคำตอบของฉันที่โพสต์นี้สำหรับมุมมองอื่น: stats.stackexchange.com/questions/142338/ …

— kjetil b halvorsen

51

ข้อมูลแบบกระจายของปัวซองนั้นมีค่าเป็นจำนวนเต็มซึ่งมีเหตุผลสำหรับการนับข้อมูล Ordinary Least Squares (OLS ซึ่งคุณเรียกว่า "การถดถอยเชิงเส้น") ถือว่าปกติแล้วค่าจริงจะถูกกระจายไปรอบ ๆ ค่าที่คาดหวังและสามารถรับค่าจริงใด ๆ บวกหรือลบจำนวนเต็มหรือเศษส่วนอะไรก็ตาม ในที่สุดการถดถอยโลจิสติกจะทำงานกับข้อมูลที่มีค่า 0-1 (มูลค่า TRUE-FALSE) เท่านั้นเช่น "มีโรค" เมื่อเทียบกับ "ไม่มีโรค" ดังนั้นการแจกแจงปัวซงจึงเหมาะสมที่สุดสำหรับการนับข้อมูล

ที่กล่าวว่าการแจกแจงแบบปกติมักเป็นการประมาณที่ดีสำหรับปัวซองสำหรับข้อมูลที่มีค่าเฉลี่ยสูงกว่า 30 หรือมากกว่านั้น และในกรอบการถดถอยที่คุณมีผู้ทำนายที่มีอิทธิพลต่อการนับ OLS ที่มีการแจกแจงแบบปกติอาจจะง่ายกว่าและเหมาะสมกว่าโดยทั่วไปเนื่องจากการแจกแจงและการถดถอยของปัวซองถือว่าค่าเฉลี่ยและความแปรปรวนเท่ากันในขณะที่ OLS สามารถจัดการด้วยวิธีการที่ไม่เท่าเทียมกันและความแปรปรวน - สำหรับรูปแบบข้อมูลนับด้วยวิธีการที่แตกต่างกันและต่างคนหนึ่งสามารถใช้การแจกแจงแบบทวินามเชิงลบเช่น

— S. Kolassa - Reinstate Monica
แหล่งที่มา

17

โปรดทราบว่าเพียงแค่การปรับใช้ OlS อย่างเหมาะสมไม่จำเป็นต้องมีกฎเกณฑ์ - เมื่อคุณทำการอนุมานพารามิเตอร์ที่คุณต้องการใช้การแจกแจงแบบปกติ

— Dason

1

@Dason: ฉันยืนแก้ไข

— S. Kolassa - Reinstate Monica

3

หากคุณใช้ตัวประมาณค่า Huber / White / Sandwich คุณสามารถผ่อนคลายสมมติฐานค่าความแปรปรวน

— Dimitriy V. Masterov

@Dason ในขณะที่ไม่จำเป็นต้องเคร่งครัดใช้รูปแบบที่เหมาะสมสำหรับสิ่งที่คุณเหมาะสมเกือบจะให้การประเมินที่ดีกว่าและคุณสามารถดูได้ในแปลงของส่วนที่เหลือ

— Joe

24

โดยพื้นฐานแล้วเป็นเพราะการถดถอยเชิงเส้นและลอจิสติกทำให้สมมติฐานผิดประเภทเกี่ยวกับผลลัพธ์ที่นับ ลองนึกภาพโมเดลของคุณในฐานะหุ่นยนต์ที่โง่มากที่จะทำตามคำสั่งของคุณอย่างไม่หยุดยั้งไม่ว่าคำสั่งเหล่านั้นไร้สาระจะเป็นอย่างไร มันไม่มีความสามารถในการประเมินสิ่งที่คุณบอกได้อย่างสมบูรณ์ หากคุณบอกหุ่นยนต์ของคุณว่ามีการกระจายการโหวตอย่างต่อเนื่องตั้งแต่อนันต์ไปจนถึงอินฟินิตี้นั่นคือสิ่งที่เชื่อว่าการโหวตนั้นเป็นแบบนั้นและอาจให้การคาดคะเนแบบไร้สาระของคุณ (Ross Perot

ในทางกลับกันการแจกแจงปัวซงนั้นไม่ต่อเนื่องและเป็นบวก (หรือศูนย์ ... นับเป็นบวกใช่หรือไม่) อย่างน้อยที่สุดสิ่งนี้จะบังคับให้หุ่นยนต์ของคุณให้คำตอบที่อาจเกิดขึ้นจริงในชีวิตจริง พวกเขาอาจหรืออาจไม่ใช่คำตอบที่ดีแต่อย่างน้อยพวกเขาก็จะถูกดึงออกมาจากชุดของ "จำนวนคะแนนโหวต" ที่เป็นไปได้

แน่นอนว่าปัวซงมีปัญหาของตัวเอง: มันสันนิษฐานว่าค่าเฉลี่ยของตัวแปรการนับคะแนนจะเท่ากับความแปรปรวน ฉันไม่รู้ว่าจริง ๆ แล้วฉันเคยเห็นตัวอย่างที่ไม่ได้วางแผนไว้แล้วหรือไม่ซึ่งนี่เป็นเรื่องจริง โชคดีที่ผู้คนที่สดใสนั้นเกิดขึ้นพร้อมกับการแจกแจงอื่น ๆ ที่เป็นบวกและไม่ต่อเนื่อง แต่นั่นก็เป็นการเพิ่มพารามิเตอร์เพื่อให้ความแปรปรวน, er, แปรผัน (เช่นการถดถอยแบบทวินามลบ)

— แมตต์พาร์กเกอร์
แหล่งที่มา

5

$T = 1$ $\lambda$ $T = t$ $\lambda.t$ $\lambda.t$

พี (ยังไม่มีข้อความ = n) = \frac{(λ . เสื้อ)^{n} {อี}^{- λ . เสื้อ}}{n!}

$p(N=n) = \frac{(\lambda.t)^{n}e^{-\lambda.t}}{n!}$

ผ่านทางนี้และวิธีโอกาสสูงสุดและทั่วไปเส้นตรงรุ่น (หรือวิธีอื่น ๆ ) คุณมาถึงที่Poisson ถดถอย

กล่าวง่ายๆว่า Poisson Regression เป็นตัวแบบที่เหมาะสมกับสมมติฐานของกระบวนการสุ่มพื้นฐานที่สร้างเหตุการณ์จำนวนเล็กน้อยในอัตรา (เช่นจำนวนต่อหน่วยเวลา) ที่กำหนดโดยตัวแปรอื่น ๆ ในตัวแบบ

— Thylacoleo
แหล่งที่มา

3

คนอื่น ๆ มักจะพูดแบบเดียวกันกับที่ฉันจะไป แต่ฉันคิดว่าฉันจะเพิ่มสิ่งที่ฉันทำลงไป ขึ้นอยู่กับสิ่งที่คุณทำ แต่หลายครั้งเราชอบที่จะคิดปัญหา / ข้อมูลในมือ นี่เป็นวิธีที่แตกต่างกันเล็กน้อยเมื่อเทียบกับการสร้างแบบจำลองที่ทำนายได้ดี หากเราพยายามที่จะคิดในสิ่งที่เกิดขึ้นมันเป็นเรื่องสมเหตุสมผลที่จะสร้างแบบจำลองข้อมูลนับโดยใช้การแจกแจงแบบไม่ลบที่ทำให้มวลเป็นจำนวนเต็มเท่านั้น เรายังมีผลมากที่เป็นหลักต้มลงไปบอกว่าภายใต้เงื่อนไขบางนับข้อมูลจริงๆคือกระจายเป็นปัวซอง ดังนั้นหากเป้าหมายของเราคือการทำให้ปัญหาเกิดขึ้นจริงมันสมเหตุสมผลที่จะใช้ปัวซองเป็นตัวแปรตอบสนอง คนอื่น ๆ ได้ชี้เหตุผลอื่น ๆ ว่าทำไมจึงเป็นความคิดที่ดี แต่ถ้าคุณพยายามที่จะสร้างแนวคิดเกี่ยวกับปัญหาและเข้าใจว่าข้อมูลที่คุณเห็นสามารถสร้างขึ้นได้อย่างไรจากนั้นใช้การถดถอยแบบปัวซองทำให้รู้สึกในบางสถานการณ์

— Dason
แหล่งที่มา

2

ความเข้าใจของฉันเป็นหลักเพราะการนับมีค่าเป็นบวกและไม่ต่อเนื่อง Poisson สามารถสรุปข้อมูลดังกล่าวด้วยพารามิเตอร์เดียว สิ่งที่จับได้คือความแปรปรวนเท่ากับค่าเฉลี่ย