ฉันเข้าใจว่าสำหรับชุดข้อมูลบางอย่างเช่นการลงคะแนนจะทำงานได้ดีขึ้น เหตุใดการถดถอยของปัวซองจึงใช้กับการถดถอยเชิงเส้นปกติหรือการถดถอยโลจิสติก แรงจูงใจทางคณิตศาสตร์สำหรับมันคืออะไร?
ฉันเข้าใจว่าสำหรับชุดข้อมูลบางอย่างเช่นการลงคะแนนจะทำงานได้ดีขึ้น เหตุใดการถดถอยของปัวซองจึงใช้กับการถดถอยเชิงเส้นปกติหรือการถดถอยโลจิสติก แรงจูงใจทางคณิตศาสตร์สำหรับมันคืออะไร?
คำตอบ:
ข้อมูลแบบกระจายของปัวซองนั้นมีค่าเป็นจำนวนเต็มซึ่งมีเหตุผลสำหรับการนับข้อมูล Ordinary Least Squares (OLS ซึ่งคุณเรียกว่า "การถดถอยเชิงเส้น") ถือว่าปกติแล้วค่าจริงจะถูกกระจายไปรอบ ๆ ค่าที่คาดหวังและสามารถรับค่าจริงใด ๆ บวกหรือลบจำนวนเต็มหรือเศษส่วนอะไรก็ตาม ในที่สุดการถดถอยโลจิสติกจะทำงานกับข้อมูลที่มีค่า 0-1 (มูลค่า TRUE-FALSE) เท่านั้นเช่น "มีโรค" เมื่อเทียบกับ "ไม่มีโรค" ดังนั้นการแจกแจงปัวซงจึงเหมาะสมที่สุดสำหรับการนับข้อมูล
ที่กล่าวว่าการแจกแจงแบบปกติมักเป็นการประมาณที่ดีสำหรับปัวซองสำหรับข้อมูลที่มีค่าเฉลี่ยสูงกว่า 30 หรือมากกว่านั้น และในกรอบการถดถอยที่คุณมีผู้ทำนายที่มีอิทธิพลต่อการนับ OLS ที่มีการแจกแจงแบบปกติอาจจะง่ายกว่าและเหมาะสมกว่าโดยทั่วไปเนื่องจากการแจกแจงและการถดถอยของปัวซองถือว่าค่าเฉลี่ยและความแปรปรวนเท่ากันในขณะที่ OLS สามารถจัดการด้วยวิธีการที่ไม่เท่าเทียมกันและความแปรปรวน - สำหรับรูปแบบข้อมูลนับด้วยวิธีการที่แตกต่างกันและต่างคนหนึ่งสามารถใช้การแจกแจงแบบทวินามเชิงลบเช่น
โดยพื้นฐานแล้วเป็นเพราะการถดถอยเชิงเส้นและลอจิสติกทำให้สมมติฐานผิดประเภทเกี่ยวกับผลลัพธ์ที่นับ ลองนึกภาพโมเดลของคุณในฐานะหุ่นยนต์ที่โง่มากที่จะทำตามคำสั่งของคุณอย่างไม่หยุดยั้งไม่ว่าคำสั่งเหล่านั้นไร้สาระจะเป็นอย่างไร มันไม่มีความสามารถในการประเมินสิ่งที่คุณบอกได้อย่างสมบูรณ์ หากคุณบอกหุ่นยนต์ของคุณว่ามีการกระจายการโหวตอย่างต่อเนื่องตั้งแต่อนันต์ไปจนถึงอินฟินิตี้นั่นคือสิ่งที่เชื่อว่าการโหวตนั้นเป็นแบบนั้นและอาจให้การคาดคะเนแบบไร้สาระของคุณ (Ross Perot
ในทางกลับกันการแจกแจงปัวซงนั้นไม่ต่อเนื่องและเป็นบวก (หรือศูนย์ ... นับเป็นบวกใช่หรือไม่) อย่างน้อยที่สุดสิ่งนี้จะบังคับให้หุ่นยนต์ของคุณให้คำตอบที่อาจเกิดขึ้นจริงในชีวิตจริง พวกเขาอาจหรืออาจไม่ใช่คำตอบที่ดีแต่อย่างน้อยพวกเขาก็จะถูกดึงออกมาจากชุดของ "จำนวนคะแนนโหวต" ที่เป็นไปได้
แน่นอนว่าปัวซงมีปัญหาของตัวเอง: มันสันนิษฐานว่าค่าเฉลี่ยของตัวแปรการนับคะแนนจะเท่ากับความแปรปรวน ฉันไม่รู้ว่าจริง ๆ แล้วฉันเคยเห็นตัวอย่างที่ไม่ได้วางแผนไว้แล้วหรือไม่ซึ่งนี่เป็นเรื่องจริง โชคดีที่ผู้คนที่สดใสนั้นเกิดขึ้นพร้อมกับการแจกแจงอื่น ๆ ที่เป็นบวกและไม่ต่อเนื่อง แต่นั่นก็เป็นการเพิ่มพารามิเตอร์เพื่อให้ความแปรปรวน, er, แปรผัน (เช่นการถดถอยแบบทวินามลบ)
ผ่านทางนี้และวิธีโอกาสสูงสุดและทั่วไปเส้นตรงรุ่น (หรือวิธีอื่น ๆ ) คุณมาถึงที่Poisson ถดถอย
กล่าวง่ายๆว่า Poisson Regression เป็นตัวแบบที่เหมาะสมกับสมมติฐานของกระบวนการสุ่มพื้นฐานที่สร้างเหตุการณ์จำนวนเล็กน้อยในอัตรา (เช่นจำนวนต่อหน่วยเวลา) ที่กำหนดโดยตัวแปรอื่น ๆ ในตัวแบบ
คนอื่น ๆ มักจะพูดแบบเดียวกันกับที่ฉันจะไป แต่ฉันคิดว่าฉันจะเพิ่มสิ่งที่ฉันทำลงไป ขึ้นอยู่กับสิ่งที่คุณทำ แต่หลายครั้งเราชอบที่จะคิดปัญหา / ข้อมูลในมือ นี่เป็นวิธีที่แตกต่างกันเล็กน้อยเมื่อเทียบกับการสร้างแบบจำลองที่ทำนายได้ดี หากเราพยายามที่จะคิดในสิ่งที่เกิดขึ้นมันเป็นเรื่องสมเหตุสมผลที่จะสร้างแบบจำลองข้อมูลนับโดยใช้การแจกแจงแบบไม่ลบที่ทำให้มวลเป็นจำนวนเต็มเท่านั้น เรายังมีผลมากที่เป็นหลักต้มลงไปบอกว่าภายใต้เงื่อนไขบางนับข้อมูลจริงๆคือกระจายเป็นปัวซอง ดังนั้นหากเป้าหมายของเราคือการทำให้ปัญหาเกิดขึ้นจริงมันสมเหตุสมผลที่จะใช้ปัวซองเป็นตัวแปรตอบสนอง คนอื่น ๆ ได้ชี้เหตุผลอื่น ๆ ว่าทำไมจึงเป็นความคิดที่ดี แต่ถ้าคุณพยายามที่จะสร้างแนวคิดเกี่ยวกับปัญหาและเข้าใจว่าข้อมูลที่คุณเห็นสามารถสร้างขึ้นได้อย่างไรจากนั้นใช้การถดถอยแบบปัวซองทำให้รู้สึกในบางสถานการณ์
ความเข้าใจของฉันเป็นหลักเพราะการนับมีค่าเป็นบวกและไม่ต่อเนื่อง Poisson สามารถสรุปข้อมูลดังกล่าวด้วยพารามิเตอร์เดียว สิ่งที่จับได้คือความแปรปรวนเท่ากับค่าเฉลี่ย