เป็นไปได้หรือไม่ที่จะประเมิน GLM ใน Python / scikit-learn โดยใช้การแจกแจงแบบปัวซอง, แกมม่าหรือทวีดเป็นครอบครัวสำหรับการแจกแจงข้อผิดพลาด?


13

พยายามเรียนรู้ Python และ Sklearn แต่สำหรับงานของฉันฉันต้องเรียกใช้ regressions ที่ใช้การแจกแจงข้อผิดพลาดจาก Poisson, Gamma และโดยเฉพาะอย่างยิ่งตระกูล Tweedie

ฉันไม่เห็นอะไรเลยในเอกสารเกี่ยวกับพวกเขา แต่พวกเขาอยู่ในหลายส่วนของการกระจาย R ดังนั้นฉันจึงสงสัยว่ามีใครเห็นการใช้งานที่ใดก็ได้สำหรับ Python มันจะเจ๋งมากถ้าคุณสามารถชี้ให้ฉันเห็นการใช้งานการกระจาย Tweedie ของ SGD!


การใช้งาน GLM ที่แข็งแกร่งที่สุดใน Python อยู่ใน [statsmodels] statsmodels.sourceforge.net ถึงแม้ว่าฉันไม่แน่ใจว่ามีการใช้งาน SGD หรือไม่
แต้ม

ขอบคุณแต้ม ดูเหมือนว่าไม่มีการสนับสนุน Tweedie แต่พวกเขามีการอภิปรายเกี่ยวกับการกระจาย Poisson และ Gamma
joe

คำตอบ:


13

มีการเคลื่อนไหวเพื่อใช้โมเดลเชิงเส้นทั่วไปกับการแจกแจงข้อผิดพลาดปัวซอง, แกมม่าและ Tweedie ใน scikit- เรียนรู้

Statsmodelsมีการใช้งานโมเดลเชิงเส้นทั่วไปพร้อมการแจกแจงแบบปัวซอง, ทวีดและแกมม่า

ในขณะที่ฉันกำลังอัปเดตคำตอบนี้Spark MLยัง (ทดลอง) สนับสนุนการกระจาย Poisson, Tweedie และแกมม่า


5
ฉันกำลังทำอยู่: github.com/madrury/py-glm
Matthew Drury

@MatthewDrury สุดยอด!
Neal

@ MatthewDrury ดี! ฉันเพิ่งเริ่มใช้ GLM และstatsmodelsมีข้อ จำกัด บางประการ ไม่แน่ใจว่าฉันเข้าใจคณิตศาสตร์อย่างถ่องแท้ แต่สามารถแก้ปัญหาภายในของคุณด้วยตัวแก้รูปแบบกำลังสองน้อยที่สุดได้หรือไม่? ฉันคิดว่ามันจะเพิ่มความยืดหยุ่น (เช่น pass ในsklearn.ElasticNetเพื่อให้ได้ scalability / normalization / etc "ฟรี"?)
GeoMatt22

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.