Можно ли оценить GLM в Python / scikit-learn, используя распределения Пуассона, Гаммы или Твиди как семейство для распределения ошибок?


12

Пытаюсь выучить немного Python и Sklearn, но для своей работы мне нужно запустить регрессии, которые используют распределения ошибок из семейств Пуассона, Гаммы и особенно семейства Твиди.

Я ничего не вижу в документации о них, но они есть в нескольких частях дистрибутива R, поэтому мне было интересно, видел ли кто-нибудь где-нибудь реализации для Python. Было бы здорово, если бы вы указали мне на реализации SGD дистрибутива Tweedie!


Наиболее надежные реализации GLM в Python находятся в [statsmodels] statsmodels.sourceforge.net, хотя я не уверен, есть ли реализации SGD.
Трей

Спасибо Трей. Похоже, что Tweedie не поддерживает, но они обсуждают распределения Пуассона и Гаммы.
Джо

Ответы:


13

В scikit-learn есть движение к реализации обобщенных линейных моделей с распределениями ошибок Пуассона, Гаммы и Твиди.

Statsmodels имеет реализации обобщенных линейных моделей с распределениями Пуассона, Твиди и гамма-ошибок.

В то время как я обновляю этот ответ, Spark ML также (экспериментально) поддерживает распределения Пуассона, Твиди и гаммы.


5
Я работаю над этим: github.com/madrury/py-glm
Мэтью Друри,

@MatthewDrury Круто!
Нил

@ MatthewDrury приятно! Я только начал использовать GLM, и у statsmodels есть некоторые ограничения. Не уверен, что я полностью понимаю математику, но может ли ваше внутреннее решение быть заменено произвольным решателем типа наименьших квадратов? Я думал, что это добавит гибкости (например, перейдите в sklearn.ElasticNet, чтобы получить масштабируемость / регуляризацию / и т. Д. "Бесплатно"?).
GeoMatt22

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.