2
Эффективное уменьшение размерности для большого набора данных
У меня есть набор данных с ~ 1M строк и ~ 500K разреженных объектов. Я хочу уменьшить размерность до порядка 1K-5K плотных объектов. sklearn.decomposition.PCAне работает с разреженными данными, и я пытался использовать, sklearn.decomposition.TruncatedSVDно получаю ошибку памяти довольно быстро. Каковы мои варианты эффективного уменьшения размерности в этом масштабе?