Я хочу сделать кластеризацию k-средних на множестве 10-мерных точек. Подвох: 10 ^ 10 баллов .
Я ищу только центр и размер самых больших кластеров (скажем, от 10 до 100 кластеров); Меня не волнует, в каком кластере заканчивается каждая точка. Использование k-средних определенно не важно; Я просто ищу подобный эффект, любой приблизительный k-средних или связанный алгоритм был бы хорош (минибат-SGD означает, ...). Поскольку GMM в некотором смысле является той же проблемой, что и k-means, выполнение GMM для данных того же размера также интересно.
В этом масштабе субсэмплирование данных, вероятно, существенно не меняет результат: шансы найти те же самые топ-10 кластеров с использованием 1/10000-й выборки данных очень хороши. Но даже тогда это проблема из 10 ^ 6 баллов, которая находится на грани проходимости.