Какая польза от t-SNE, кроме визуализации данных?


12

В каких ситуациях мы должны использовать t-SNE (кроме визуализации данных)?

T-SNE используется для уменьшения размерности. Ответ на этот вопрос предполагает, что t-SNE следует использовать только для визуализации, и что мы не должны использовать его для кластеризации. Тогда какая польза от t-SNE?


6
Стандартный совет - НЕ использовать tsne для кластеризации, потому что кластеры так сильно зависят от сложности. Предполагается, что он будет использоваться только для «визуализации». Но это не очень понятно для меня, так как каждый сразу ищет (и видит) кластеры, когда смотрит на график. Поэтому ваш вопрос хороший: для чего это хорошо?
generic_user

2
Смотрите ответ на этот вопрос, который я задал: stats.stackexchange.com/questions/263539/…
generic_user

как сказал @generic_user, я хочу узнать о преимуществах t-sne, помимо их визуализации.
Вулф

Я не знаю, почему это было закрыто как дубликат. OP спрашивает, каковы хорошие применения t-sne, кроме визуализации. Связанный поток - все о кластеризации. Но могут быть и другие варианты использования.
amoeba

Ответы:


4

Ответ на этот вопрос предполагает, что t-SNE следует использовать только для визуализации, и что мы не должны использовать его для кластеризации. Тогда какая польза от t-SNE?

Я не согласен с этим выводом. Нет оснований предполагать, что t-SNE универсально хуже любого другого алгоритма кластеризации. Каждый алгоритм кластеризации делает предположения о структуре данных, и можно ожидать, что они будут работать по-разному в зависимости от базового распределения и конечного использования уменьшенной размерности.

t-SNE, как и многие неконтролируемые алгоритмы обучения, часто предоставляют средства для достижения цели, например, получение раннего представления о том, являются ли данные разделимыми, проверка их наличия некоторой идентифицируемой структуры и проверка характера этой структуры. Не нужно визуализировать вывод t-SNE, чтобы начать отвечать на некоторые из этих вопросов. Другие применения вложений меньшего размера включают в себя функции построения для классификации или избавления от мультиколлинеарности для повышения эффективности методов прогнозирования.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.