t-распределенное стохастическое вложение соседей (t-SNE) - это ( выигрышный ) метод уменьшения размерности, который особенно хорошо подходит для визуализации многомерных наборов данных.
Это звучит довольно здорово, но об этом говорит автор.
Еще одна цитата автора (относительно вышеупомянутого конкурса):
Что вы отобрали у этого конкурса?
Всегда сначала визуализируйте свои данные, прежде чем начинать обучать предикторов этим данным! Часто визуализации, подобные тем, которые я сделал, дают представление о распределении данных, которые могут помочь вам определить, какие типы моделей прогнозирования следует использовать.
Информация должна 1 быть утрачивается - это сокращение размерности метод Afterall. Однако, поскольку это хороший метод для использования при визуализации, потерянная информация менее ценна, чем выделенная информация (/ сделана видимой / понятной благодаря уменьшению до 2 или 3 измерений).
Итак, мой вопрос:
- Когда tSNE не подходит для работы?
- Какие наборы данных не работают,
- На какие вопросы он может ответить, но на самом деле не может?
- Во второй цитате выше рекомендуется всегда визуализировать ваш набор данных, должна ли эта визуализация всегда выполняться с помощью tSNE?
Я ожидаю, что на этот вопрос лучше всего ответить в обратном порядке, т.е. ответить: когда tSNE - подходящий инструмент для работы?
Меня предупредили, чтобы я не полагался на tSNE, чтобы сказать мне, как легко классифицировать данные (разделить на классы - дискриминирующая модель). Примером вводящей в заблуждение информации было то, что для двух изображений, приведенных ниже, порождающая модель 2 была хуже для данных, визуализированных в первом / левом (точность 53,6%), чем эквивалентные для второго / правого (точность 67,2%).
1 Я могу ошибаться, я могу сесть и попробовать на контрольном примере позже
2 заметим , что порождающая модель не то же самое , как discriminitive модели, но это пример , который я получил.