Из статьи Хинтона я понимаю, что T-SNE хорошо справляется с сохранением локального сходства и достойной работой по сохранению глобальной структуры (кластеризация).
Однако я не уверен, можно ли считать точки, появляющиеся ближе в 2D-визуализации t-sne, «более похожими» точками данных. Я использую данные с 25 функциями.
В качестве примера, наблюдая за изображением ниже, могу ли я предположить, что синие точки данных больше похожи на зеленые, особенно на самый большой кластер зеленых точек ?. Или, спрашивая по-другому, можно ли предположить, что синие точки больше похожи на зеленые в ближайшем кластере, чем на красные в другом кластере? (без учета зеленых точек в кластере красных пятен)
Наблюдая за другими примерами, такими как те, что представлены в sci-kit, изучают изучение Manifold, кажется правильным принять это, но я не уверен, является ли статистически верным.
РЕДАКТИРОВАТЬ
Я рассчитал расстояния от исходного набора данных вручную (среднее попарно евклидово расстояние), и визуализация фактически представляет собой пропорциональное пространственное расстояние относительно набора данных. Тем не менее, я хотел бы знать, приемлемо ли это ожидать от исходной математической формулировки t-sne, а не от простого совпадения.