Выбор гиперпараметров с использованием T-SNE для классификации

13

В качестве специфической задачи, с которой я работаю (соревнование), у меня есть следующие настройки: 21 функция (числовое на [0,1]) и двоичный выход. У меня около 100 К рядов. Настройка кажется очень шумной.

Я и другие участники на какое-то время применяем генерацию признаков, и встраивание стохастических соседей с t-распределением оказалось довольно мощным в этой ситуации.

Я наткнулся на этот пост «Как эффективно использовать t-SNE», но все же я не могу сделать вывод о том, как выбрать гиперпараметры лучше всего в моей настройке классификации.

Существуют ли какие-либо практические правила (количество функций, размерность вложения -> выбор недоумения)?

Я просто применяю специальные настройки в данный момент, так как для итерации различных настроек требуется слишком много времени. Спасибо за любые комментарии.

— Ric
источник

Это большой вопрос! Надеюсь, кто-то посчитает мой ответ достаточно тусклым, поэтому вы получите другой ответ (и я тоже узнаю что-то новое).

— usεr11852

17

$t$

$t$ -SNE пытается минимизировать сумму расхождений Кульбака-Лейблера между распределением расстояний между данными в исходной области и распределением расстояний между данными в области уменьшенных измерений (фактически целевые распределения являются распределениями вероятность того, что точка выберет другую точку в качестве соседа, но они прямо пропорциональны расстоянию между двумя точками). Можно утверждать, что меньшие значения KL-дивергенции показывают лучшие результаты. Эта идея не очень хорошо работает на практике, но теоретически она поможет исключить некоторые диапазоны значений недоумения, а также некоторые прогоны алгоритма, которые явно неоптимальны. Я объясняю, почему эта эвристика далека от панацеи и как она может быть слегка полезна: Параметр растерянности монотонно возрастает с дисперсией гауссиана, используемой для расчета расстояний / вероятностей. Поэтому при увеличении параметра растерянности в целом вы будете получать меньшие расстояния в абсолютном выражении и последующих значениях KL-дивергенции. Тем не менее, если у вас есть 20 пробежек с одинаковым недоумением, и вы не можете (не хотите) смотреть на них, вы всегда можете выбрать ту, которая имеет наименьшую переменную, надеясь, что она с большей точностью сохраняет исходные расстояния. То же самое касается Тем не менее, если у вас есть 20 пробежек с одинаковым недоумением, и вы не можете (не хотите) смотреть на них, вы всегда можете выбрать ту, которая имеет наименьшую переменную, надеясь, что она с большей точностью сохраняет исходные расстояния. То же самое касается Тем не менее, если у вас есть 20 пробежек с одинаковым недоумением, и вы не можете (не хотите) смотреть на них, вы всегда можете выбрать ту, которая имеет наименьшую переменную, надеясь, что она с большей точностью сохраняет исходные расстояния. То же самое касается $\theta$ $\theta$

$k$ $k$ $t$ $t$ -SNE использовался в первую очередь, в конце концов, если результирующее представление неинформативно для исследуемых нами свойств, тогда оно просто бесполезно, несмотря на низкую ошибку реконструкции, визуальную привлекательность и т. Д.

Позвольте мне указать, что я описываю эвристику . Как упоминалось в начале моего поста, ручная проверка результатов является незаменимым способом оценки качества результирующего сокращения / кластеризации размерности.

— usεr11852
источник

Спасибо тебе за это. Интересна идея индекса того, насколько кластеризация соответствует классификации.

— Рик

4

Мы обычно устанавливаем недоумение в 5% от размера набора данных. Поэтому для набора данных со 100К строк я бы начал с недоумения в 5000 или, по крайней мере, 1000, если у вас нет высокопроизводительного компьютера. Наши наборы данных взяты из анализа проточной цитометрией, они обычно имеют от 50 до 500 тыс. Точек данных, каждая из которых имеет от 10 до 20 числовых значений.

— Джеймс Ли
источник

4

Для вас может быть интересно взглянуть на «Автоматический выбор недоумения t-SNE» Цао и Вана :

t-распределенное стохастическое вложение соседей (t-SNE) - один из наиболее широко используемых методов уменьшения размерности для визуализации данных, но он имеет гиперпараметр недоумения, который требует ручного выбора. На практике правильная настройка растерянности t-SNE требует от пользователей понимания внутренней работы метода, а также наличия практического опыта. Мы предлагаем цель выбора модели для растерянности t-SNE, которая требует незначительных дополнительных вычислений помимо вычислений самого t-SNE. Мы эмпирически проверяем, что параметры недоумения, найденные нашим подходом, соответствуют предпочтениям, выявленным специалистами-людьми по ряду наборов данных. Также анализируются сходства нашего подхода к байесовским информационным критериям (BIC) и минимальной длине описания (MDL).

— pisistrato
источник

2

Какие были выводы ..?

— Тим

1

S (P e r p l e x .) = 2 K L (P | | Q) + \log (n) \frac{P e r l e x .}{n}

$S(Perplex.) = 2KL(P||Q) + \log(n)\frac{Perlex.}{n}$ (Но +1 в комментариях Тима, реферат статьи далек от полного ответа; пожалуйста, попробуйте составить ответ, который не

— требует