Преобразование объектов на входных данных

22

Я читал о решении этой проблемы OTTO Kaggle, и первое решение, кажется, использует несколько преобразований для входных данных X, например, Log (X + 1), sqrt (X + 3/8) и т. Д. Есть ли общее руководство о том, когда применять какие виды преобразований к различным классификаторам?

Я понимаю понятия нормализации среднего и минимального значений. Однако для приведенных выше преобразований я предполагаю, что Log и Sqrt используются для сжатия динамического диапазона данных. А сдвиг по оси X - это просто повторное центрирование данных. Тем не менее, автор выбирает использовать разные методы нормализации для одного и того же ввода X при подаче в разные классификаторы. Любые идеи?

machine-learning feature-extraction feature-scaling

— terenceflow
источник

1

Не знаю, что может предложить такие формулы, но вы можете посмотреть на преобразования Бокса-Кокса, которые предлагают показатели для переменных.

— anymous.asker

19

Мы любим нормальную форму

В большинстве случаев мы стараемся заставить их вести себя как обычно. Не с точки зрения классификаторов, а с точки зрения извлечения признаков!

Какая трансформация ?

Основной критерий выбора трансформации: что работает с данными? Как показывают приведенные выше примеры, важно рассмотреть также два вопроса.

Что имеет физический (биологический, экономический и т. Д.) Смысл, например, с точки зрения ограничения поведения, когда ценности становятся очень маленькими или очень большими? Этот вопрос часто приводит к использованию логарифмов.

Можем ли мы сохранить размеры и единицы просто и удобно? Если возможно, мы предпочитаем шкалы измерений, о которых легко думать.

Кубический корень объема и квадратный корень области имеют размеры длины, поэтому такие преобразования могут не упростить их, поэтому они не являются сложными. Взаимные ссылки обычно имеют простые единицы, как упоминалось ранее. Часто, однако, несколько сложных юнитов - это жертва, которая должна быть принесена.

Когда использовать что ?

Наиболее полезными преобразованиями при вводном анализе данных являются обратные значения, логарифм, корень куба, квадратный корень и квадрат. В дальнейшем, даже если это не подчеркнуто, предполагается, что преобразования используются только в диапазонах, в которых они дают (конечные) действительные числа в качестве результатов.

Взаимное : обратное, x к 1 / x, с его родным отрицательным обратным, x к -1 / x, является очень сильным преобразованием с сильным влиянием на форму распределения. Это не может быть применено к нулевым значениям. Хотя это может быть применено к отрицательным значениям, это не полезно, если все значения не являются положительными. Обратная величина отношения часто может интерпретироваться так же легко, как и само соотношение: Пример:
- плотность населения (человек на единицу площади) становится площадью на человека
- человек на доктора становится доктором на человека
- скорость эрозии становится временем, чтобы разрушить единицу глубины

(На практике мы можем захотеть умножить или разделить результаты взятия обратной величины на некоторую константу, такую как 1000 или 10000, чтобы получить числа, которыми легко управлять, но которые сами по себе не влияют на асимметрию или линейность.)

Взаимный обратный порядок среди значений одного знака: наибольшее становится наименьшим и т. Д. Отрицательный обратный порядок сохраняет порядок среди значений одного знака.

Логарифм : логарифм, x log ₁₀ x, или x log _{ex или ln x, или x log 2} x, является сильным преобразованием, оказывающим значительное влияние на форму распределения. Это обычно используется для уменьшения правильной асимметрии и часто подходит для измеряемых переменных. Его нельзя применять к нулевым или отрицательным значениям. Одна единица в логарифмическом масштабе означает умножение на базу используемых логарифмов. Экспоненциальный рост или снижение.
- $y = a exp (bx)$

$ln y = ln a + bx$ $x = 0$ $y = a exp(0) = a$ так что a - это количество или число, когда x = 0. Если a и b> 0, то y растет все быстрее и быстрее (например, сложный процент или неконтролируемый рост населения), тогда как если a> 0 и b <0, y снижается все медленнее и медленнее (например, радиоактивный распад).

Силовые функции :
$y = ax^b$ $log y = log a + b log x$
$x = 0$ $b > 0$
$y = ax^b = 0$
- Рассмотрим отношения y = p / q, где p и q оба являются положительными на практике.
Примеры:
- Мужчины / женщины
- Иждивенцы / рабочие
- Длина вниз по течению / длина вниз
Тогда у находится где-то между 0 и бесконечностью, или, в последнем случае, между 1 и бесконечностью. Если p = q, то y = 1. Такие определения часто приводят к искаженным данным, поскольку существует четкий нижний предел и отсутствует четкий верхний предел. Логарифм, однако, а именно
log y = log p / q = log p - log q, находится где-то между -infinity и бесконечностью, а p = q означает, что log y = 0. Следовательно, логарифм такого отношения, вероятно, будет более симметрично распределенным.

Корень куба: корень куба, х ^1/3 . Это довольно сильное преобразование, существенно влияющее на форму распределения: оно слабее, чем логарифм. Он также используется для уменьшения правильной асимметрии и имеет то преимущество, что его можно применять к нулевым и отрицательным значениям. Обратите внимание, что корень куба тома имеет единицы длины. Это обычно применяется к данным об осадках.
- Применимость к отрицательным значениям требует специального примечания. Рассмотрим
  (2) (2) (2) = 8 и (-2) (- 2) (- 2) = -8. Эти примеры показывают, что
  корень куба отрицательного числа имеет отрицательный знак и такое же
  абсолютное значение, как корень куба эквивалентного положительного числа. Сходным свойством обладает любой другой корень, сила которого является
  обратной величиной с нечетным положительным целым числом (степени 1/3, 1/5, 1/7 и т. Д.)
- Это свойство немного деликатно. Например, измените мощность только на smidgen с 1/3, и мы больше не можем определять результат как произведение точно трех терминов. Тем не менее, свойство может быть использовано, если полезно.

$x^(1/2)$

Квадратики обычно используются исключительно потому, что они могут имитировать
отношения внутри области данных. За пределами этой области они могут
вести себя очень плохо, потому что они принимают сколь угодно большие значения для экстремальных значений x, и если точка пересечения a не ограничена значением 0, они могут вести себя нереально близко к источнику.
- $(-x)^2$ $x^2$

— Хади Гариби
источник

спасибо за пост. действительно полезно. Можете ли вы дополнить его некоторыми примерами и рисунками, показывающими, как он преобразует исходные данные в разделяемые данные?

— Mvkt

1

@svk: Я только что отформатировал это так, что это понятно, я думаю, что Хади был человеком, который написал ответ. Если мое предположение верно, он мог бы скопировать из какой-нибудь книги. Посмотрим, ответит ли он / предложит что-нибудь.

— Еще

2

как сказал @ Toros91, это комбинация из разных источников, я настоятельно рекомендую посмотреть, как выиграть в конкурсе Data Science: учиться у лучших Kagglers, а также в stata docs

— хади гариби,

Alrite. хотя один из вас может опубликовать пример кода на python или matlab о том, как преобразовать оси x в sq.root или масштаб кубического корня. Matlab имеет график журнала для масштаба журнала. но для других масштабов было бы полезно иметь график с этими преобразованными осями

— Mvkt

1

Эти конкретные могут быть чисто эвристическими. Для изображений это довольно стандартно: измените RGB на BGR и вычтите среднее значение из каждого пикселя. Это используется во всех конкурсах / наборах данных, таких как Imagenet, Pascal VOC, MS COCO. Причина в том, что сеть представлена стандартизированным набором данных, поскольку все изображения могут быть очень разными.

— Alex
источник

0

То же самое и здесь - понятия не имею, такого раньше не видел. Я предполагаю, что они попробовали различные преобразования и выбрали тот, который работал лучше всего. Так как в отчете говорится, что некоторые другие трансформации тоже подойдут.

— Tobi
источник