Мы любим нормальную форму
В большинстве случаев мы стараемся заставить их вести себя как обычно. Не с точки зрения классификаторов, а с точки зрения извлечения признаков!
Какая трансформация ?
Основной критерий выбора трансформации: что работает с данными? Как показывают приведенные выше примеры, важно рассмотреть также два вопроса.
Что имеет физический (биологический, экономический и т. Д.) Смысл, например, с точки зрения ограничения поведения, когда ценности становятся очень маленькими или очень большими? Этот вопрос часто приводит к использованию логарифмов.
Можем ли мы сохранить размеры и единицы просто и удобно? Если возможно, мы предпочитаем шкалы измерений, о которых легко думать.
Кубический корень объема и квадратный корень области имеют размеры длины, поэтому такие преобразования могут не упростить их, поэтому они не являются сложными. Взаимные ссылки обычно имеют простые единицы, как упоминалось ранее. Часто, однако, несколько сложных юнитов - это жертва, которая должна быть принесена.
Когда использовать что ?
Наиболее полезными преобразованиями при вводном анализе данных являются обратные значения, логарифм, корень куба, квадратный корень и квадрат. В дальнейшем, даже если это не подчеркнуто, предполагается, что преобразования используются только в диапазонах, в которых они дают (конечные) действительные числа в качестве результатов.
- Взаимное : обратное, x к 1 / x, с его родным отрицательным обратным, x к -1 / x, является очень сильным преобразованием с сильным влиянием на форму распределения. Это не может быть применено к нулевым значениям. Хотя это может быть применено к отрицательным значениям, это не полезно, если все значения не являются положительными. Обратная величина отношения часто может интерпретироваться так же легко, как и само соотношение: Пример:
- плотность населения (человек на единицу площади) становится площадью на человека
- человек на доктора становится доктором на человека
- скорость эрозии становится временем, чтобы разрушить единицу глубины
(На практике мы можем захотеть умножить или разделить результаты взятия обратной величины на некоторую константу, такую как 1000 или 10000, чтобы получить числа, которыми легко управлять, но которые сами по себе не влияют на асимметрию или линейность.)
Взаимный обратный порядок среди значений одного знака: наибольшее становится наименьшим и т. Д. Отрицательный обратный порядок сохраняет порядок среди значений одного знака.
Логарифм : логарифм, x log 10 x, или x log ex или ln x, или x log 2 x, является сильным преобразованием, оказывающим значительное влияние на форму распределения. Это обычно используется для уменьшения правильной асимметрии и часто подходит для измеряемых переменных. Его нельзя применять к нулевым или отрицательным значениям. Одна единица в логарифмическом масштабе означает умножение на базу используемых логарифмов. Экспоненциальный рост или снижение.
- Y= а е х р ( б х )
l n y= l n a + b xх = 0Y= а е х р ( 0 ) = а так что a - это количество или число, когда x = 0. Если a и b> 0, то y растет все быстрее и быстрее (например, сложный процент или неконтролируемый рост населения), тогда как если a> 0 и b <0, y снижается все медленнее и медленнее (например, радиоактивный распад).
- Силовые функции :
Y= Хбл о гY= Л о га + б л о гИкс
х = 0б > 0
Y= Хб= 0
- Рассмотрим отношения y = p / q, где p и q оба являются положительными на практике.
Примеры:
- Мужчины / женщины
- Иждивенцы / рабочие
- Длина вниз по течению / длина вниз
Тогда у находится где-то между 0 и бесконечностью, или, в последнем случае, между 1 и бесконечностью. Если p = q, то y = 1. Такие определения часто приводят к искаженным данным, поскольку существует четкий нижний предел и отсутствует четкий верхний предел. Логарифм, однако, а именно
log y = log p / q = log p - log q, находится где-то между -infinity и бесконечностью, а p = q означает, что log y = 0. Следовательно, логарифм такого отношения, вероятно, будет более симметрично распределенным.
Корень куба: корень куба, х 1/3 . Это довольно сильное преобразование, существенно влияющее на форму распределения: оно слабее, чем логарифм. Он также используется для уменьшения правильной асимметрии и имеет то преимущество, что его можно применять к нулевым и отрицательным значениям. Обратите внимание, что корень куба тома имеет единицы длины. Это обычно применяется к данным об осадках.
Применимость к отрицательным значениям требует специального примечания. Рассмотрим
(2) (2) (2) = 8 и (-2) (- 2) (- 2) = -8. Эти примеры показывают, что
корень куба отрицательного числа имеет отрицательный знак и такое же
абсолютное значение, как корень куба эквивалентного положительного числа. Сходным свойством обладает любой другой корень, сила которого является
обратной величиной с нечетным положительным целым числом (степени 1/3, 1/5, 1/7 и т. Д.)
Это свойство немного деликатно. Например, измените мощность только на smidgen с 1/3, и мы больше не можем определять результат как произведение точно трех терминов. Тем не менее, свойство может быть использовано, если полезно.
- Икс2
Y= a + b x + c x2
Квадратики обычно используются исключительно потому, что они могут имитировать
отношения внутри области данных. За пределами этой области они могут
вести себя очень плохо, потому что они принимают сколь угодно большие значения для экстремальных значений x, и если точка пересечения a не ограничена значением 0, они могут вести себя нереально близко к источнику.