Преобразование крайне искаженных распределений


13

Предположим, что у меня есть переменная, распределение которой искажено положительно в очень высокой степени, так что взятия бревна будет недостаточно, чтобы привести его в диапазон асимметрии для нормального распределения. Какие у меня варианты на данный момент? Что я могу сделать, чтобы преобразовать переменную в нормальное распределение?


2
Просто чтобы убедиться, что «перекос отрицательный» означает длинный хвост, указывающий влево или вправо? Если это действительно искажено отрицательно (длинный хвост оставлен), преобразование журнала не будет работать очень хорошо.
Penguin_Knight

6
Взаимное преобразование сильнее логарифмического и часто сохраняет значение, поскольку единицы измерения просто инвертированы. Например, обратная связь времени для совершения чего-либо - это своего рода скорость, и наоборот. Обратная миль на галлон или км на литр имеет смысл. Взаимные обратные порядки инвертируют порядок и могут быть отменены, если это предпочтительнее. Они, естественно, являются частью схемы Бокса-Кокса с такими дополнительными деталями. Все значения должны быть положительными, чтобы это работало хорошо. (В принципе, он будет работать со всеми отрицательными значениями, но я еще не видел пример на практике.)
Ник Кокс

2
пер(пер())>1пер(пер(0.7))пер(пер(7))можно сделать, потому что я использую мм. (Эти логарифмы дают сложные результаты для отрицательных аргументов, которые я не думаю, статистически помогает.)
Ник Кокс

2
@Aksakal Слишком твердо сказать, что «преобразование журналов - не инструмент для устранения асимметрии»: если асимметрия является единственной проблемой, журналы часто работают очень хорошо. Если вы считаете, что асимметрия маргинальных распределений не должна быть серьезной проблемой, я склонен согласиться.
Ник Кокс

3
Я естественно согласен, но если бы я использовал квадраты или логарифмы, я бы не чувствовал себя обязанным предлагать ссылки, и аналогично здесь. Но полезность взаимных оценок, особенно времени и скорости, была подчеркнута (например, Тьюки, JW 1977). Анализ поисковых данных. Рединг, Массачусетс: Эддисон-Уэсли и несколько его работ. Мили на галлон и галлоны на милю (или наоборот, литры на километры и километры на литр) являются обычным местом при обсуждении данных о производительности автомобилей. Плотности и их взаимные величины являются довольно стандартными примерами в географии и демографии.
Ник Кокс

Ответы:


13

λ , New York: Oxford University Press.

Это очень легко реализовать с помощью функции LL, или если у вас есть пакет stat, такой как SAS или MATLAB, используйте их команды: это команда boxcox в MATLAB и PROC TRANSREG в SAS.

Также в R это в пакете MASS, функция boxcox ().


5

Для положительного перекоса (хвост находится на положительном конце оси x), есть преобразование квадратного корня, логарифмическое преобразование и обратное / обратное преобразование (в порядке возрастания серьезности). Таким образом, если преобразования журнала недостаточно, вы можете использовать следующий уровень преобразования. Box Cox запускает все преобразования автоматически, поэтому вы можете выбрать лучшее.


-5

Большинство пакетов программного обеспечения будет использовать номер Эйлера в качестве базы журналов по умолчанию, AKA: натуральный журнал. Вы можете использовать большее базовое число, чтобы обуздать чрезмерно искаженные данные. То, как вы это делаете, зависит от используемого вами программного обеспечения.

Если вам нужно вернуть преобразованные значения после выполнения оценок, вам может быть немного проще использовать этот метод, потому что все, что вам нужно сделать, - это выполнить экспоненциальный оператор для вашей переменной, какой бы ни была ваша база журналов.


6
Это не имеет никакого смысла. Логарифмы к двум различным основаниям отличаются только мультипликативной константой, и, таким образом, уменьшение асимметрии в обоих случаях одинаково. Таким образом, 1 10 100 1000 10000 симметричен после преобразования базы 10 бревна, и он будет таким же симметричным после основания бревнаеили журнал базы 2. Единственное отличие - это коэффициент масштабирования.
Ник Кокс
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.