Является ли преобразование журнала допустимым методом для t-тестирования ненормальных данных?

В рецензии на статью авторы утверждают: «Непрерывные переменные результата, демонстрирующие искаженное распределение, были преобразованы с использованием натуральных логарифмов перед проведением t-тестов для удовлетворения предварительных условий нормальности».

Является ли это приемлемым способом анализа нестандартных данных, особенно если базовое распределение не обязательно является логнормальным?

Это может быть очень глупый вопрос, но я не видел, чтобы это было сделано раньше ....

— ЦБС
источник

Что ж, если начальное распределение не является логарифмическим, то преобразованные данные не удовлетворяют предварительным условиям нормальности, так что же получается при преобразовании?

— Макрос

@Macro - достаточно верно! (+1) - они, вероятно, просто хотели приблизить распределения к симметричным, что неплохо для t-тестирования, но, если они не проверили и не написали это, мы не знаем, записан ли журнал преобразование вызвало отрицательный перекос, который мог бы усугубить ситуацию ...

— jbowman

Мы можем заключить, что, поскольку это было сделано для удовлетворения нормальности, и нормальность была проверена в первую очередь, эта нормальность была проверена впоследствии. Это неявно в языке здесь.

— Джон

T-критерий для логарифмов - это не то же самое, что критерий T для нетрансформированных данных и непараметрический критерий. T-критерий в логах сравнивает геометрические средние, а не (обычные) средние арифметические. Это одно из нескольких важных соображений при принятии решения о допустимости использования логарифмов (что может быть в зависимости от приложения).

— whuber

Ответы:

Обычно пытаются применить какое-то преобразование к нормальности (используя, например, логарифмы, квадратные корни и т. Д.), Когда сталкиваются с данными, которые не являются нормальными. Хотя логарифм дает хорошие результаты для искаженных данных достаточно часто, нет никаких гарантий, что он будет работать в этом конкретном случае. При анализе преобразованных данных следует также иметь в виду приведенный выше комментарий @whubers: «t-критерий для логарифмов - это не то же самое, что t-критерий для нетрансформированных данных и непараметрический критерий. T-критерий в логах сравнивает геометрические означает, а не (обычное) арифметическое средство ".

За преобразованиями в нормальность всегда следует следовать предположению о нормальности, чтобы оценить, выглядят ли преобразованные данные «достаточно нормальными». Это можно сделать, используя, например, гистограммы, QQ-графики и тесты на нормальность. T-критерий особенно чувствителен к отклонениям от нормальности в форме асимметрии, и поэтому тест на нормальность, направленный на альтернативы перекоса, был бы предпочтительным. Образец асимметрии Пирсона является подходящей тестовой статистикой в этом случае. $\frac{n^{-1}\sum_{i=1}^n(x_i-\bar{x})^3}{(n^{-1}\sum_{i=1}^n(x_i-\bar{x})^2)^{3/2}}$

Вместо того чтобы выбирать преобразование (например, логарифмы), потому что оно работает большую часть времени, я предпочитаю использовать процедуру Бокса-Кокса для выбора преобразования с использованием заданных данных. Есть, однако, некоторые философские проблемы с этим; в частности, должно ли это влиять на число степеней свободы в t-тесте, так как мы использовали некоторую информацию из выборки при выборе преобразования для использования.

Наконец, хорошей альтернативой использованию t-критерия после преобразования или классического непараметрического критерия является использование аналога начальной загрузки t-критерия. Он не требует предположения о нормальности и является тестом для нетрансформированных средств (и не для чего-либо еще).

— MånsT
источник

+1 Хорошая, вдумчивая дискуссия с хорошей рекомендацией в конце. Для получения дополнительной информации о версии t-теста для начальной загрузки / повторной выборки / перестановки см. Недавнюю ветку по адресу stats.stackexchange.com/q/24911 .

— whuber

Вообще говоря, если предположения, необходимые для проведения t-теста, не выполняются, то было бы более целесообразно использовать непараметрический критерий.

— user7045
источник

Может быть. Непараметрические тесты почти всегда сравнивают медианы (или другие процентили), а не средние значения, и поэтому действительно решают немного другой вопрос. Но это не похоже на полезный ответ на текущий вопрос, который задает конкретно (и только) о t-тестировании журналов данных.

— whuber