Должен ли я использовать t-тест для сильно искаженных данных? Научное доказательство, пожалуйста?

У меня есть образцы из сильно искаженного (похожего на экспоненциальный дистрибутив) набора данных об участии пользователей (например, количество постов), которые имеют разные размеры (но не менее 200), и я хочу сравнить их среднее значение. Для этого я использую непарные t-тесты с двумя образцами (и t-тесты с коэффициентом Уэлча, когда образцы имели различные отклонения). Как я слышал, для действительно больших выборок не имеет значения, что выборка распределяется не нормально.

Кто-то, просматривая мои действия, сказал, что используемые мной тесты не подходят для моих данных. Они предложили лог-трансформировать мои образцы перед использованием t-тестов.

Я новичок, поэтому мне кажется странным, что я отвечаю на мои вопросы об исследовании с помощью «метрики участия».

Они не правы? Я ошибаюсь? Если они не правы, есть ли книга или научная статья, которую я мог бы процитировать / показать им? Если я ошибаюсь, какой тест я должен использовать?

— Милена Араужо
источник

T-тест имеет нормальное предположение о распределении csic.cornell.edu/Elrod/t-test/t-test-assumptions.html . Вы можете подумать, что t-распределение, которое приближается к нормальному, когда выборка достаточно велика.

— rdorlearn

Что означает «научное доказательство» в этом контексте?

— Glen_b

Я думал, что предположение состояло в том, что все средства всех возможных выборок из определенной популяции должны быть нормальными. Так, по CLT, это будет верно и для моего набора данных.

— Милена Араужо

научное доказательство = академическая значимость: книга, статья и т. д.

— Милена Араужо

Я бы не назвал «экспоненциальным», особенно сильно искаженным. Например, его бревно явно наклонено влево, а его моментное отклонение составляет всего 2.

1) С помощью Т-тест с экспоненциальными данными и $n$ вблизи 500 находится в порядке :

a) Числитель тестовой статистики должен быть точным: если данные являются независимой экспоненциальной с общей шкалой (и не имеют значительно более сложного хвоста), то их средние значения гамма-распределены с параметром формы, равным количеству наблюдений. Его распределение выглядит очень нормально для параметра формы больше 40 или около того (в зависимости от того, как далеко в хвост вам нужна точность).

Это способно к математическому доказательству, но математика не наука. Конечно, вы можете проверить это эмпирически с помощью симуляции, но если вы ошибаетесь в экспоненциальности, вам могут потребоваться большие выборки. Вот как выглядит распределение выборочных сумм (и, следовательно, выборочных средних) экспоненциальных данных, когда n = 40: