В некоторых случаях кажется ясным, что теория могла бы работать лучше (длины хвоста мышей, вероятно, нормально распределены).
Длина хвоста, конечно, обычно не распределена.
Нормальные распределения имеют ненулевую вероятность принятия отрицательных значений; длины хвоста нет.
Знаменитая линия Джорджа Бокса , « все модели ошибочны, но некоторые полезны », подтверждает это довольно хорошо. Случаи, когда мы можем разумно утверждать о нормальности (а не только о приблизительной нормальности), действительно очень редки, почти легендарные создания, миражи иногда почти не видны из уголка глаза.
Во многих случаях, вероятно, нет теории для описания набора данных, так что вы просто используете что-то, что подходит вам достаточно хорошо, независимо от того, что было изначально разработано для описания?
В тех случаях, когда интересующие вас количества не особенно чувствительны к выбору (при условии, что широкие возможности распределения соответствуют тому, что известно), тогда да, вы можете просто использовать что-то, что подходит достаточно хорошо.
В случаях, когда существует более высокая степень чувствительности, «просто использовать то, что подходит» само по себе недостаточно. Мы могли бы использовать некоторый подход, который не делает конкретных допущений (например, процедуры без распределения, такие как перестановка, начальная загрузка или другие подходы повторной выборки, или надежные процедуры). В качестве альтернативы мы могли бы количественно оценить чувствительность к предположению о распределении, например, с помощью моделирования (на самом деле, я думаю, что это, как правило, хорошая идея).
Кажется, есть проблема в том, что, возможно, вам следует использовать эмпирическое распределение, если вы действительно не знаете.
Я бы не стал описывать это как проблему - основанный на эмпирических распределениях вывод, безусловно, является законным подходом, подходящим для решения многих задач (два примера - перестановка / рандомизация и начальная загрузка).
Есть ли у кого-то последовательный подход к этой проблеме?
в целом, во многих случаях я склонен рассматривать такие вопросы, как:
1) Что я понимаю * о том, как средства (или другие величины типа местоположения) ведут себя для данных этой формы?
* (будь то из теории, или опыта этой формы данных, или из советов экспертов, или, если необходимо, из самих данных, хотя это несет в себе проблемы, с которыми нужно иметь дело)
2) Как насчет спреда (дисперсия, IQR и т. Д.) - как он себя ведет?
3) Как насчет других особенностей распределения (границы, асимметрия, дискретность и т. Д.)
4) Как насчет зависимости, неоднородности популяций, склонности к иногда очень противоречивым значениям и т. Д.
Подобные соображения могут определять выбор между нормальной моделью, GLM, некоторой другой моделью или некоторым надежным или не распространяющимся подходом (например, подходами начальной загрузки или перестановки / рандомизации, включая процедуры на основе рангов)