Лучше выбрать распределение на основе теории, подгонки или что-то еще?

Это граничит с философским вопросом, но мне интересно, как другие люди с большим опытом думают о выборе распределения. В некоторых случаях кажется ясным, что теория могла бы работать лучше (длины хвоста мышей, вероятно, нормально распределены). Во многих случаях, вероятно, нет теории для описания набора данных, так что вы просто используете что-то, что подходит вам достаточно хорошо, независимо от того, что было изначально разработано для описания? Я могу вообразить некоторые подводные камни, связанные с тем или иным из них, и, конечно, возникает проблема, заключающаяся в том, что, возможно, вам следует просто использовать эмпирическое распределение, если вы действительно не знаете.

Итак, я думаю, что я действительно спрашиваю: есть ли у кого-то последовательный подход к этой проблеме? И есть ли какие-либо ресурсы, которые вы можете предложить, чтобы дать хорошее отношение к этому?

distributions overfitting heuristic

— HFBrowning
источник

Это в основном зависит от того, почему человек подходит или принимает распределение и что он намеревается представлять. На этом сайте мы задаем много вопросов, где люди считают, что они должны согласовать распределение с данными или производными величинами (например, с остатками регрессии), хотя на самом деле упражнение бессмысленно (или, что еще хуже, вводит в заблуждение), что касается решения статистических задач, которые они действительно есть обеспокоен. Не могли бы вы уточнить, какие случаи вы имеете в виду?

— whuber

Привет Whuber, спасибо за комментарий. Так как я начал немного работать над вероятностной оценкой риска, я должен был приспособить все свои данные для распределений, и мне стало интересно, как мне более последовательно представить, как осуществляется выбор распределения. Так что я думаю, чтобы уточнить, меня действительно интересуют только те моменты, когда вы должны использовать дистрибутив, и как правильно это делать. Как я уже сказал, некоторые случаи были легки из теории, в других случаях я использую эмпирическое распределение, потому что оно кажется лучшим, но мое принятие решений является более случайным, чем мне бы хотелось.

— HFBrowning

Это интересная банка червей, потому что то, что вы действительно делаете (несколько абстрактно), пытается распространить неопределенность выборки через вычисления. Причина рассмотрения процедуры с этого высокого уровня заключается в том, что она выявляет фундаментальную ошибку, которая часто допускается: заменяя данные распределениями, не удается включить неопределенность в расчетные параметры распределения. Учет этой практики называется практикой PRA «второго порядка». Я хотел бы предложить вам сузить свой вопрос, чтобы сосредоточиться на этих проблемах, а не спрашивать о распределении в целом.

— whuber

Пакет, который я использую для своего PRA, - это monte carlo 2-го порядка ( пакет mc2d в R), поэтому я назначаю свои дистрибутивы как «неопределенность», «изменчивость» или оба. Надеюсь, я учту эту проблему настолько, насколько смогу. Тем не менее, мое первоначальное намерение по этому вопросу состояло в том, чтобы получить представление более высокого уровня, и я поднял оценку риска просто, чтобы дать контекст для того, почему я заинтересован. И, возможно, нет лучшего способа, чем «иногда ты делаешь это, иногда ты делаешь это так», но я надеялся, что у кого-то были предложения :) Тем более, что я не могу с готовностью определить, когда это может быть лучше -

— HFBrowning

Это определенно подходящее место для вашего поста. Вы говорите, что у вас проблемы с внесением изменений? Кстати, мне любопытно, как ваши процедуры количественно определяют неопределенность в использовании эмпирического распределения. Это также связано с изменчивостью выборки (которая может быть глубокой в хвостах, которые часто имеют наибольшее значение при оценке риска), даже если вы явно не оценивали какие-либо параметры.

— whuber

Ответы:

Определенно зависит от того, что представляют собой данные, и сколько человек знает или желает предположить о них. Как недавно сказал @whuber в чате : «Там, где задействован физический закон, вы почти всегда можете сделать разумные предположения о подходящем способе моделирования данных». (Я подозреваю, что это правдивее с его стороны, чем с моей стороны! Кроме того, я надеюсь, что это не используется не по назначению вне контекста ...) В случаях, более похожих на моделирование скрытых конструкций в социальных науках, часто полезно сосредоточиться на эмпирические распределения как способ понимания нюансов менее известных явлений. Слишком легко предположить нормальное распределение и отклонить несоответствие в общей форме как незначительное, и весьма показательно отклонить выбросы как ошибочные без большего оправдания, чем то, что они не делают.

Конечно, большая часть этого поведения мотивируется предположениями анализа, который каждый хочет применить. Часто наиболее интересные вопросы выходят далеко за рамки описания или классификации распределений переменных. Это также влияет на правильный ответ для данного сценария; Могут быть причины (например, потребности в энергии ), чтобы предполагать нормальное распределение, когда оно не подходит особенно хорошо (или не подходит слишком плохо), так как непараметрические и другие надежные методы также не идеальны. Тем не менее, риск сделать это обычно забывает задавать интересные вопросы, которые можно задать о распределении одной переменной.

Например, рассмотрим связь между богатством и счастьем: популярный вопрос, который люди обычно хотят задать. Можно предположить, что богатство следует за гамма-распределением ^{(Salem & Mount, 1974)} или обобщенным бета-тестированием ^{(Parker, 1999)} , но действительно ли безопасно предполагать, что счастье распределяется нормально? На самом деле, совсем не обязательно предполагать это, просто чтобы ответить на первоначальный вопрос, но люди иногда так и делают, а затем игнорируют потенциально важные проблемы, такие как смещение реакции и культурные различия. Например, некоторые культуры склонны давать более или менее экстремальные ответы (см. Ответ @ chl на Факторный анализ вопросников, составленных из элементов Лайкерта ), а нормы различаются в отношении открытого выражения положительных и отрицательных эмоций ^{(Такер, Озер, Любомирский и Бём, 2006 )} . Это может повысить важность различий в эмпирических характеристиках распределения, таких как асимметрия и эксцесс. Если бы я сравнивал отношение богатства к субъективным рейтингам счастья в России, Китае и США, я бы, вероятно, хотел бы оценить различия в основных тенденциях рейтингов счастья. При этом я не решался бы предполагать нормальное распределение по каждому из них в пользу одностороннего ANOVA (даже если он может быть достаточно устойчивым к нарушениям).) когда есть основания ожидать «толстого хвоста» распределения в Китае, положительно искаженного распределения в России и отрицательно искаженного распределения в США из-за различных зависимых от культуры норм и предубеждений. Ради теста значимости (хотя я бы, честно говоря, предпочел бы просто сообщать о величинах эффекта), я бы предпочел использовать непараметрический метод, и ради реального понимания субъективного счастья в каждой популяции в отдельности, я бы лучше описать распределение эмпирически, чем пытаться классифицировать его как простое теоретическое распределение и игнорировать или приукрашивать любые несоответствия. Это пустая трата информации ИМО.

^{Список литературы

- Parker, SC (1999). Обобщенная бета-модель как модель распределения заработка. Письма Экономики, 62 (2), 197–200.

- Salem, ABZ & Mount, TD (1974). Удобная описательная модель распределения доходов: гамма-плотность. Эконометрика, 42 (6), 1115–1127.

- Такер К.Л., Озер Д.Дж., Любомирский С. и Боэм Дж.К. (2006). Тестирование на измерение инвариантности в удовлетворенности шкалой жизни: сравнение россиян и североамериканцев. Исследование социальных показателей, 78 (2), 341–360. Получено с http://drsonja.net/wp-content/themes/drsonja/papers/TOLB2006.pdf .}

— Ник Стаунер
источник

Спасибо за твой ответ, Ник. Я нашел пример особенно полезным.

— HFBrowning

длина хвоста у мышей, вероятно, нормально распределена

Я бы сомневался в этом. Нормальные распределения возникают из многих независимых аддитивных эффектов. Биологические системы состоят из множества взаимодействующих петель обратной связи (взаимозависимые мультипликативные эффекты). Также часто есть некоторые состояния, которые являются более стабильными, чем другие (например, аттракторы). Таким образом, некоторый вид длиннохвостого или мультимодального распределения, вероятно, описал бы длину хвоста. Фактически, нормальное распределение, вероятно, является очень плохим выбором по умолчанию для описания чего-либо биологического, и его неправильное использование ответственно за многие "выбросы", о которых сообщалось в этой литературе. Распространенность этого распределения в природе - это миф, и не только в смысле «идеальных кругов не существует». Однако из этого не следует, что среднее и sd бесполезны в качестве сводной статистики.

Тем более, что я не могу с готовностью определить, когда было бы лучше «доверять данным» (например, у меня есть этот фанки правильного искаженного набора данных, но n = 160, если данные не кажутся достаточными) и использовать эмпирические данные, или приспособить его к бета-версии, как продолжает настаивать мой коллега. Я подозревал, что он выбрал это только потому, что он ограничен на [0,1]. Все это кажется действительно специальным. Надеюсь, это проясняет мои намерения!

Подгонка эмпирических распределений дает подсказки по основному процессу, который облегчает развитие теоретических распределений. Затем теоретическое распределение сравнивается с эмпирическим распределением, чтобы проверить доказательства для теории.

Если ваша цель состоит в оценке вероятности определенных результатов на основе имеющихся имеющихся данных, и у вас нет причин выбирать именно это распределение, я думаю, я не понимаю, как могут быть полезны дополнительные предположения. Вместо этого это, кажется, запутывает вещи.

Однако, если вы пытаетесь описать или обобщить данные, тогда может иметь смысл соответствовать распределению.

— синевато-багровый
источник

Хотя я могу принять только один ответ, я хотел бы поблагодарить вас за то, что вы указали, как на самом деле возникают нормальные распределения. Это заставило меня задуматься о том, что значит что-то основанное на теории.

— HFBrowning

В некоторых случаях кажется ясным, что теория могла бы работать лучше (длины хвоста мышей, вероятно, нормально распределены).

Длина хвоста, конечно, обычно не распределена.

Нормальные распределения имеют ненулевую вероятность принятия отрицательных значений; длины хвоста нет.

Знаменитая линия Джорджа Бокса , « все модели ошибочны, но некоторые полезны », подтверждает это довольно хорошо. Случаи, когда мы можем разумно утверждать о нормальности (а не только о приблизительной нормальности), действительно очень редки, почти легендарные создания, миражи иногда почти не видны из уголка глаза.

Во многих случаях, вероятно, нет теории для описания набора данных, так что вы просто используете что-то, что подходит вам достаточно хорошо, независимо от того, что было изначально разработано для описания?

В тех случаях, когда интересующие вас количества не особенно чувствительны к выбору (при условии, что широкие возможности распределения соответствуют тому, что известно), тогда да, вы можете просто использовать что-то, что подходит достаточно хорошо.

В случаях, когда существует более высокая степень чувствительности, «просто использовать то, что подходит» само по себе недостаточно. Мы могли бы использовать некоторый подход, который не делает конкретных допущений (например, процедуры без распределения, такие как перестановка, начальная загрузка или другие подходы повторной выборки, или надежные процедуры). В качестве альтернативы мы могли бы количественно оценить чувствительность к предположению о распределении, например, с помощью моделирования (на самом деле, я думаю, что это, как правило, хорошая идея).

Кажется, есть проблема в том, что, возможно, вам следует использовать эмпирическое распределение, если вы действительно не знаете.

Я бы не стал описывать это как проблему - основанный на эмпирических распределениях вывод, безусловно, является законным подходом, подходящим для решения многих задач (два примера - перестановка / рандомизация и начальная загрузка).

Есть ли у кого-то последовательный подход к этой проблеме?

в целом, во многих случаях я склонен рассматривать такие вопросы, как:

1) Что я понимаю * о том, как средства (или другие величины типа местоположения) ведут себя для данных этой формы?

* (будь то из теории, или опыта этой формы данных, или из советов экспертов, или, если необходимо, из самих данных, хотя это несет в себе проблемы, с которыми нужно иметь дело)

2) Как насчет спреда (дисперсия, IQR и т. Д.) - как он себя ведет?

3) Как насчет других особенностей распределения (границы, асимметрия, дискретность и т. Д.)

4) Как насчет зависимости, неоднородности популяций, склонности к иногда очень противоречивым значениям и т. Д.

Подобные соображения могут определять выбор между нормальной моделью, GLM, некоторой другой моделью или некоторым надежным или не распространяющимся подходом (например, подходами начальной загрузки или перестановки / рандомизации, включая процедуры на основе рангов)

— Glen_b - Восстановить Монику
источник