Я отвечу на ваш вопрос об имитации с R, потому что это единственный, с которым я знаком. R имеет много встроенных дистрибутивов, которые вы можете смоделировать. Логика именования заключается в том, что имитировать дистрибутив dis
с именем name будет rdis
.
Ниже приведены те, которые я использую чаще всего
# Some continuous distributions.
?rnorm
?runif
?rgamma
?rlnorm
?rweibull
?rexp
?rt
# Some discrete distributions.
?rpoiss
?rbinom
?rnbinom
?rgeom
?rhyper
Вы можете найти некоторые дополнения в Fitting распределения с R .
Дополнение: спасибо @jthetzel за предоставленную ссылку с полным списком дистрибутивов и пакетов, к которым они принадлежат.
Но подождите, это еще не все: ОК, после комментария @ whuber я постараюсь рассмотреть другие вопросы. Что касается пункта 1, я никогда не придерживаюсь принципа «добро в форме». Вместо этого я всегда думаю о происхождении сигнала, например, о том, что вызывает это явление, есть ли какие-то естественные симметрии в том, что его производит и т. Д. Вам нужно несколько глав книги, чтобы охватить его, поэтому я просто приведу два примера.
Если данные считаются и верхний предел отсутствует, я пробую Пуассона. Переменные Пуассона можно интерпретировать как количество последовательных независимых в течение временного окна, что является очень общей структурой. Я подгоняю распределение и вижу (часто визуально), хорошо ли описана дисперсия. Довольно часто дисперсия выборки намного выше, и в этом случае я использую отрицательный бином. Отрицательный бином может быть истолкован как смесь Пуассона с различными переменными, которая является даже более общей, так что это обычно очень хорошо подходит для выборки.
Если я думаю, что данные симметричны относительно среднего значения, то есть, что отклонения одинаково вероятны как положительные, так и отрицательные, я стараюсь соответствовать гауссову. Затем я проверяю (опять же визуально), много ли выбросов, то есть точек данных очень далеко от среднего значения. Если есть, я использую т студента вместо этого. Распределение Стьюдента можно интерпретировать как смесь гауссовских значений с различными дисперсиями, что опять-таки является очень общим.
В тех примерах, когда я говорю визуально, я имею в виду, что я использую график QQ
Пункт 3 также заслуживает нескольких глав книги. Последствия использования дистрибутива вместо другого безграничны. Поэтому вместо того, чтобы пройти через все это, я продолжу два примера выше.
В ранние годы я не знал, что «Отрицательный бином» может иметь осмысленную интерпретацию, поэтому я все время использовал Пуассона (потому что мне нравится иметь возможность интерпретировать параметры в человеческих терминах). Очень часто, когда вы используете Пуассона, вы подходите к среднему значению, но вы недооцениваете дисперсию. Это означает, что вы не можете воспроизвести экстремальные значения для вашей выборки, и вы будете рассматривать такие значения как выбросы (точки данных, которые не имеют такое же распределение, как другие точки), в то время как на самом деле это не так.
Опять же, в ранние годы я не знал, что у ученика также есть осмысленная интерпретация, и я все время буду использовать гауссовский язык. Похожая вещь произошла. Я бы хорошо подошел к среднему значению и к дисперсии, но я бы все равно не уловил выбросы, поскольку предполагается, что почти все точки данных находятся в пределах 3 стандартных отклонений от среднего значения. Произошло то же самое, я пришел к выводу, что некоторые моменты были «экстраординарными», хотя на самом деле это не так.