Имитация распределений


9

Я работаю над заданием по планированию производственных мощностей и прочитал несколько книг. Это конкретно о дистрибутивах. Я использую R.

  1. Каков рекомендуемый подход для определения моего распределения данных? Существуют ли статистические методы для его идентификации?

У меня есть эта схема.

ВЕРОЯТНОСТНЫЕ ПОДХОДЫ: СЦЕНАРИЙНЫЙ АНАЛИЗ, РЕШЕНИЯ И МОДЕЛИРОВАНИЕ

  1. Какие методы моделирования доступны с использованием R? Здесь я хочу генерировать данные для определенного распределения, как экспоненциальный. Является ли r-java правильным подходом, если я хочу интегрировать его с Java?

  2. Есть ли способ предсказать, какое распределение будет иметь эффект (загрузка ЦП и т. Д.), Когда я передам данные для определенного распределения? Каковы различные эффекты отправки определенных распределений данных?

Пожалуйста, рассматривайте их как вопросы начинающих. Существуют ли книги или материалы, посвященные этим типам симуляции?

Ноты

Диаграмма с конца статьи http://people.stern.nyu.edu/adamodar/pdfiles/papers/probabilistic.pdf .

Совершенство техники подгонки, с которой я столкнулся

Оценка пригодности

  1. Хи-квадрат
  2. Колмогорова-Смирнова,
  3. Плотность статистики Андерсона-Дарлинга, графики cdf, PP и QQ

Я не уверен, какой должна быть интерпретация или дальнейшие шаги, если я обнаружу, что мое распределение нормальное или экспоненциальное и т. Д. Что это позволяет мне делать? Прогноз? Надеюсь, этот вопрос понятен.

Экспоненциальные задержки будут вызывать колебания в очереди в соответствии с моей книгой «Планирование мощностей» Нила Гюнтера. Так что я знаю, что один момент.


Если вы считаете, что ваша диаграмма важна, вы должны попытаться улучшить качество изображения ...
Октябрь

Я ценю заботу, которая требуется, чтобы сделать хороший вопрос. По моему мнению, ваш пункт 2. (который должен быть 3, я думаю) нуждается в разъяснении, или вы могли бы даже переместить его в Переполнение стека.
gui11aume

1
Я думаю, что мой последний вопрос принадлежит здесь. Допустим, я идентифицирую свое распределение данных. Могу ли я предсказать, что будущие распределения будут следовать этой вероятности? Я пропускаю часть анализа данных здесь. Я знаю, что на графике с усами в коробках легко показываются квартили, которые я понимаю. Я не понимаю полезности распространения. Пусть есть свойства этого распределения, которые я должен исследовать для предсказания.
Мохан Радхакришнан

@ocram Если качество плохое, увеличьте страницу в браузере: подробности есть. Кстати, эти изображения должны быть из какой-то документации Crystal Ball .
whuber

@whuber: Действительно, я даже не пытался! Извините за комментарий.
Октябрь

Ответы:


7

Я отвечу на ваш вопрос об имитации с R, потому что это единственный, с которым я знаком. R имеет много встроенных дистрибутивов, которые вы можете смоделировать. Логика именования заключается в том, что имитировать дистрибутив disс именем name будет rdis.

Ниже приведены те, которые я использую чаще всего

# Some continuous distributions.
?rnorm
?runif
?rgamma
?rlnorm
?rweibull
?rexp
?rt
# Some discrete distributions.
?rpoiss
?rbinom
?rnbinom
?rgeom
?rhyper

Вы можете найти некоторые дополнения в Fitting распределения с R .

Дополнение: спасибо @jthetzel за предоставленную ссылку с полным списком дистрибутивов и пакетов, к которым они принадлежат.

Но подождите, это еще не все: ОК, после комментария @ whuber я постараюсь рассмотреть другие вопросы. Что касается пункта 1, я никогда не придерживаюсь принципа «добро в форме». Вместо этого я всегда думаю о происхождении сигнала, например, о том, что вызывает это явление, есть ли какие-то естественные симметрии в том, что его производит и т. Д. Вам нужно несколько глав книги, чтобы охватить его, поэтому я просто приведу два примера.

  1. Если данные считаются и верхний предел отсутствует, я пробую Пуассона. Переменные Пуассона можно интерпретировать как количество последовательных независимых в течение временного окна, что является очень общей структурой. Я подгоняю распределение и вижу (часто визуально), хорошо ли описана дисперсия. Довольно часто дисперсия выборки намного выше, и в этом случае я использую отрицательный бином. Отрицательный бином может быть истолкован как смесь Пуассона с различными переменными, которая является даже более общей, так что это обычно очень хорошо подходит для выборки.

  2. Если я думаю, что данные симметричны относительно среднего значения, то есть, что отклонения одинаково вероятны как положительные, так и отрицательные, я стараюсь соответствовать гауссову. Затем я проверяю (опять же визуально), много ли выбросов, то есть точек данных очень далеко от среднего значения. Если есть, я использую т студента вместо этого. Распределение Стьюдента можно интерпретировать как смесь гауссовских значений с различными дисперсиями, что опять-таки является очень общим.

В тех примерах, когда я говорю визуально, я имею в виду, что я использую график QQ

Пункт 3 также заслуживает нескольких глав книги. Последствия использования дистрибутива вместо другого безграничны. Поэтому вместо того, чтобы пройти через все это, я продолжу два примера выше.

  1. В ранние годы я не знал, что «Отрицательный бином» может иметь осмысленную интерпретацию, поэтому я все время использовал Пуассона (потому что мне нравится иметь возможность интерпретировать параметры в человеческих терминах). Очень часто, когда вы используете Пуассона, вы подходите к среднему значению, но вы недооцениваете дисперсию. Это означает, что вы не можете воспроизвести экстремальные значения для вашей выборки, и вы будете рассматривать такие значения как выбросы (точки данных, которые не имеют такое же распределение, как другие точки), в то время как на самом деле это не так.

  2. Опять же, в ранние годы я не знал, что у ученика также есть осмысленная интерпретация, и я все время буду использовать гауссовский язык. Похожая вещь произошла. Я бы хорошо подошел к среднему значению и к дисперсии, но я бы все равно не уловил выбросы, поскольку предполагается, что почти все точки данных находятся в пределах 3 стандартных отклонений от среднего значения. Произошло то же самое, я пришел к выводу, что некоторые моменты были «экстраординарными», хотя на самом деле это не так.


2
Примечание , чтобы добавить к ответу gui11aume в: Существует «д, р, д, г» синтаксис для функций распределения , связанных в R. Например, dnorm, pnorm, qnorm, и rnormявляются плотность, кумулятивная функция распределения (CDF), обратное ВПР и функции генератора случайных величин для нормального распределения соответственно. См. Представление задачи распределения вероятностей для полного списка доступных распределений.
Джетцель

Да, большое спасибо (+1). Я долго искал такой список. Я положил его в ответ, чтобы он был более заметным.
gui11aume

1
Я даже не могу сказать вам, что такое треть этих дистрибутивов. Так много всего, чтобы узнать ... +1, но давайте не будем забывать остальную часть вопроса, который является фундаментальным (но, возможно, немного более широким): какие эффекты имеет выбор распределения в симуляции? Как можно сделать такой выбор?
whuber

@whuber Я добавил влияние экспоненциального распределения задержек на колебания в очереди. См. книги по СР или очередям.
Мохан Радхакришнан

Я прочитал распределение Фиттинга с помощью R, а также однажды использовал график QQ. Оценка максимального правдоподобия начинается с математического выражения, известного как функция правдоподобия выборочных данных. Проще говоря, вероятность набора данных - это вероятность получения этого конкретного набора данных с учетом выбранной вероятностной модели. Означает ли это, что есть способ рассчитать, что распределение может произойти снова? Сколько измерений требуется, чтобы доказать это?
Мохан Радхакришнан
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.