Каковы некоторые важные применения генерации случайных чисел в вычислительной статистике?


15

Как и почему генераторы случайных чисел (ГСЧ) важны в вычислительной статистике?

Я понимаю, что случайность важна при выборе выборок для многих статистических тестов, чтобы избежать смещения в отношении любой гипотезы, но есть ли другие области вычислительной статистики, где важны генераторы случайных чисел?


4
Тесно связанные: stats.stackexchange.com/q/135665/35989
Тим

1
Что ты спрашиваешь? Ваш вопрос не имеет особого смысла.
Карл Виттофт

2
Возможно, лучше спросить, в каких областях они не важны. Вероятно, это будет более короткий список.
Джон Коулман

2
Вопрос широкий, но название привлекательно, и ответ Мэтью - хороший обзор. Я проголосовал за открытие!
Бенуа Санчес

3
Это, очевидно, слишком широко по обычным стандартам SE и составляет вопрос «большого списка», который, вероятно, будет содержать множество небольших, едва разработанных ответов, которые часто дублируют уже предоставленные ответы. Тем не менее, здесь есть некоторая реальная ценность. Компромисс для этого должен быть CW и защищен. В будущем ответы, в которых упоминается что-либо без уточнения и / или уже упоминавшегося повторного использования, будут удаляться незамедлительно и без комментариев.
gung - Восстановить Монику

Ответы:


17

Есть много, много примеров. Слишком много, чтобы перечислить, и, вероятно, слишком много, чтобы кто-нибудь мог знать полностью (кроме, возможно, @whuber, который никогда не следует недооценивать).

Как вы упоминаете, в контролируемых экспериментах мы избегаем смещения выборки путем случайного разделения субъектов на группы лечения и контроля.

При начальной загрузке мы аппроксимируем повторную выборку из популяции путем случайной выборки с заменой из фиксированной выборки. Это позволяет нам оценивать дисперсию наших оценок, среди прочего.

При перекрестной проверке мы оцениваем погрешность оценки вне выборки путем случайного разделения наших данных на срезы и сборки случайных обучающих и тестовых наборов.

При тестировании перестановок мы используем случайные перестановки для выборки по нулевой гипотезе, что позволяет проводить непараметрические проверки гипотез в самых разных ситуациях.

В пакетировании мы контролируем дисперсию оценки, многократно выполняя оценку на выборках учебных данных, а затем усредняя результаты.

В случайных лесах мы также контролируем дисперсию оценки путем случайной выборки из доступных предикторов в каждой точке принятия решения.

В моделировании мы просим модель соответствия случайным образом генерировать новые наборы данных, которые мы можем сравнить с данными обучения или тестирования, помогая проверить соответствие и предположения в модели.

В цепочке Маркова Монте-Карло мы выбираем из распределения, исследуя пространство возможных результатов, используя цепочку Маркова (спасибо @Ben Bolker за этот пример).

Это обычные повседневные приложения, которые сразу приходят на ум. Если бы я копал глубоко, я бы, вероятно, удвоил длину этого списка. Случайность является и важным объектом изучения, и важным инструментом для владения.


Это все верно, но не решает основную проблему: PRNG с какой-либо результирующей структурой или предсказуемостью в последовательности приведет к сбою моделирования.
Карл Виттофт

3
Одна из вещей, которая заслуживает упоминания, - это вычислительные затраты и затраты памяти на генерацию большого числа случайных или псевдослучайных чисел. Некоторые применения ГСЧ в статистике требуют от сотен до миллионов случайных чисел, но некоторые требуют на много порядков больше, что несет обе эти затраты.
Алексис

5

Это все верно, но не решает основную проблему: PRNG с какой- либо результирующей структурой или предсказуемостью в последовательности приведет к сбою моделирования. Карл Виттофт 31 января в 15:51

Если вас это беспокоит, возможно, название вопроса следует изменить на «Влияние выбора ГСЧ на результаты Монте-Карло» или что-то в этом роде. В этом случае уже рассматривается вопрос о перекрестной проверке SE , вот несколько направлений

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.