В регрессионном анализе, в чем разница между процессом генерации данных и моделью?

19

В регрессионном анализе, в чем разница между «процессом генерации данных» и «моделью»?

econometrics

1

Процесс генерации данных никогда не известен, мы выбираем модель в надежде, что мы достаточно приблизим процесс генерации данных. Это один из возможных ответов, он поможет, если вы предоставите больше контекста, поэтому вам будет понятнее, какой ответ вы ищете. Проверьте чат, в настоящее время ведущий журнал клуб обсуждает статью, в которой поднимается эта проблема.

— mpiktas

3

Ответы на этот вопрос будут различаться, как и должно быть, потому что как «процесс генерации данных», так и «модель» используются разными авторами по-разному @ Weijie, ты имеешь в виду конкретную ссылку?

— whuber

15

У всех нас есть четкое представление о том, что может означать «модель», хотя ее техническое определение будет варьироваться в зависимости от дисциплины. Чтобы сравнить это с DGP, я начал с рассмотрения пяти лучших хитов (считая два хита с одним автором и одним) в "процессе генерации данных" в Google.

Документ о том , как ВВС США фактически создают данные в поддержке логистики.
Аннотация статьи, опубликованной в журнале "Окружающая среда и планирование", касающейся того, как "синтетические микропопуляции" создаются с помощью компьютерных "имитационных моделей"
Веб - страница на «синтетической генерации данных»; то есть симуляция «для изучения влияния определенных характеристик данных на ... модели».
Краткое содержание конференции по интеллектуальному анализу данных, в которой утверждается, что «данные в базах данных являются результатом основного процесса генерации данных (dgp)».
Книга глава , которая характеризует данные , представляющие интерес как «вытекающие из некоторого преобразования лежащего в основе [стохастического процесса] ... некоторые или все [которых] может быть незаметным ...» $W_t$ $V_t$

Эти ссылки демонстрируют три несколько разных, но тесно связанных между собой использования термина «процесс генерации данных». Наиболее распространенным является контекст статистического моделирования. Другие относятся к фактическим средствам, с помощью которых данные создаются в текущей ситуации (логистика), и к модели вероятности для текущей процедуры создания данных, которая не предназначена для непосредственного анализа. В последнем случае текст отличает ненаблюдаемый случайный процесс, который, тем не менее, моделируется математически, от фактических чисел, которые будут проанализированы.

Они предполагают, что два слегка отличающихся ответа являются обоснованными:

В контексте моделирования или создания «синтетических» данных для анализа «процесс генерирования данных» представляет собой способ создания данных для последующего исследования, обычно с помощью компьютерного генератора псевдослучайных чисел. Анализ неявно примет некоторую модель, которая описывает математические свойства этого DGP.
В контексте статистического анализа мы можем захотеть отличить явление реального мира (DGP) от наблюдений, которые будут проанализированы. У нас есть модели как для явления, так и для наблюдений, а также модель для их взаимосвязи.

Тогда в регрессии DGP обычно описывает, как набор данных = , предполагается произведенным. Например , экспериментатор может установить или их можно каким-то образом наблюдать, а затем предположить, что они вызывают или связаны со значениями . Модель будет описывать возможные способы , в которых эти данные могут быть математически связаны; Например , мы можем сказать, что каждый является случайной величиной с ожиданием $(\mathbf{X}, Y)_i$ $(X_{1i}, X_{2i}, \dots, X_{pi}, Y_{i})$ $i=1, 2, \ldots, n$ $X_{ji}$ $Y_i$ $Y_{i}$ $\mathbf{X} \mathbf{\beta}$ и дисперсия для неизвестных параметров и . $\sigma^2$ $\beta$ $\sigma$

— Whuber
источник

Вы пишете слова «причина» или «связанный». У меня есть вопрос по этому поводу. Из вашего ответа кажется, что концепция DGP не подразумевает причинно-следственную связь. Однако это «отношение» является чем-то большим, чем корреляция (или любой тип ассоциации) или нет? Смотрите также этот мой связанный вопрос: stats.stackexchange.com/questions/399671/…

— markowitz

@markowitz «Корреляция», строго говоря, относится ко второму моменту двумерной случайной величины. Я использую «связанный» в более широком смысле «не [статистически] независимый».

— whuber

Я знаю, и именно по этой причине я заявил «или любой тип [только статистической] ассоциации». Могу ли я повторить свой вопрос следующим образом: «Являются ли эти« отношения »чем-то большим, чем ассоциация» или нет? Если исходить из концепции «истинной модели», иногда используемой в качестве синонима DGP, это кажется чем-то большим. Если так, то я не совсем понимаю, что это. Моя предыдущая ссылка приведу пример.

— Марковиц

@ markowitz Боюсь, я не понимаю, что ты пытаешься спросить. Это может быть потому, что я не уверен, что вы подразумеваете именно под "отношениями" или "ассоциацией". Я посмотрел на вашу ссылку, но необычное использование английского не дает мне ничего значащего.

— whuber

Я извиняюсь за мой английский. Я попытался изменить связанный вопрос в более понятном смысле. Я надеюсь, что это понятно.

— Марковиц

4

DGP - настоящая модель. Модель - это то, что мы пытались, используя наши лучшие навыки, представлять истинное состояние природы. На DGP влияет «шум». Шум может быть разных видов:

Однократные вмешательства
Сдвиги уровня
тенденции
Изменения в сезонности
Изменения в параметрах модели
Изменения в дисперсии

Если вы не контролируете эти 6 предметов, то ваша способность идентифицировать истинный DGP снижается.

— Том Рейли
источник

4

Ответ Уубера превосходен, но стоит подчеркнуть, что статистическая модель не должна напоминать модель генерирования данных во всех отношениях, чтобы быть подходящей моделью для логического исследования данных. Лю и Мэн объясняют это с большой ясностью в своей недавней статье arXived ( http://arxiv.org/abs/1510.08539 ):

Заблуждение 1. Вероятностная модель должна описывать генерацию данных.

$\theta$ ). Нигде эта точка не является более ясной, чем в приложениях, включающих компьютерные эксперименты, где вероятностный шаблон используется для описания данных по известному (но очень сложному) детерминированному шаблону (Kennedy and O'Hagan, 2001; Conti et al., 2009). Нам нужна описательная модель, а не обязательно генеративная модель. См. Lehmann (1990), Breiman (2001) и Hansen and Yu (2001) для получения дополнительной информации по этому вопросу.

— Майкл Лью
источник

+1. Мне особенно нравится различие между описательной и порождающей моделями данных.

— whuber

1

DGP - это виртуальная реальность и уникальный рецепт для симуляции. Модель - это набор DGP или возможных способов получения данных.

Прочитайте первую страницу этого мини-курса Рассела Дэвидсона:

http://russell-davidson.arts.mcgill.ca/Aarhus/bootstrap_course.pdf

— Эхсан Фазель
источник