В регрессионном анализе, в чем разница между процессом генерации данных и моделью?


19

В регрессионном анализе, в чем разница между «процессом генерации данных» и «моделью»?


1
Процесс генерации данных никогда не известен, мы выбираем модель в надежде, что мы достаточно приблизим процесс генерации данных. Это один из возможных ответов, он поможет, если вы предоставите больше контекста, поэтому вам будет понятнее, какой ответ вы ищете. Проверьте чат, в настоящее время ведущий журнал клуб обсуждает статью, в которой поднимается эта проблема.
mpiktas

3
Ответы на этот вопрос будут различаться, как и должно быть, потому что как «процесс генерации данных», так и «модель» используются разными авторами по-разному @ Weijie, ты имеешь в виду конкретную ссылку?
whuber

Ответы:


15

У всех нас есть четкое представление о том, что может означать «модель», хотя ее техническое определение будет варьироваться в зависимости от дисциплины. Чтобы сравнить это с DGP, я начал с рассмотрения пяти лучших хитов (считая два хита с одним автором и одним) в "процессе генерации данных" в Google.

  1. Документ о том , как ВВС США фактически создают данные в поддержке логистики.

  2. Аннотация статьи, опубликованной в журнале "Окружающая среда и планирование", касающейся того, как "синтетические микропопуляции" создаются с помощью компьютерных "имитационных моделей"

  3. Веб - страница на «синтетической генерации данных»; то есть симуляция «для изучения влияния определенных характеристик данных на ... модели».

  4. Краткое содержание конференции по интеллектуальному анализу данных, в которой утверждается, что «данные в базах данных являются результатом основного процесса генерации данных (dgp)».

  5. Книга глава , которая характеризует данные , представляющие интерес как «вытекающие из некоторого преобразования лежащего в основе [стохастического процесса] ... некоторые или все [которых] может быть незаметным ...»WTВT

Эти ссылки демонстрируют три несколько разных, но тесно связанных между собой использования термина «процесс генерации данных». Наиболее распространенным является контекст статистического моделирования. Другие относятся к фактическим средствам, с помощью которых данные создаются в текущей ситуации (логистика), и к модели вероятности для текущей процедуры создания данных, которая не предназначена для непосредственного анализа. В последнем случае текст отличает ненаблюдаемый случайный процесс, который, тем не менее, моделируется математически, от фактических чисел, которые будут проанализированы.

Они предполагают, что два слегка отличающихся ответа являются обоснованными:

  1. В контексте моделирования или создания «синтетических» данных для анализа «процесс генерирования данных» представляет собой способ создания данных для последующего исследования, обычно с помощью компьютерного генератора псевдослучайных чисел. Анализ неявно примет некоторую модель, которая описывает математические свойства этого DGP.

  2. В контексте статистического анализа мы можем захотеть отличить явление реального мира (DGP) от наблюдений, которые будут проанализированы. У нас есть модели как для явления, так и для наблюдений, а также модель для их взаимосвязи.

Тогда в регрессии DGP обычно описывает, как набор данных = , предполагается произведенным. Например , экспериментатор может установить или их можно каким-то образом наблюдать, а затем предположить, что они вызывают или связаны со значениями . Модель будет описывать возможные способы , в которых эти данные могут быть математически связаны; Например , мы можем сказать, что каждый является случайной величиной с ожиданием ( X 1 i , X 2 i , , X p i , Y i ) i = 1 , 2 , , n X j i Y i Y i X β σ 2 β σ(Икс,Y)я(Икс1я,Икс2я,...,Икспя,Yя)язнак равно1,2,...,NИксJяYяYяИксβ и дисперсия для неизвестных параметров и .σ2βσ


Вы пишете слова «причина» или «связанный». У меня есть вопрос по этому поводу. Из вашего ответа кажется, что концепция DGP не подразумевает причинно-следственную связь. Однако это «отношение» является чем-то большим, чем корреляция (или любой тип ассоциации) или нет? Смотрите также этот мой связанный вопрос: stats.stackexchange.com/questions/399671/…
markowitz

@markowitz «Корреляция», строго говоря, относится ко второму моменту двумерной случайной величины. Я использую «связанный» в более широком смысле «не [статистически] независимый».
whuber

Я знаю, и именно по этой причине я заявил «или любой тип [только статистической] ассоциации». Могу ли я повторить свой вопрос следующим образом: «Являются ли эти« отношения »чем-то большим, чем ассоциация» или нет? Если исходить из концепции «истинной модели», иногда используемой в качестве синонима DGP, это кажется чем-то большим. Если так, то я не совсем понимаю, что это. Моя предыдущая ссылка приведу пример.
Марковиц

@ markowitz Боюсь, я не понимаю, что ты пытаешься спросить. Это может быть потому, что я не уверен, что вы подразумеваете именно под "отношениями" или "ассоциацией". Я посмотрел на вашу ссылку, но необычное использование английского не дает мне ничего значащего.
whuber

Я извиняюсь за мой английский. Я попытался изменить связанный вопрос в более понятном смысле. Я надеюсь, что это понятно.
Марковиц

4

DGP - настоящая модель. Модель - это то, что мы пытались, используя наши лучшие навыки, представлять истинное состояние природы. На DGP влияет «шум». Шум может быть разных видов:

  1. Однократные вмешательства
  2. Сдвиги уровня
  3. тенденции
  4. Изменения в сезонности
  5. Изменения в параметрах модели
  6. Изменения в дисперсии

Если вы не контролируете эти 6 предметов, то ваша способность идентифицировать истинный DGP снижается.


4

Ответ Уубера превосходен, но стоит подчеркнуть, что статистическая модель не должна напоминать модель генерирования данных во всех отношениях, чтобы быть подходящей моделью для логического исследования данных. Лю и Мэн объясняют это с большой ясностью в своей недавней статье arXived ( http://arxiv.org/abs/1510.08539 ):

Заблуждение 1. Вероятностная модель должна описывать генерацию данных.

θ). Нигде эта точка не является более ясной, чем в приложениях, включающих компьютерные эксперименты, где вероятностный шаблон используется для описания данных по известному (но очень сложному) детерминированному шаблону (Kennedy and O'Hagan, 2001; Conti et al., 2009). Нам нужна описательная модель, а не обязательно генеративная модель. См. Lehmann (1990), Breiman (2001) и Hansen and Yu (2001) для получения дополнительной информации по этому вопросу.


+1. Мне особенно нравится различие между описательной и порождающей моделями данных.
whuber

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.