В регрессионном анализе, в чем разница между «процессом генерации данных» и «моделью»?
В регрессионном анализе, в чем разница между «процессом генерации данных» и «моделью»?
Ответы:
У всех нас есть четкое представление о том, что может означать «модель», хотя ее техническое определение будет варьироваться в зависимости от дисциплины. Чтобы сравнить это с DGP, я начал с рассмотрения пяти лучших хитов (считая два хита с одним автором и одним) в "процессе генерации данных" в Google.
Документ о том , как ВВС США фактически создают данные в поддержке логистики.
Аннотация статьи, опубликованной в журнале "Окружающая среда и планирование", касающейся того, как "синтетические микропопуляции" создаются с помощью компьютерных "имитационных моделей"
Веб - страница на «синтетической генерации данных»; то есть симуляция «для изучения влияния определенных характеристик данных на ... модели».
Краткое содержание конференции по интеллектуальному анализу данных, в которой утверждается, что «данные в базах данных являются результатом основного процесса генерации данных (dgp)».
Книга глава , которая характеризует данные , представляющие интерес как «вытекающие из некоторого преобразования лежащего в основе [стохастического процесса] ... некоторые или все [которых] может быть незаметным ...»
Эти ссылки демонстрируют три несколько разных, но тесно связанных между собой использования термина «процесс генерации данных». Наиболее распространенным является контекст статистического моделирования. Другие относятся к фактическим средствам, с помощью которых данные создаются в текущей ситуации (логистика), и к модели вероятности для текущей процедуры создания данных, которая не предназначена для непосредственного анализа. В последнем случае текст отличает ненаблюдаемый случайный процесс, который, тем не менее, моделируется математически, от фактических чисел, которые будут проанализированы.
Они предполагают, что два слегка отличающихся ответа являются обоснованными:
В контексте моделирования или создания «синтетических» данных для анализа «процесс генерирования данных» представляет собой способ создания данных для последующего исследования, обычно с помощью компьютерного генератора псевдослучайных чисел. Анализ неявно примет некоторую модель, которая описывает математические свойства этого DGP.
В контексте статистического анализа мы можем захотеть отличить явление реального мира (DGP) от наблюдений, которые будут проанализированы. У нас есть модели как для явления, так и для наблюдений, а также модель для их взаимосвязи.
Тогда в регрессии DGP обычно описывает, как набор данных = , предполагается произведенным. Например , экспериментатор может установить или их можно каким-то образом наблюдать, а затем предположить, что они вызывают или связаны со значениями . Модель будет описывать возможные способы , в которых эти данные могут быть математически связаны; Например , мы можем сказать, что каждый является случайной величиной с ожиданием ( X 1 i , X 2 i , … , X p i , Y i ) i = 1 , 2 , … , n X j i Y i Y i X β σ 2 β σ и дисперсия для неизвестных параметров и .
DGP - настоящая модель. Модель - это то, что мы пытались, используя наши лучшие навыки, представлять истинное состояние природы. На DGP влияет «шум». Шум может быть разных видов:
Если вы не контролируете эти 6 предметов, то ваша способность идентифицировать истинный DGP снижается.
Ответ Уубера превосходен, но стоит подчеркнуть, что статистическая модель не должна напоминать модель генерирования данных во всех отношениях, чтобы быть подходящей моделью для логического исследования данных. Лю и Мэн объясняют это с большой ясностью в своей недавней статье arXived ( http://arxiv.org/abs/1510.08539 ):
Заблуждение 1. Вероятностная модель должна описывать генерацию данных.
). Нигде эта точка не является более ясной, чем в приложениях, включающих компьютерные эксперименты, где вероятностный шаблон используется для описания данных по известному (но очень сложному) детерминированному шаблону (Kennedy and O'Hagan, 2001; Conti et al., 2009). Нам нужна описательная модель, а не обязательно генеративная модель. См. Lehmann (1990), Breiman (2001) и Hansen and Yu (2001) для получения дополнительной информации по этому вопросу.
DGP - это виртуальная реальность и уникальный рецепт для симуляции. Модель - это набор DGP или возможных способов получения данных.
Прочитайте первую страницу этого мини-курса Рассела Дэвидсона:
http://russell-davidson.arts.mcgill.ca/Aarhus/bootstrap_course.pdf