Модель соответствует данным или данные соответствуют модели?

20

Существует ли концептуальная или процедурная разница между подгонкой модели к данным и подгонкой данных к модели? Пример первой формулировки можно увидеть в https://courses.washington.edu/matlab1/ModelFitting.html , а второй - в https://reference.wolfram.com/applications/eda/FittingDataToLinearModelsByLeast-SquaresTechniques.html. ,

terminology

— enjayes
источник

7

+1 Вторая ссылка меня не впечатлила, но меня развлекают.

— Лаконичный

Многие модели соответствуют текущим данным, но данные, как правило, лучше всего соответствуют одной модели

— Агниус Василяускас

35

Практически каждый источник или человек, с которым я когда-либо общался, кроме источника Wolfram, с которым вы связались, относится к процессу как к подгонке модели к данным . Это имеет смысл, поскольку модель является динамическим объектом, а данные являются статическими (то есть фиксированными и постоянными).

Чтобы подчеркнуть это, мне нравится подход Ларри Вассермана к этому. По его словам, статистическая модель представляет собой совокупность распределений. Например, коллекция всех нормальных дистрибутивов:

{Обычный (μ, σ) : μ, σ \in р, σ > 0}

$\{ \text{Normal}(\mu, \sigma) : \mu, \sigma \in R, \sigma > 0 \}$

или множество всех распределений Пуассона:

{Пуассон (λ) : λ \in р, λ > 0}

$\{ \text{Poisson}(\lambda) : \lambda \in R, \lambda > 0 \}$

Подгонка распределения к данным - это любой алгоритм, который объединяет статистическую модель с набором данных (данные являются фиксированными) и выбирает ровно одно из распределений из модели, которое «наилучшее» отражает данные.

Модель - это то, что меняется (вроде): мы объединяем ее из целого набора возможностей в один лучший выбор. Данные - это просто данные; с ним ничего не происходит.

— Мэтью Друри
источник

16

В области моделирования Rasch обычно подгоняют данные к модели. Предполагается, что модель верна, и аналитик должен найти данные, которые ей соответствуют. Статья Википедии на Раше содержит более подробную информацию о как и почему.

Но я согласен с другими, что в целом в статистике мы подгоняем модель к данным, потому что мы можем изменить модель, но считается, что выбор или модификация данных - плохая форма.

— mdewey
источник

7

Как правило, наблюдаемые данные являются фиксированными, в то время как модель является изменчивой (например, из-за того, что параметры оцениваются), поэтому именно модель предназначена для того, чтобы соответствовать данным, а не наоборот . (Обычно люди имеют в виду этот случай, когда они говорят любое выражение.)

Когда люди говорят, что они подгоняют данные к модели, я пытаюсь понять, какого черта они сделали с данными? ,

[Теперь, если вы преобразуете данные , это, вероятно, будет «подгонкой данных к модели», но люди почти никогда не говорят этого в этом случае.]

— Glen_b - Восстановить Монику
источник

5

Удаление выбросов также (возможно) будет «подгонкой данных к модели».

— Федерико Полони

1

Формулировка может иметь смысл, если они думают об этом как о «подгонке (данные к модели)». То есть вы выполняете процесс подгонки, и этот процесс подбора начинается с данных и преобразует их в модель. Я согласен, что это менее распространенная / точная интерпретация по сравнению с синтаксическим анализом «(подгонка X) к Y», но я изложил это как обоснование того, почему кто-то может логически это сказать.

— РМ

1

@FedericoPoloni Выбросы обычно определяются независимо от модели, которую вы позже захотите использовать. Так что даже если бы мы хотели назвать это подходящими данными, это была бы не модель, а что-то другое.

— BartoszKP

1

+1. Есть причина, по которой это называется «данные» - это то, что дано , посмотрите латинское происхождение слова: latindictionary.wikidot.com/verb:dare

— Кристоф Ханк

2

Обычно мы предполагаем, что наши данные соответствуют «реальному миру», а внесение любых изменений означает, что мы отходим от моделирования «реального мира». Например, нужно позаботиться об удалении выбросов, поскольку даже если это делает вычисления более приятными, выбросы все еще были частью наших данных.

При тестировании модели или оценке свойств оценщика с использованием начальной загрузки или других методов повторной выборки мы можем моделировать новые данные с использованием оценочной модели и наших исходных данных. Это делает предположение, что модель верна, и мы не изменяем наши исходные данные.

— qwr
источник