Что именно строит статистическую модель?


15

Что именно строит статистическую модель?

В наши дни, когда я подаю заявку на исследовательскую работу или консультационную работу, часто появляется термин «построение модели» или «моделирование». Термин звучит круто, но к чему именно они относятся? Как вы строите свою модель?

Я посмотрел прогнозное моделирование , которое включает в себя k-nn и логистическую регрессию.


1
Это довольно широко, это может относиться к огромному разнообразию моделей - различные виды регрессии, многоуровневые модели, деревья и их варианты, кластеризация .... и т.д.
Питер Флом - Восстановить Монику

Статистическая модель аналогична математической модели, за исключением того, что статистическая модель имеет переменную, учитывающую ошибки. Математическая модель: Вес = Рост * 2.7. Статистическая модель: Вес = Рост * 2,7 + ошибка.
Нил Макгиган

2
Я хотел бы процитировать эту статью : Статистическое моделирование: две культуры
user13985

Ответы:


12

Я постараюсь разобраться с этим, хотя я ни в коем случае не статистик, но много занимаюсь «моделированием» - статистическим и нестатистическим.

Сначала давайте начнем с основ:

Что такое модель именно?

Модель - это представление реальности, хотя и сильно упрощенное. Подумайте о восковой / деревянной модели для дома. Вы можете коснуться / почувствовать / обонять это. Теперь математическая модель представляет собой представление реальности с использованием чисел.

Что это за «реальность», которую я слышу, вы спрашиваете? Ладно. Подумайте об этой простой ситуации: губернатор вашего штата проводит политику, согласно которой цена пачки сигарет будет стоить 100 долларов в следующем году. «Цель» состоит в том, чтобы удержать людей от покупки сигарет, тем самым уменьшая курение, тем самым делая курильщиков более здоровыми (потому что они бросили).

Через 1 год губернатор спрашивает вас - был ли это успех? Как ты можешь говорить так? Хорошо, вы собираете данные, такие как количество проданных пакетов / день или в год, ответы на опросы, любые измеримые данные, которые вы можете получить, которые имеют отношение к проблеме. Вы только начали «моделировать» проблему. Теперь вы хотите проанализировать, что говорит эта «модель» . Вот где статистическое моделирование пригодится. Вы можете запустить простой график зависимости / рассеивания, чтобы увидеть, как выглядит модель. Вы можете испытать фантазию, чтобы определить причинно-следственную связь, т. Е. Если повышение цены действительно привело к снижению курения или были другие факторы, вызывающие смешение, то есть (может быть, это что-то совсем другое, и ваша модель, возможно, пропустила это?).

Теперь построение этой модели осуществляется с помощью «набора правил» (более похожих на руководящие принципы), т. Е. Что является / не является законным или что имеет / не имеет смысла. Вы должны знать, что вы делаете и как интерпретировать результаты этой модели. Построение / Выполнение / Интерпретация этой модели требует базовых знаний статистики. В приведенном выше примере вам нужно знать о графиках корреляции / разброса, регрессии (одно- и многомерных) и других вещах. Я предлагаю прочитать абсолютное увлекательное / информативное чтение по интуитивному пониманию статистики: что такое p-значение в любом случае? Это юмористическое введение в статистику, которое научит вас «моделированию» от простого к продвинутому (то есть линейной регрессии). Тогда вы можете продолжить и читать другие вещи.

Итак, помните, что модель - это представление реальности, и что «все модели ошибочны, но некоторые из них более полезны, чем другие» . Модель - это упрощенное представление реальности, и вы не можете рассмотреть все, но вы должны знать, что нужно, а что не следует рассматривать, чтобы иметь хорошую модель, которая может дать вам значимые результаты.

Это не останавливается здесь. Вы можете создавать модели для имитации реальности тоже! Вот так куча чисел будет меняться со временем (скажем). Эти цифры соответствуют некоторой значимой интерпретации в вашем домене. Вы также можете создать эти модели для моих данных , чтобы увидеть , как различные меры связаны друг с другом (применение статистики здесь может быть сомнительной, но не волнуйтесь , сейчас). Пример: вы смотрите на продажи продуктов в магазине в месяц и понимаете, что всякий раз, когда пиво покупается, вы получаете пачку подгузников (вы строите модель, которая просматривает набор данных и показывает вам эту связь). Это может быть странно, но это может означать, что в основном отцы покупают это в выходные дни, когда ребенок сидит с детьми? Положите подгузники рядом с пивом, и вы можете увеличить свои продажи! Ааа! Моделирование :)

Это всего лишь примеры и ни в коем случае не ссылка на профессиональную работу. Вы в основном строите модели, чтобы понять / оценить, как реальность будет / действовала, и принимать лучшие решения на основе результатов. Статистика или нет, вы, вероятно, занимаетесь моделированием всю свою жизнь, не осознавая этого. Удачи :)


11

Построение статистической модели включает в себя построение математического описания некоторых реальных явлений, которое учитывает неопределенность и / или случайность, связанные с этой системой. В зависимости от области применения, это может варьироваться от простых вещей, таких как линейная регрессия или проверка основных гипотез, до сложного многомерного факторного анализа или интеллектуального анализа данных.


5
Я проголосовал за это, потому что это смелая, содержательная попытка ответить на чрезвычайно широкий вопрос. У меня есть некоторые сомнения по поводу того, подразумевает ли «добыча данных» какое-либо статистическое моделирование, и я был бы рад увидеть пример или пояснение того, что вы подразумеваете под этой фразой.
whuber

@whuber LASSO делает выборку функций, разве это не в некотором смысле построение регрессионной модели?
user13985

Другими словами, это немного похоже на строительство дома только из воображаемых кирпичей и строительного раствора? Мой эзотерический комментарий будет сказано в шутку. :)
Грэм Уолш

1
Интеллектуальный анализ данных может использоваться как часть процесса построения или проверки данной модели.
Дейв

5

Моделирование для меня включает в себя определение вероятностного каркаса для наблюдаемых данных с оцениваемыми параметрами, которые можно использовать для выявления ценных различий в наблюдаемых данных, когда они существуют. Это называется силой. Вероятностные модели могут быть использованы для прогнозирования или вывода. Они могут использоваться для калибровки оборудования, для демонстрации дефицита возврата инвестиций, для прогнозирования погоды или запасов или для упрощения принятия медицинских решений.

Модель не обязательно должна быть построена. В изолированном эксперименте можно использовать непараметрический подход к моделированию, такой как t-критерий, чтобы определить, существует ли значительная разница в средних значениях между двумя группами. Однако для многих целей прогнозирования модели могут быть построены так, чтобы обнаруживать изменения во времени. Например, модели Маркова, основанные на переходе, можно использовать для прогнозирования скачков рыночной стоимости инвестиций в сторону повышения и понижения, но в какой степени «падение» можно считать хуже ожидаемого? Используя исторические данные и наблюдаемые предикторы, можно построить сложную модель для калибровки того, значительно ли наблюдаемые провалы отличаются от тех, которые были исторически устойчивыми. Используя такие инструменты, как контрольные диаграммы, кумулятивные диаграммы заболеваемости, кривые выживаемости и другие диаграммы, основанные на времени, он '

С другой стороны, некоторые модели «строятся» благодаря гибкости адаптации по мере роста данных. Выявление тенденций в Twitter и система рекомендаций Netflix являются яркими примерами таких моделей. Они имеют общую спецификацию (Байесовская модель усреднения, для последнего), которая позволяет гибкую модель учитывать исторические сдвиги и тенденции и перекалибровать для поддержания наилучшего прогноза, такого как внедрение фильмов с высокой отдачей, большой охват новых пользователей или драматический сдвиг в предпочтениях фильма из-за сезонности.

Некоторые из подходов к интеллектуальному анализу данных введены потому, что они очень хороши в достижении определенных типов подходов прогнозирования (опять же, проблема получения «ожидаемых» трендов или значений в данных). K-NN - это способ объединения данных большого размера и определения, могут ли субъекты получать надежные прогнозы просто из-за близости (будь то по возрасту, музыкальному вкусу, сексуальной истории или какой-либо другой измеримой характеристике). С другой стороны, логистическая регрессия может получить двоичный классификатор, но гораздо чаще используется для определения связи между двоичным исходом и одним или несколькими воздействиями и условиями с помощью параметра, называемого отношением шансов. Из-за предельных теорем и их связи с обобщенными линейными моделями отношения шансов являются весьма регулярными параметрами, которые имеют «весьма консервативную» ошибку типа I (т.е.


Спасибо за ваши слова. В случае обнаружения Netflix в Твиттере, разве это не более или менее в области машинного обучения? Я часто не могу провести грань между моделированием и машинным обучением.
user13985

1
Машинное обучение - это обычно многомерное моделирование. Многие методы являются частными случаями существующих методов, основанных на вероятности, с применением штрафов или взвешиваний.
AdamO

Спасибо за подтверждение моих мыслей, дайте мне знать, если вы хотите что-нибудь еще.
user13985

3

Моделирование - это процесс определения подходящей модели.

Часто модельер будет иметь хорошее представление о важных переменных и, возможно, даже иметь теоретическую основу для конкретной модели. Они также будут знать некоторые факты об ответе и общих типах отношений с предикторами, но могут все еще не быть уверены, что их общее представление о модели полностью адекватно - даже с превосходной теоретической идеей о том, как должно работать среднее, они могут, например, не быть уверены, что дисперсия не связана со средним, или они могут подозревать, что возможна некоторая последовательная зависимость.

Таким образом, может быть цикл из нескольких этапов идентификации модели, который ссылается на (по крайней мере, некоторые из) данных. Альтернатива состоит в том, чтобы регулярно рисковать, имея совершенно неподходящие модели.

(Конечно, если они несут ответственность, они должны учитывать, как использование данных таким образом влияет на их выводы.)

Фактический процесс варьируется от области к области и от человека к человеку, но можно найти некоторых людей, явно перечисляющих этапы своего процесса (например, Бокс и Дженкинс описывают один такой подход в своей книге о временных рядах). Идеи о том, как сделать идентификацию модели, меняются со временем.


0

Я не думаю, что есть общее определение того, что составляет статистическую модель. Из моего опыта работы в отрасли это, по-видимому, является синонимом того, что в эконометрике называется моделью с уменьшенной формой . Я объясню.

Fзнак равномd2ИксdT2

Эта модель будет иметь то, что физики называют «постоянными» или «коэффициентами», например, плотность воздуха при данной температуре и высоте. Вам придется выяснить, что это за коэффициенты экспериментально. В нашем случае мы должны попросить артиллерию стрелять из пушек при различных условиях, которые жестко контролируются, таких как углы, температура и т. Д.

Мы собираем все данные и подбираем модель, используя статистические методы. Это может быть так же просто, как линейная регрессия или средние значения. Получив все коэффициенты, мы теперь запускаем нашу математическую модель для создания таблиц обжига. Это аккуратно описано в неклассифицированном документе здесь , называемом «ПРОИЗВОДСТВО СТОЛОВЫХ СТОЛБОВ ДЛЯ ПУШЕЧНОЙ АРТИЛЛЕРИИ».

То, что я только что описал, не является статистической моделью. Да, он использует статистику, но эта модель использует законы физики, которые являются сущностью модели. Здесь статистика - это простой инструмент для определения значений нескольких важных параметров. Динамика системы описывается и предопределяется полем.

Предположим, что мы не знали или не заботились о законах физики, а просто пытались установить взаимосвязь между расстоянием полета пушки и такими параметрами, как угол стрельбы и температура, используя «статистическую модель». Мы создали бы большой набор данных с набором переменных-кандидатов или признаков, а также преобразований переменных, возможно, полиномиальных рядов температуры и т. Д. Затем мы выполнили бы регрессию сортов и идентифицировали коэффициенты. Эти коэффициенты не обязательно должны быть установлены интерпретации в этой области. Мы бы назвали их чувствительностью к квадрату температуры и т. Д. Эта модель на самом деле может быть достаточно хороша для прогнозирования конечных точек пушечных ядер, потому что основной процесс достаточно стабилен.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.