Минимизация смещения в объяснительном моделировании, почему? (Галита Шмуэли «Объяснять или предсказывать»)


15

Этот вопрос ссылается на статью Галита Шмуэли «Объяснить или предсказать» .

В частности, в разделе 1.5 «Объяснения и предсказания различны» профессор Шмуэли пишет:

При объяснительном моделировании основное внимание уделяется минимизации смещения для получения наиболее точного представления основной теории.

Это озадачивало меня каждый раз, когда я читал газету. В каком смысле минимизация смещения в оценках дает наиболее точное представление об основной теории?

Я также смотрел выступление профессора Шмуэли здесь , выступившее на JMP Discovery Summit 2017, и она заявляет:

... такие вещи, как модели усадки, ансамбли, вы никогда их не увидите. Потому что эти модели по своей конструкции вводят смещение, чтобы уменьшить общее смещение / дисперсию. Вот почему их там не будет, это не имеет никакого теоретического смысла. Почему вы сделали свою модель преднамеренно предвзятой?

Это на самом деле не проливает свет на мой вопрос, просто повторяет утверждение, которое я не понимаю.

Если в теории много параметров, и у нас мало данных для их оценки, в погрешности оценки будет преобладать дисперсия. Почему в этой ситуации было бы неуместно использовать процедуру предвзятого оценивания, такую ​​как регрессия гребня (что приводит к предвзятым оценкам более низкой дисперсии)?


1
Хороший вопрос! +1 Я задал соответствующий вопрос по адресу stats.stackexchange.com/questions/204386/…
Адриан,

@Adrian Это отличный вопрос, хорошо заданный. Я также хотел бы увидеть подробный ответ на этот вопрос!
Мэтью Друри,

Ответы:


6

Это действительно важный вопрос, который требует ознакомления с миром использования статистических моделей в эконометрических и социологических исследованиях (из того, что я видел, прикладные статистики и разработчики данных, которые выполняют описательную или прогностическую работу, обычно не имеют дело с уклон этой формы). Термин «предвзятость», который я использовал в статье, - это то, что эконометрики и социологи рассматривают как серьезную опасность для вывода причинности из эмпирических исследований. Это относится к разнице между вашей статистической моделью и теоретической моделью, которая лежит в ее основе . Сходным термином является «спецификация модели», тема, широко изучаемая в эконометрике из-за важности «правильного определения вашей регрессионной модели» (по отношению к теории), когда ваша цель - причинное объяснение. Видетьстатья в Википедии по Спецификации для краткого описания. Основной ошибочной спецификацией является недостаточная спецификация , которая называется «Смещение пропущенной переменной» (OVB), когда вы исключаете объясняющую переменную из регрессии, которая должна была быть (согласно теории) - это переменная, которая коррелирует с зависимой переменной и по крайней мере с одной из объясняющих переменных. Смотрите это аккуратное описание ), которое объясняет, каковы последствия этого типа смещения. С теоретической точки зрения, OVB вредит вашей способности вывести причинность из модели.

В приложении к моей статье « Объяснить или предсказать? есть пример, показывающий, как недоопределенная («неправильная») модель может иногда иметь более высокую предсказательную силу. Но теперь, надеюсь, вы можете понять, почему это противоречит цели «хорошей причинно-следственной модели объяснения».


2
Я думаю, что все еще много путаницы в прогнозирующих и объяснительных моделях. Я взял интервью у ученого в крупной страховой компании и спросил, строят ли они прогнозные или объяснительные модели в его команде. Он сказал: «Это не имеет значения» - я не думаю, что он знал разницу.
RobertF
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.