Что именно означает заимствовать информацию?


11

Я часто говорю, что люди заимствуют или обмениваются информацией в байесовских иерархических моделях. Кажется, я не могу получить прямой ответ о том, что это на самом деле означает и является ли это уникальным для байесовских иерархических моделей. Я вроде понял: некоторые уровни в вашей иерархии имеют общий параметр. Я понятия не имею, как это переводится как «заимствование информации».

  1. Является ли «заимствование информации» / «обмен информацией» модным словом, которое люди любят выбрасывать?

  2. Есть ли пример с закрытыми формами постеров, который иллюстрирует этот феномен совместного использования?

  3. Это уникально для байесовского анализа? Обычно, когда я вижу примеры «заимствования информации», это просто смешанные модели. Может быть, я изучил эти модели старомодным способом, но я не вижу никакого обмена.

Я не заинтересован в том, чтобы начинать философские дебаты о методах. Мне просто любопытно использовать этот термин.


1
Для вашего вопроса 2. вы можете найти эту ссылку освещающей: tjmahr.com/plotting-partial-pooling-in-mixed-effects-models .
Изабелла Гемент

Я хотел бы видеть упоминание теории информации в ответах здесь.
shadowtalker

Ответы:


10

Этот термин специально взят из эмпирического байесовского алгоритма (EB), на самом деле концепция, к которой он относится, не существует в истинном байесовском выводе. Первоначальный термин был «сила заимствования», который был придуман Джоном Тьюки еще в 1960-х годах и популяризирован Брэдли Эфроном и Карлом Моррисом в серии статистических статей о парадоксе и параметрическом ЭБ Штейна в 1970-х и 1980-х годах. Многие люди теперь используют «заимствование информации» или «обмен информацией» в качестве синонимов для одной и той же концепции. Причина, по которой вы можете услышать это в контексте смешанных моделей, заключается в том, что наиболее распространенные анализы для смешанных моделей имеют интерпретацию EB.

EB имеет много применений и применяется ко многим статистическим моделям, но контекст всегда заключается в том, что у вас есть большое количество (возможно, независимых) наблюдений, и вы пытаетесь оценить конкретный параметр (например, среднее значение или дисперсию) в каждом случае. В байесовском выводе вы делаете последующие выводы о параметре, основываясь как на данных наблюдений для каждого случая, так и на предыдущем распределении для этого параметра. В выводе EB предварительное распределение для параметра оценивается из всей совокупности случаев данных, после чего вывод происходит так же, как для байесовского вывода. Следовательно, когда вы оцениваете параметр для конкретного случая, вы используете как данные для этого случая, так и предполагаемое предыдущее распределение, а последнее представляет «информацию» или «силу»

Теперь вы можете понять, почему у EB есть «заимствование», а у истинного Байеса - нет. В истинном Байесе предварительное распределение уже существует, поэтому его не нужно просить или заимствовать. В EB предварительное распределение было создано из самих данных наблюдений. Когда мы делаем вывод о конкретном случае, мы используем всю наблюдаемую информацию из этого случая и немного информации из каждого из других случаев. Мы говорим, что это только «заимствовано», потому что информация возвращается, когда мы переходим к следующему делу.

Идея EB и «заимствование информации» широко используется в статистической геномике, когда каждый «случай» обычно представляет собой ген или геномную особенность (Smyth, 2004; Phipson et al, 2016).

использованная литература

Эфрон, Брэдли и Карл Моррис. Парадокс Штейна в статистике. Scientific American 236, нет. 5 (1977): 119-127. http://statweb.stanford.edu/~ckirby/brad/other/Article1977.pdf

Смит Г.К. (2004). Линейные модели и эмпирические байесовские методы оценки дифференциальной экспрессии в экспериментах с микрочипами. Статистические приложения в генетике и молекулярной биологии Том 3, выпуск 1, статья 3. http://www.statsci.org/smyth/pubs/ebayes.pdf

Phipson, B, Lee, S, Majewski, IJ, Alexander, WS, и Smyth, GK (2016). Надежная оценка гиперпараметра защищает от гипервариабельных генов и повышает способность определять дифференциальную экспрессию. Анналы прикладной статистики 10, 946-963. http://dx.doi.org/10.1214/16-AOAS920


1
Я не думаю, что эта интерпретация верна. Например, модели смешанных эффектов заимствуют информацию, но могут быть проанализированы в традиционном байесовском контексте
Cliff AB

1
@CliffAB Если вы покопаетесь в смешанном модельном анализе, вы обнаружите, что анализ практически всегда эмпирический, а не истинный байесовский. Большинство авторов, конечно, скажут, что они делают байесовский анализ, когда это на самом деле EB, потому что большинство авторов не делают различий. Если вы думаете, можете ли вы привести пример истинного анализа смешанной модели Байеса, то я приглашаю вас сделать это.
Гордон Смит

1
@CliffAB В меньшинстве случаев, когда для смешанных моделей используется настоящий байесовский анализ (например, MCMC или Winbugs), тогда использование термина «информация о заимствовании» было бы неуместным. Это, безусловно, не согласилось бы с тем, что Тьюки и Эфрон имели в виду под «заимствованием».
Гордон Смит

1
@CliffAB Я согласен, что brms - это байесовский пакет, поэтому термин «заимствовать информацию» не встречается в документации brms.
Гордон Смит

1
Простые байесовские модели не «заимствуют информацию», но многоуровневые модели делают, хотя я думаю, что более популярный термин в этой области - «частичное объединение». Вот классическое обсуждение этого от А. Гельмана. В общем, если вы принимаете идею о том, что модели смешанных эффектов «заимствуют информацию», я не уверен, как можно сказать, что смешанные эффекты Байеса этого не делают; предыдущий появляется на уровне ниже заимствованной информации. Если говорят, что модели со смешанными эффектами не заимствуют информацию, это объясняет мою путаницу по поводу вашей претензии.
Клифф AB

5

Рассмотрим простую задачу, такую ​​как оценка средних для нескольких групп. Если ваша модель рассматривает их как совершенно не связанные, то единственная информация, которую вы имеете о каждом значении, - это информация в этой группе. Если ваша модель рассматривает их средства как несколько связанные (например, в некоторой модели типа смешанных эффектов), то оценки будут более точными, потому что информация из других групп информирует (упорядочивает, сокращает в сторону общего среднего) оценку для данной группы. Это пример «заимствования информации».

Понятие возникает в актуарной работе, связанной с достоверностью (не обязательно с этим конкретным термином «заимствование», хотя заимствование в этом смысле явно указано в формулах); это проделано долгий путь, по крайней мере, сто лет назад, с явными предшественниками, восходящими к середине девятнадцатого века. Например, см. Longley-Cook, LH (1962) Введение в теорию правдоподобия PCAS, 49, 194-221.

Вот Уитни, 1918 (Theory of Experience Rating, PCAS, 4, 274-292):

Вот, например, риск, который явно следует отнести к механическому цеху. Поэтому при отсутствии другой информации он должен подделывать курс механического цеха, а именно средний уровень для всех рисков этого класса. С другой стороны, у риска был собственный опыт. Если риск велик, это может быть лучшим руководством к его опасности, чем опыт класса. В любом случае, является ли риск большим или маленьким, оба эти элемента имеют свою ценность в качестве доказательства, и оба должны быть приняты во внимание. Трудность возникает из-за того, что в целом доказательства противоречивы; поэтому проблема состоит в том, чтобы найти и применить критерий, который придаст каждому свой вес.

Хотя термин «заимствование» здесь отсутствует, понятие использования информации на уровне группы для информирования нас об этом механическом цехе явно присутствует. [Понятия остаются неизменными, когда «сила заимствования» и «информация о заимствовании» начинают применяться к этой ситуации]


1
Я ценю этот пример, поскольку он ясно объясняет, что делает заимствование, но я ищу более точное определение.
EliK

Точное определение неточным, интуитивный термин? Я полагаю, что это возможно - можно было бы определить это с точки зрения уменьшения дисперсии путем соотнесения параметров между группами, но можно очень легко исключить вероятное использование этого понятия, выполнив это
Glen_b -Reinstate Monica

Мне не было ясно, есть ли у неточной интуиции реальное определение.
Илия

3

σр2

σр2σр2

σр2σр2σрσр2, Чем меньше информации в данных, тем более важной становится предшествующая информация. Если вы еще этого не сделали, я предлагаю попробовать смоделировать модели смешанных эффектов только с несколькими объектами. Вы можете быть удивлены, насколько нестабильны оценки из методов Frequentist, особенно когда вы добавляете только один или два выброса ... и как часто можно увидеть реальные наборы данных без выбросов? Я считаю, что эта проблема освещена в Байесовском анализе данных Гельманом и др., Но, к сожалению, я не думаю, что он общедоступен, поэтому нет гиперссылки.

Наконец, многоуровневое моделирование - это не просто смешанные эффекты, хотя они являются наиболее распространенными. Любую модель, в которой на параметры влияют не только априоры и данные, но и другие неизвестные параметры, можно назвать многоуровневой моделью. Конечно, это очень гибкий набор моделей, но он может быть написан с нуля и соответствовать минимальному объему работы с использованием таких инструментов, как Stan, NIMBLE, JAGS и т. Д. В этом смысле я не уверен, что скажу многоуровневый моделирование - это «ажиотаж»; в принципе, вы можете написать любую модель, которая может быть представлена ​​в виде направленного ациклического графаи установите его немедленно (при условии, что он имеет разумное время выполнения). Это дает гораздо большую мощность и потенциальную креативность, чем традиционный выбор (т. Е. Пакеты регрессионных моделей), но при этом не требует создания целого R-пакета с нуля, чтобы соответствовать модели нового типа.


Спасибо за ответ. Чтобы уточнить, я не предполагал, что многоуровневое моделирование является "обманом". Я спрашивал, имеет ли «заимствование информации» точное значение, или этот конкретный термин просто обман.
EliK

@EliK: я не уверен, что это имеет точное значение; Гордон Смит дает то, что некоторые могут считать точным значением, т. Е. Эмпирическим байесовским, но то, как я вижу этот термин, обычно используемый сейчас, похоже, не соответствует этому значению. Лично я не думаю, что это просто обман; это именно мотивация для использования моделей смешанных эффектов над моделями с фиксированными эффектами, хотя это выходит за рамки только стандартной модели регрессионной модели. Я думаю, что многие люди говорят о более расплывчатом «многоуровневом моделировании» вместо более точного «моделирования смешанных эффектов», потому что сейчас это более модно.
Клифф AB

Я бы сказал, что шумиха в ML-публикациях и блогах, где утверждается, что вам нужны байесовские модели для реализации многоуровневых моделей. Я был бы заинтересован в работающем примере - где можно сравнить с перекрестной проверкой регуляризованной модели (для прогнозирования)
seanv507

Для чего бы это ни стоило, единственной альтернативой байесовскому является Максимальное правдоподобие, которое является просто байесовским с единым предшествующим. Так что это не совсем так.
Shadowtalker

1
@shadowtalker: если вы считаете методы MLE байесовскими, то в статистике слово байесовское не имеет смысла. Однако это согласуется с некоторыми ошибками, которые я вижу в литературе по ОД.
Клифф AB

2

Я предполагаю, что, поскольку вы пометили машинное обучение, что вы заинтересованы в предсказании, а не в умозаключении (я думаю, что я согласен с ответом @Glen_b, но просто перевожу этот контекст / словарь)

Я бы сказал, что в этом случае это модное слово. Регуляризованная линейная модель с групповой переменной будет заимствовать информацию: прогноз на индивидуальном уровне будет сочетать среднее по группе и индивидуальный эффект. Один из способов представить регуляризацию l1 / l2 состоит в том, что она присваивает коэффициент затрат на уменьшение общей ошибки, поскольку групповая переменная влияет на большее количество выборок, чем на отдельную переменную, поэтому будет необходимо оценить групповой эффект, оставив меньшее отклонение от групповой эффект для каждой отдельной переменной.

Для отдельных точек с достаточным количеством данных индивидуальный эффект будет «сильным», для тех, у которых мало данных, эффект будет слабым.

Я думаю, что самый простой способ увидеть это - рассмотреть регуляризацию L1 и 3 человека из одной группы с одинаковым эффектом. Нерегулярная проблема имеет бесконечное число решений, тогда как регуляризация дает единственное решение.

Присвоение всего эффекта групповому коэффициенту имеет самую низкую норму l1, поскольку нам нужно только 1 значение, чтобы охватить 3 человека. И наоборот, назначение всего эффекта отдельным коэффициентам имеет худшее значение, а именно, в 3 раза больше нормы l1 назначения эффекта групповому коэффициенту.

Обратите внимание, что у нас может быть столько иерархий, сколько мы хотим, и на взаимодействия влияют одинаково: регуляризация будет продвигать эффекты к основным переменным, а не к более редким взаимодействиям.

Блог tjmahr.com/plotting-partial-pooling-in-mixed-effects-models . - связано с @IsabellaGhement дает цитату для заимствования силы

«Этот эффект иногда называют усадкой, потому что усадка более экстремальных значений стремится к более разумному, более среднему значению. В книге lme4 Дуглас Бейтс предоставляет альтернативу усадке [имя]»

Термин «усадка» может иметь отрицательное значение. Джон Тьюки предпочитал называть этот процесс оценками для отдельных субъектов, которые «заимствовали силы» друг у друга. Это принципиальное отличие моделей, лежащих в основе моделей смешанных эффектов, и моделей со строго фиксированными эффектами. В модели смешанных эффектов мы предполагаем, что уровни группирующего фактора являются выборкой из совокупности и, как следствие, можно ожидать, что в некоторой степени будут иметь общие характеристики. Следовательно, предсказания из модели смешанных эффектов ослабляются относительно предсказаний из моделей со строго фиксированными эффектами.


Что такое предсказание, если не конкретный вид вывода?
Shadowtalker

0

Другой источник, который я хотел бы рекомендовать по этой теме, который я считаю особенно поучительным, - «Введение Эмпирического Байеса» Дэвида Робинсона .

Его бегущим примером является то, удастся ли бейсболисту ударить следующий брошенный в него мяч. Ключевая идея заключается в том, что если игрок присутствует в течение многих лет, у него есть достаточно четкое представление о том, насколько он способен, и, в частности, можно использовать его наблюдаемое среднее значение ватина в качестве довольно хорошей оценки вероятности успеха в следующем шаге.

И наоборот, игрок, который только начал играть в лиге, еще не раскрыл большую часть своего настоящего таланта. Таким образом, кажется мудрым выбор скорректировать оценку вероятности его успеха в сторону некоторого общего среднего значения, если он был особенно успешен или неуспешен в своих первых нескольких играх, поскольку это, по крайней мере, в некоторой степени, связано с удачей или неудачей ,

Как незначительный момент, термин «заимствование», безусловно, не используется в том смысле, что что-то, что было заимствовано, должно быть возвращено в какой-то момент ;-).

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.