Поддержал ли журнал Science анализ анализов в Саду Форка?


29

Идея адаптивного анализа данных заключается в том, что вы меняете свой план анализа данных, когда узнаете о них больше. В случае исследовательского анализа данных (EDA) это, как правило, хорошая идея (вы часто ищете непредвиденные закономерности в данных), но для подтверждающего исследования это широко признается как очень некорректный метод анализа (если только не все шаги четко определены и тщательно спланированы заранее).

При этом адаптивный анализ данных, как правило, состоит в том, сколько исследователей фактически проводят свои анализы, к большому разочарованию статистиков. Таким образом, если бы можно было сделать это статистически обоснованным образом, это произвело бы революцию в статистической практике.

Следующая научная статья утверждает, что нашла способ сделать это (я извиняюсь за платный доступ, но если вы в университете, у вас, вероятно, есть доступ): Dwork et al, 2015, Многоразовое воздержание: сохранение достоверности в адаптивном анализе данных ,

Лично я всегда скептически относился к статистическим статьям, публикуемым в журнале Science , и эта статья ничем не отличается. Фактически, после прочтения статьи дважды, включая дополнительный материал, я не могу понять (вообще), почему авторы утверждают, что их метод предотвращает чрезмерную подгонку.

Насколько я понимаю, у них есть набор данных, который они будут использовать повторно. Похоже, что они «размывают» вывод подтверждающего анализа в наборе данных удержания, переопределение будет предотвращено (стоит отметить, что размытие, кажется, просто добавляет шум, если вычисленная статистика по обучающим данным достаточно далеко из рассчитанной статистики по данным удержания ). Насколько я могу судить, нет реальной причины, по которой это должно предотвратить переоснащение.

Я ошибаюсь в том, что предлагают авторы? Есть ли какой-то тонкий эффект, который я пропускаю? Или Наука одобрила худшую статистическую практику до настоящего времени?


2
Те, у кого нет доступа к Science, могут обратиться к этой недавней новостной статье, чтобы узнать, как получить доступ к платным бумагам.
говорит амеба: восстанови монику

1
Возможно, это препринт: arxiv.org/pdf/1411.2664.pdf ?
Тим

1
@Tim: научная статья цитирует препринт, который вы разместили. Кроме того, раздел «Лапласовское шумоподавление» кажется очень похожим, но не идентичным методам в опубликованной статье.
Клифф А.Б.

1
@CliffAB, поэтому они, возможно, использовали дифференциальную конфиденциальность, чтобы сделать их разными;)
Тим

4
Эта тема на самом деле учебник на ICML в прошлом месяце. "Строгий анализ данных: теория и инструменты для адаптивного анализа данных", написанные одним из сотрудников Google. icml.cc/2016/?page_id=97
horaceT

Ответы:


7

Авторы пишут в блоге, который описывает это на высоком уровне.

Чтобы процитировать в начале этой публикации:

Чтобы уменьшить количество переменных и упростить нашу задачу, мы сначала выбираем некоторые перспективные переменные, например, те, которые имеют положительную корреляцию с переменной отклика (систолическое артериальное давление). Затем мы подгоняем модель линейной регрессии к выбранным переменным. Чтобы измерить качество подбора нашей модели, мы выполнили стандартный F-тест из нашего любимого учебника по статистике и сообщили результирующее значение p.

Фридман показал, что сообщаемое значение p сильно вводит в заблуждение - даже если данные были полностью случайными, без какой-либо корреляции между переменной отклика и точками данных, мы, вероятно, наблюдаем значительное значение p! Смещение связано с тем, что мы адаптивно выбрали подмножество переменных на основе данных, но мы никогда не учитываем этот факт. Существует огромное количество возможных подмножеств переменных, из которых мы выбрали. Тот факт, что мы выбрали один тест перед другим, посмотрев на данные, создает смещение выбора, которое лишает законной силы предположения, лежащие в основе F-теста.

Парадокс Фридмана несет важный урок. Уровни значимости стандартных процедур не охватывают огромное количество анализов, которые можно выбрать для проведения или пропуска. По этой причине адаптивность является одним из основных объяснений того, почему результаты исследований часто бывают ложными, как утверждали Гельман и Локен, которые метко называют адаптивность «садом разветвлений».

Я не вижу, как их техника решает эту проблему вообще. Поэтому, отвечая на ваш вопрос, я полагаю, что они не обращаются к Садовым дорогам, и в этом смысле их техника усыпит людей ложным чувством безопасности. Не сильно отличается от высказывания «Я использовал перекрестную проверку», которое усыпляет многих - кто использовал не вложенное резюме - в ложное чувство безопасности.

Мне кажется, что большая часть публикации в блоге указывает на их технику как лучший ответ на то, как не дать участникам соревнования в стиле Kaggle подняться по градиенту тестового набора. Что полезно, но напрямую не касается путей прохода. Такое ощущение, что в нем есть привкус Wolfram и Google New Science, где будут обрабатываться огромные объемы данных. У этого повествования смешанная запись, и я всегда скептически отношусь к автоматической магии.


3

Я уверен, что я чрезмерно упрощаю эту методику дифференциальной конфиденциальности, но идея имеет смысл на высоком уровне.

Когда вы получаете алгоритм для получения хорошего результата (вау, точность на моем тестовом наборе действительно улучшилась), вы не хотите сразу же делать выводы. Вы хотите принять его только тогда, когда улучшение значительно больше, чем в предыдущем алгоритме. Это причина для добавления шума.

РЕДАКТИРОВАТЬ: этот блог имеет хорошее объяснение и R коды для демонстрации эффективности сумматора шума, http://www.win-vector.com/blog/2015/10/a-simpler-explanation-of-differential-privacy/


Но это не улучшение по сравнению с высказыванием «Я приму только оценочные эффекты » ... что не помешает перенастройке (хотя это немного ослабит его). Интересно отметить, что на их собственных графиках вы можете видеть свидетельства перебора (систематически меньшая сообщаемая ошибка в данных удержания, чем в свежих данных). >τ
Клифф А.Б.

1
@CliffAB У меня такое же ноющее чувство, почему это работает лучше, чем просто порог. Но у них есть доказательства!
horaceT

>τ

@CliffAB Можете ли вы уточнить? где? Это интригующая возможность ....
horaceT

Используя слайды из вашей предыдущей ссылки ( icml.cc/2016/?page_id=97 ), на слайдах 72 и 73, даже при использовании метода «Порог» точность удержания выше, чем у свежих данных при каждом отдельном моделировании, хотя это действительно лучше, чем «стандартное удержание» (которое на самом деле является «стандартным злоупотреблением набором проверочных данных», а не действительной действительной статистической процедурой). К вашему сведению, график на слайдах выглядит так же, как в научной статье (на случай, если у вас нет доступа).
Клифф А.Б.

3

Утверждение о том, что добавление шума помогает предотвратить переоснащение, действительно удерживает здесь воду, поскольку то, что они действительно делают, ограничивает повторное использование удерживающего устройства . Их метод на самом деле делает две вещи: он ограничивает количество вопросов, которые могут быть заданы о несогласных, и сколько из каждого из ответов раскрывает данные о несогласных.

kknn/k

n/kk

Сердцем их метода является связь между алгоритмической стабильностью и переоснащением, которая восходит к концу 1970-х годов (Devroye and Wagner 1978). Грубо говоря, это говорит

AXq=A(X)AXPqxqP

A()f(A())fqAA

В настоящее время существует довольно много работ, анализирующих, как различные процедуры добавления шума контролируют переоснащение. Относительно читаемым является тот из Руссо и Zou ( https://arxiv.org/abs/1511.05219 ). Некоторые более поздние последующие документы по начальной работе Dwork et al. также может быть полезно посмотреть. (Отказ от ответственности: у меня есть две статьи по этой теме, последняя из которых объясняет связь с адаптивным тестированием гипотез: https://arxiv.org/abs/1604.03924 .)

Надеюсь, что все помогает.


0

Я возражаю против вашего второго предложения. Идея, что полный план анализа данных должен быть определен заранее, неоправданна даже в условиях, когда вы пытаетесь подтвердить ранее существовавшую научную гипотезу. Напротив, любой достойный анализ данных потребует некоторого внимания к фактическим данным, которые были получены. Исследователи, которые считают иначе, как правило, являются исследователями, которые полагают, что тестирование значимости является началом и концом анализа данных, практически не имея роли для описательной статистики, графиков, оценок, прогнозов, выбора моделей и т. Д. В этих условиях требуется исправить свои аналитические планы заранее имеет смысл , так как обычные способы , в которых р-значения рассчитываются, требуя, чтобы размер выборки и тесты, которые должны быть проведены, были определены заранее, чтобы увидеть какие-либо данные Это требование мешает аналитику и, следовательно, является одной из многих веских причин не использовать тесты значимости.

Вы можете возразить, что позволить аналитику выбрать, что делать после просмотра данных, позволяющих переобучаться. Это так, но хороший аналитик покажет все проведенные ими анализы, прямо скажет, какая информация в данных использовалась для принятия аналитических решений, и надлежащим образом использует такие методы, как перекрестная проверка. Например, обычно нормально перекодировать переменные на основе полученного распределения значений, но выбор для некоторого анализа 3 предикторов из 100, которые имеют наиболее близкую наблюдаемую связь с зависимой переменной, означает, что оценки ассоциации будут положительными смещен, по принципу регрессии к среднему. Если вы хотите сделать выбор переменных в предиктивном контексте, вам нужно выбрать переменные в сгибах перекрестной проверки или с использованием только обучающих данных.


2
Я полагаю, что многое из того, что вы предлагаете, вписывается в область исследовательского анализа данных (EDA), для которого я одобрил методы адаптивного анализа данных. Я также думаю, что EDA недооценен и должен получить больше кредитов. Но все это ортогонально рассматриваемому вопросу: «Действительно ли эти авторы позволили нам повторно использовать данные проверки для выбора модели в статистически достоверном методе?» Ваше последнее предложение предполагает, что вы, как и я, несколько скептически относитесь к таким выводам.
Клифф AB

Я не думаю, что, например, оценка изначально исследовательская, нет. Если у вас есть научная гипотеза, согласно которой максимальная длина крокодила должна составлять 12 футов, и вы пытаетесь оценить максимальную длину крокодила, чтобы проверить это, вы проводите подтверждающий анализ.
Кодиолог

2
+1, несмотря на три существующих отрицательных голоса. Я согласен с основным пунктом этого ответа (ваше второе предложение), хотя я полностью осознаю, что он довольно спорный. В целом, я думаю, что разница между предварительным и подтверждающим анализом переоценена; анализ реальной жизни часто находится где-то посередине. Тем не менее, я не думаю, что вы ответили (или даже пытались ответить) на вопрос OP, который был о Dwork et al. бумага.
говорит амеба, восстанови Монику

@amoeba "Я не думаю, что вы ответили (или даже пытались ответить) на вопрос OP, который был о Dwork et al. paper" - Да, хотя это все еще стоило опубликовать как ответ, потому что это ставит под сомнение то, что кажется предпосылка вопроса.
Кодиолог

2
+1 к комментарию @ amoeba. Это было бы отличным комментарием к вопросу, но это не ответ.
С. Коласса - Восстановить Монику
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.