Каковы прорывы в статистике за последние 15 лет?


56

Я до сих пор помню документ «Анналы статистики» Фридмана-Хасти-Тибширани об усилении, а также комментарии других авторов (включая Фрейнда и Шапира) по тем же вопросам. В то время очевидно, что Boosting рассматривался как прорыв во многих отношениях: выполнимый в вычислительном отношении метод ансамбля с превосходными, но загадочными характеристиками. Примерно в то же время SVM достиг совершеннолетия, предлагая структуру, основанную на твердой теории и с большим количеством вариантов и приложений.

Это было в чудесных 90-х. В последние 15 лет мне кажется, что большая часть статистики была операцией очистки и детализации, но с несколькими действительно новыми взглядами.

Поэтому я задам два вопроса:

  1. Я пропустил какую-то революционную / оригинальную статью?
  2. Если нет, то есть ли новые подходы, которые, по вашему мнению, могут изменить точку зрения на статистический вывод?

Правила:

  1. Один ответ на пост;
  2. Ссылки или ссылки приветствуются.

PS: у меня есть пара кандидатов на многообещающие прорывы. Я опубликую их позже.


5
См. Stats.stackexchange.com/q/1883/159 для аналогичного вопроса (который был закрыт как субъективный и аргументированный).
Роб Хиндман

1
Я собирался поднять ту же тему. Пахнет как дубликат.
Дирк Эддельбюттель

1
Это субъективно, конечно, но разве это не нормально для CW?
Кристофер Аден

1
Это было в более длительном масштабе времени. Я не думаю, что это дубликат. Что касается аргументации, это до участников. Я не пытаюсь присудить здесь трофей, просто чтобы быть в курсе оригинальных документов, которые я и другие, возможно, пропустили. Поскольку нет правильного ответа, я все за CW. Мне интересно, что пока все ответы на байесовские инновации.
gappy

2
Это похоже на пост, который можно запечатлеть. Я думаю, что это может остаться открытым.
gung - Восстановить Монику

Ответы:


43

Ответ настолько прост, что мне нужно написать все это бред, чтобы составить резюме, позвольте мне опубликовать его: R


14

Я не уверен, что вы бы назвали это «прорывом» как таковым, но публикация теории вероятностей: логика науки Эдвином Джейнсом и Ларри Бретторстом заслуживает внимания. Некоторые из вещей, которые они делают здесь:

1) показать эквивалентность между некоторыми итерационными схемами «сезонной корректировки» и байесовской интеграцией «параметра помех».

2) разрешен так называемый «парадокс маргинализации», который некоторые считают «смертью байесовства», а другими - «смертью ненадлежащих первоисточников».

3) идея о том, что вероятность описывает состояние знания о том, что суждение является истинным или ложным, в отличие от описания физического свойства мира .

Первые три главы этой книги доступны бесплатно здесь .


2
К сожалению, разрешение Джейнсом парадокса маргинализации было ошибочным. См. Заметки Кевина Ван Хорна о трактовке Джейнсом парадокса маргинализации , доступные здесь .
Cyan

1
@cyan - Обратите внимание, что, хотя в некоторых областях его разрешение было ошибочным, его основополагающие принципы решили его. Общее правило правильных априорных значений и их сходящихся пределов означает, что mp не может возникнуть. Ошибка, скорее всего, из-за того, что книга была незакончена на протяжении большей части второй. Мне нравится разрешение [здесь] ( arxiv.org/abs/math/0310006 ) лучше, чем версия ksvh. короче и более общий.
вероятностная

14

Как специалист по прикладной статистике, а иногда и второстепенный автор программного обеспечения, я бы сказал:

WinBUGS (выпущен в 1997 году)

Он основан на BUGS, выпущенном более 15 лет назад (1989), но именно WinBUGS сделал байесовский анализ реально сложных моделей доступным для гораздо более широкой пользовательской базы. См., Например, Lunn, Spiegelhalter, Thomas & Best (2009) (и обсуждение этого в Статистике в медицине, том 28, выпуск 25 ).


2
Как это изменить сейчас, когда Stanнет?
Ари Б. Фридман

13

kii


Вы когда-нибудь использовали LARS? Я спрашиваю, потому что я никогда не слышал об этом раньше, и это звучит очень интересно. Оригинальная статья довольно длинная (93 страницы), поэтому я хотел бы получить некоторое мнение, прежде чем углубиться в нее.
Томек Тарчински

@Tomek Tarczynski: Я использовал это небольшое количество. В Matlab есть пакет (я уверен, что есть один или несколько в R), который я использовал. Это также обеспечивает разреженный PCA, который меня больше интересовал. Я признаю, что только просмотрел бумагу. ;)
Шаббычеф

11

Внедрение в теорию принятия решения функции потерь "внутреннего несоответствия" и других функций "без параметризации". У этого есть много других "хороших" свойств, но я думаю, что лучше всего следующее:

θθeθg(θ)g(θe)

Я думаю, что это очень круто! (например, наилучшая оценка log-odds - log (p / (1-p)), наилучшая оценка дисперсии - квадрат стандартного отклонения и т. д. и т. д.)

Подвох? внутреннее несоответствие может быть довольно трудно решить! (включает в себя функцию min (), отношение правдоподобия и интегралы!)

"Контрудар"? Вы можете «перестроить» задачу так, чтобы ее было легче рассчитать!

«Встречный встречный улов»? выяснить, как «перестроить» проблему, может быть сложно!

Вот некоторые ссылки, которые я знаю, которые используют эту функцию потери. Хотя мне очень нравятся части «внутренних оценок» этих статей / слайдов, у меня есть некоторые оговорки в отношении подхода «предварительная оценка», который также описан.

Байесовская проверка гипотез: эталонный подход

Внутренняя оценка

Сравнение нормальных средств: новые методы для старой проблемы

Комплексная объективная байесовская оценка и проверка гипотез



9

Сложив свои 5 центов, я считаю, что самым значительным прорывом за последние 15 лет стало сжатие, обнаружение. LARS, LASSO и множество других алгоритмов попадают в эту область, в которой Compressed Sensing объясняет, почему они работают, и распространяет их на другие области.


1
Я посмотрел на Compressed Sensing и, как нестатик, продолжаю спрашивать себя: «Разве это не просто обратная случайная проекция?». Я знаю, что «просто» - это простое слово, но люди чувствуют, что упускают то, что кажется очевидной связью между случайной проекцией (около 2000 г.) и сжатым восприятием (около 2004 г.).
Уэйн

9

Что-то, что имеет очень мало общего с самой статистикой, но принесло огромную пользу: увеличение огневой мощи компьютеров, повышение доступности больших массивов данных и более сложный статистический анализ, особенно в прикладных областях.


8

Алгоритм ожидания-распространения для байесовского вывода, особенно в классификации Гауссовского процесса, был, возможно, значительным прорывом, поскольку он обеспечивает эффективный метод аналитической аппроксимации, который работает почти так же, как вычислительно-дорогостоящие подходы, основанные на выборке (в отличие от обычного приближения Лапласа). Смотрите работу Томаса Минки и других на дорожной карте EP


ЕР кажется крутой (хотя все равно болит голова). У него все еще нет общих гарантий конвергенции?
конъюнктура

7

Мы можем включить в этот 2011 год дальнейшее развитие в связи со стохастическими уравнениями в частных производных Линдгрен, Рю и Линдстрем
Ив

2

На мой взгляд, все, что позволяет вам запускать новые модели в больших масштабах, является прорывом. Ядро интерполяции для масштабируемых структурированных гауссовских процессов (KISS-GP) может быть кандидатом (хотя идея является новой и не было много реализаций представленной идеи).


2

Хотя это и немного более общее, чем статистика, я думаю, что были достигнуты важные успехи в методах воспроизводимых исследований (ОР) . Например, развитие R knittrиSweaveпакеты и записные книжки «R Markdown», улучшения LyX и LaTeX внесли значительный вклад в обмен данными, совместную работу, проверку / валидацию и даже дополнительные улучшения статистики. Рецензируемые статьи в статистических, медицинских и эпидемиологических журналах редко позволяли легко воспроизвести результаты до появления этих воспроизводимых методов / технологий исследования. В настоящее время несколько журналов требуют воспроизводимых исследований, и многие статистики используют RR и публикуют код, свои результаты и источники данных в Интернете. Это также помогло укрепить дисциплины науки о данных и сделало статистическое обучение более доступным.


1

На мой взгляд, статья опубликована в 2011 году в журнале Science. Авторы предлагают очень интересную меру связи между парой случайных величин, которая хорошо работает во многих ситуациях, когда подобные меры терпят неудачу (Pearson, Spearman, Kendall). Действительно хорошая бумага. Вот.


Ссылка не работает.
dsaxton

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.