Каковы «большие проблемы» в статистике?


77

Математика имеет свои знаменитые проблемы тысячелетия (и, исторически, 23 Гильберта ), вопросы, которые помогли сформировать направление поля.

Я, однако, мало представляю себе, какими будут гипотезы Римана и P против NP статистики.

Итак, каковы общие открытые вопросы в статистике?

Отредактировано, чтобы добавить: В качестве примера общего духа (если не совсем специфичности) ответа, который я ищу, я нашла лекцию Дэвида Донохо, вдохновленную «Гильбертом 23», на конференции «Математические вызовы 21-го века»: Анализ многомерных данных: проклятия и благословения размерности

Таким образом, потенциальный ответ мог бы говорить о больших данных и о том, почему это важно, о типах статистических задач, которые представляют собой многомерные данные, и о методах, которые необходимо разработать, или о вопросах, на которые необходимо ответить, чтобы помочь решить проблему.


5
Спасибо за публикацию. Это важная (и потенциально вдохновляющая) дискуссия.
whuber

Ответы:


48

Большой вопрос должен включать в себя основные вопросы статистической методологии или, поскольку статистика полностью о приложениях, она должна касаться как статистики используется с проблемами , важными для общества.

Эта характеристика предполагает, что при рассмотрении больших проблем следует учитывать следующее:

  • Как лучше всего проводить испытания лекарств . В настоящее время классическая проверка гипотез требует многих формальных этапов изучения. На более поздних (подтверждающих) этапах экономические и этические проблемы вырисовываются. Можем ли мы сделать лучше? Должны ли мы включать сотни или тысячи больных людей в контрольные группы и держать их там, например, до конца исследования, или мы можем найти более эффективные способы определения методов лечения, которые действительно работают, и предоставить их участникам испытания (и другие) раньше?

  • Справиться с предвзятостью научной публикации . Отрицательные результаты публикуются гораздо проще, потому что они просто не достигают магического p-значения. Все отрасли науки должны найти более эффективные способы , чтобы пролить свет на научные , а не только статистически значимые результаты. (Проблема множественных сравнений и работа с многомерными данными являются подкатегориями этой проблемы.)

  • Исследование пределов статистических методов и их интерфейсов с машинным обучением и машинным познанием . Неизбежные достижения в области компьютерных технологий сделают настоящий ИИ доступным в наши жизни. Как мы собираемся программировать искусственный мозг? Какую роль может сыграть статистическое мышление и статистическое обучение в создании этих достижений? Как статистики могут помочь в размышлениях об искусственном познании, искусственном обучении, в исследовании их ограничений и достижении прогресса?

  • Разработка лучших способов анализа геопространственных данных . Часто утверждается, что большинство или подавляющее большинство баз данных содержат ссылки на местоположение. Вскоре многие люди и устройства будут находиться в режиме реального времени благодаря технологиям GPS и сотовых телефонов. Статистические методы для анализа и использования пространственных данных на самом деле находятся в зачаточном состоянии (и, по-видимому, относятся к ГИС и пространственному программному обеспечению, которое обычно используется не статистиками).


1
Как люди пытаются решить эти проблемы?
raegtin

3
@grautur: Это четыре отличных вопроса (плюс еще много, потому что ваш ответ относится к каждому ответу в этой теме). Все они заслуживают сложных ответов, но, очевидно, здесь нет места для этого: один вопрос за раз, пожалуйста!
whuber

3
Относительно первой пули (испытания лекарственных препаратов): даже люди, которые в противном случае могли бы не интересоваться медицинскими экспериментами, должны прочитать статью NYTimes « Обсуждение вопроса о новых лекарственных препаратах и ​​основных правилах клинических испытаний» ( nytimes.com/2010/09/19/health/research/) … ) Статистически грамотный читатель сразу увидит неустановленные последствия, касающиеся дизайна эксперимента и использования p-значений для принятия решений. Где-то есть статистическое разрешение загадки жизни и смерти, описанной в этой статье.
whuber

26

У Майкла Джордана есть небольшая статья под названием « Что такое открытые проблемы в байесовской статистике»? , в котором он опросил кучу статистиков за их взгляды на открытые проблемы в статистике. Я подведу итоги (иначе, скопируйте и вставьте) немного здесь, но, вероятно, лучше просто прочитать оригинал.

Непараметрика и полупараметрика

  • Для каких задач Байесовские непараметрики полезны и стоят ли они проблем?
  • Дэвид Дансон: «Непараметрические байесовские модели включают в себя бесконечное множество параметров, и для удобства обычно выбираются априоры, для которых гиперпараметры установлены на приемлемые, казалось бы, значения без надлежащей объективной или субъективной обоснованности».
  • «Несколько человек отметили, что одним из привлекательных применений частичных непараметрик является полупараметрический вывод, где непараметрический компонент модели является неприятным параметром. Эти люди считали, что было бы желательно развить теорию (частотности) Байесовская полупараметрика. "

Приоры

  • «Выявление остается основным источником открытых проблем».
  • «Аад ван дер Ваарт повернул объективный Байес с ног на голову и указал на отсутствие теории для« ситуаций, в которых нужно, чтобы предшествующий проходил через задний план », в отличие от« просто обеспечения байесовского подхода к сглаживанию ».

Байесовские / частые отношения

  • «Многие респонденты выразили желание еще больше выработать отношения Байеса и частоты. Это чаще всего проявлялось в контексте многомерных моделей и данных, где не только сложны в реализации субъективные подходы к спецификации априоров, но и априорные удобства (очень) вводит в заблуждение. "
  • «Некоторые респонденты тосковали по не асимптотической теории, которая могла бы более полно раскрыть предполагаемые преимущества байесовских методов; например, Дэвид Дансон: «Часто, оптимальная частота для частых лиц получается с помощью процедур, которые явно работают намного хуже в конечных выборках, чем байесовские подходы».

Вычисления и статистика

  • Алан Гельфанд: «Если MCMC больше не жизнеспособен для проблем, которые люди хотят решать, то какова роль INLA, вариационных методов, подходов ABC?»
  • «Несколько респондентов попросили более тщательно интегрировать вычислительную науку и статистическую науку, отметив, что набор выводов, к которому можно прийти в любой конкретной ситуации, совместно является функцией модели, априора, данных и вычислительных ресурсов, и желая для более четкого управления компромиссами между этими величинами. Действительно, Роб Касс поднял возможность понятия «логической разрешимости», где некоторые проблемы, как понимают, не имеют надежды (например,выбор модели в регрессии, где «для скромных объемов данных, подверженных нетривиальному шуму, невозможно получить полезные доверительные интервалы относительно коэффициентов регрессии, когда имеется большое количество переменных, чье присутствие или отсутствие в модели априори не определено») и где Есть другие проблемы («определенные функционалы, для которых существуют полезные доверительные интервалы»), на которые есть надежда ».
  • «Несколько респондентов, извиняясь за определенную неопределенность, выразили мнение, что большой объем данных не обязательно подразумевает большой объем вычислений; скорее, что каким-то образом логическая сила, присутствующая в больших данных, должна быть перенесена в алгоритм и сделать это возможным обойтись меньшим количеством вычислительных шагов, чтобы получить удовлетворительное (приблизительное) логическое решение ».

Выбор модели и проверка гипотез

  • Джордж Казелла: «Сейчас мы делаем выбор модели, но байесовцы, похоже, не беспокоятся о свойствах базирования вывода на выбранной модели. Что, если это не так? Каковы последствия установки надежных областей для определенного параметра когда вы выбрали неправильную модель? Можем ли мы иметь процедуры с какой-то гарантией? "β1
  • Потребность в большей работе над теоретико-основательными решениями при выборе модели.
  • Дэвид Шпигельхальтер: «Как лучше всего сделать проверку на наличие предшествующего конфликта данных неотъемлемой частью байесовского анализа?»
  • Эндрю Гельман: «Для проверки моделей ключевой открытой проблемой является разработка графических инструментов для понимания и сравнения моделей. Графика не только для необработанных данных; скорее, сложные байесовские модели дают возможность для лучшего и более эффективного анализа исследовательских данных».

13

Я не уверен, насколько они велики, но есть страница Википедии для нерешенных проблем в статистике. Их список включает в себя:

Вывод и тестирование

  • Систематические ошибки
  • Допустимость оценки Грейбилла – Дила
  • Объединение зависимых p-значений в мета-анализе
  • Проблема Беренса-Фишера
  • Многократные сравнения
  • Открытые проблемы в байесовской статистике

Экспериментальная конструкция

  • Проблемы на латинских квадратах

Проблемы более философского характера

  • Выборка проблемы вида
  • Аргумент судного дня
  • Обменный парадокс

6

В качестве примера общего духа (если не совсем специфичности) ответа, который я ищу, я нашел лекцию Дэвида Донохо, вдохновленную «Гильбертом 23», на конференции «Математические вызовы XXI века»:

Анализ многомерных данных: проклятия и благословения размерности


2
Могу ли я предложить вам отредактировать ваш главный вопрос, чтобы включить эту информацию?
Расселпирс

4

У Mathoverflow аналогичный вопрос о больших проблемах в теории вероятностей .

Из этой страницы следует, что самые большие вопросы связаны с тем, чтобы избегать случайных прогулок и перколяций.


1
Я думаю, что статистика - это отдельная область от теории вероятностей.
raegtin

3
@ raegtin - Я не думаю, что теория вероятностей отделена от статистики, скорее это теория. «Статистика» - это применение теории вероятностей к логическим выводам (то есть к практике).
вероятностная


3

Мой ответ будет борьба между частыми и байесовской статистики. Когда люди спрашивают тебя, в кого ты "веришь", это не хорошо! Особенно для научной дисциплины.


2
Нет ничего плохого в том, что ученый «верит» во что-то, тем более что байесовская вероятность представляет собой степень веры или знания относительно истинности какого-либо утверждения.
Дикран Marsupial

2
... Проблема возникает только тогда, когда ученый не может отличить убеждение от факта. Нет ничего ненаучного в убеждении, что байесовская статистика или статистика часто используются лучше, так как нет объективного теста, который может решить вопрос (AFAIK), поэтому выбор в значительной степени субъективен и / или вопрос «лошадей на курсах».
Дикран Marsupial

@propofol - я согласен с тем, что слово «верить» не является подходящим понятием для использования в статистике - оно несет неверные коннотации. Я думаю, что информация - это гораздо более подходящее слово (например, «какая у вас информация?»). Это не меняет математики или теоремы оптимальности байесовского анализа, но дает им правильное значение с точки зрения их фактического использования. Например, знание физической теории или причинного механизма - это информация, а не вера.
вероятностная
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.