Что делают статистики, которые не могут быть автоматизированы?


26

Будет ли программное обеспечение в конечном итоге сделать статистиков устаревшими? Что сделано, что не может быть запрограммировано в компьютер?


21
Они думают (т. Е. Приносят знания).
gung - Восстановить Монику

10
Интерпретация результатов ;-)
Октябрь

5
тот же вопрос можно задать программистам вообще;)
nb1

4
Мы проектируем исследования, и в частности нам приходится иметь дело с реальными проблемами, когда статистически «лучший» дизайн не может быть реализован. Мы очищаем грязные данные, применяя знания реального мира. Мы также интерпретируем результаты на простом [вставить язык по выбору].
Мишель

13
пить пиво! ; о)
Дикран Сумчатый

Ответы:


28

@ Адам, если вы думаете о статистических исследователях, аналогичных тем, которые работают в других областях - о людях, которые опираются на существующую методологию и знания, - тогда может быть более ясно, что ответ на ваш первый вопрос - «Нет».

Статистики, которые зарабатывают на жизнь простым применением консервированных пакетов программного обеспечения, вполне могут быть заменены компьютерами на каждом этапе, кроме написания дискуссионного раздела статьи, где результаты должны быть интерпретированы. Так что, в этом смысле, да - это может быть автоматизировано (хотя это должно быть сложное программное обеспечение с чертовым процессором на естественном языке).

Однако, как в конечном итоге выясняет большинство исследователей, «консервированные» процедуры, которые часто используют люди, довольно ограничены и должны быть изменены (или должны быть полностью разработаны новые методы), чтобы отвечать на специализированные вопросы исследования - именно здесь необходим человеческий аспект статистики. , Или исследователь должен просто согласиться на несколько иной, но связанный с этим исследовательский вопрос, на который можно ответить с помощью классических методов.

Большинство известных мне статистиков работают на исследовательских работах (например, профессора, ученые-исследователи), где их основная роль заключается в разработке новой методологии. Если бы этот процесс можно было автоматизировать, а это означает, что компьютер может формулировать и применять новую полезную методологию, то, боюсь, исследователи в каждой области устареют.


2
Я думаю, что ваш второй абзац упускает из виду: труден не только конец процесса (интерпретация результатов), но и начало - понимание того, какие методы применять к данным и каким образом, что в общем случае требует понимания природы данных и системы, из которой они пришли.
Каскабель

@Jefromi, как я прокомментировал кому-то ниже, я думаю, что понимание приходит от специалиста в области применения, а не от статистика.
Макрос

Если бы понимание только «пришло» от экспертов в области применения, моя работа была бы намного легче (и намного менее забавной). Есть проблема фрейма: то, что эксперт не думает сказать, может быть важно для статистического анализа. На практике наиболее плодотворное сотрудничество приводит к тому, что эксперт изучает значительный объем статистики, а статистик - значительную часть области применения.
Scortchi - Восстановить Монику

33

Компьютеры сделают статистиков устаревшими только тогда, когда сильный ИИ делает людей в целом устаревшими.

Этот вопрос напоминает мне вопрос о том, «Если существуют все эти надежные статистические методы, почему люди все еще используют другие методы?» Некоторые из ответов - это привычка и обучение, но большая часть этого заключается в том, что вопрос наивен: «надежный» не означает «вам не нужно думать и понимать, что вы делаете», как предполагает вопрос.

Я имею в виду, что вы могли бы загрузить пакет статистики R сегодня и использовать любую базовую статистическую технику к вечеру. Затем вы можете скачать пару пакетов и начать использовать такие эзотерические методы, что большинство из нас даже не слышали о них. Вопрос: вы бы получили разумные ответы? Ответ: вероятно нет.

Алгоритмы автоматизированы, но вам все равно придется совершать множество суждений на протяжении всего пути расследования: от плана атаки до окончательного суждения о том, действительно ли результаты имеют смысл. Чтобы достичь этого, вы на самом деле говорите о компьютерах, подобных Star-Trek, где вы можете сказать: «Компьютер, скажи мне ...», и к этому моменту практически каждое человеческое призвание устарело.


4
+1 за «Компьютеры сделают статистиков устаревшими только тогда, когда сильный ИИ делает людей в целом устаревшими».
Макрос

10

Что может сделать статистика, чего не может компьютер? Напишите оригинальную программу, которой они заменяются.

Помимо этого несколько глупого ответа, корень вопроса заключается в игнорировании фактической науки статистики в пользу ее механики и в полной мере обесценивает роль творческого процесса в статистическом анализе. Это, например, пример автомобиля Питера Флома, в котором говорится, что автомобили изготавливаются с использованием заклепок и сварных швов, поэтому нет никаких причин, по которым новый Mustang не может быть разработан с помощью клепаных и сварочных роботов.

Огромное количество статистических данных включает предметную экспертизу, суждения и творческий подход. «Консервированный» анализ, выполняемый с помощью алгоритма, часто не дает вам наилучшего ответа, и существует множество документированных примеров, когда использование автоматических методов фактически дает вам неправильный ответ - или, по крайней мере, не тот ответ, который, по вашему мнению, вы получаете. Мне больше всего знакомы использование пошаговых процедур выбора переменных на основе p-значений и анализа на основе чисто числовых квантилей, но я уверен, что вы можете найти множество других.

Даже если все это было каким-то образом автоматизировано, существует вопрос интерпретации результатов. Работа статистика (или статистически настроенного ученого) не выполняется, когда вы получаете коэффициент регрессии или значение p. Что это найти среднее . Какие предостережения? Что это представляет в контексте того, что было раньше?

Наконец, у вас есть разработка новых методов. Статистика - это не то, что давным-давно было просто выложено людьми, чьи имена мы узнаем - Фишер, Кокс и т. Д. Это развивающаяся область, и вы не можете запрограммировать новый метод в компьютер, пока человек не разработает сам метод.


2
(+1), потому что «Консервированный анализ, выполняемый из алгоритма, часто не даст вам лучший ответ», это очень верно. Это не значит, что люди, практикующие статистику, не делают этого постоянно. (Примечание: большинство практиков статистики НЕ являются статистиками ... больше похожи на людей, которые используют статистику, хотя на самом деле не знают, что делают, что часто приводит к плохой науке)
Макрос

10

Другой способ интерпретации этого вопроса может быть следующим: «совпало ли быстрое увеличение числа автоматизированных статистических методов в последние годы со снижением спроса на рабочие места для специализированных статистиков и аналитиков данных?»

Мы можем решить этот вопрос, посмотрев на данные рынок труда для анализа данных позиций
введите описание изображения здесь

Данные любезно предоставлены в самом деле и блоге революций


+1 Даже в самом деле. Com не сделал @cboettig устаревшим.
Томас Левин

4
Я не уверен, что «спрос на рабочие места для специализированных статистиков и аналитиков данных» тесно связан с использованием ключевых слов «ученый» или «большие данные» в объявлениях о работе. <- подозрительность к предположениям - вот что человек приносит на стол ;-)
Даррен Кук

@DarrenCook хорошо сказано!
cboettig

7

Я не совсем согласен с предпосылкой вопроса, то есть думаю, что компьютеры никогда не смогут заменить статистиков, но я могу привести конкретный пример того, почему я думаю, что:

Работа, которую статистики выполняют с учеными, особенно в области разработки и интерпретации экспериментов, требует не только человеческого разума, но даже философского уклона, который невозможно представить компьютерам.

Конечно, если только мы не окажемся в какой-то ситуации типа Скайнет, в этом случае я считаю, что все ставки, вероятно, не соответствуют будущему всего человечества, не говоря уже о статистиках :-)


1
За исключением того, что у меня есть повелители кошачьих, чтобы подчиняться. :)
Мишель

5

Этот вопрос предполагает наивное представление о статистике - о том, что нужно проверять, есть ли ap <0,05, и сообщать ли некоторые числа и стандартные графики. Если это то, что вы подразумеваете под статистикой, то вы правы в том, что многое из этого может быть полностью автоматизировано. Но это не то, что означает статистика.

Определите ваш термин статистика хотя, и вы могли бы получить лучшие ответы.


3

Загрузка пакета статистических данных на ваш компьютер не делает вас статистиком, так как покупка автомобиля дает вам возможность управлять автомобилем.

Даже если статистик просто применяет «стандартные» процедуры, возникает множество вопросов.

  1. Какая рутина? Какая рутина ответит на вопросы клиента?
  2. С какими переменными? и должны ли они быть преобразованы? Должны ли некоторые уровни быть объединены? Что должно быть вживлено в модель?
  3. С какими данными? Следует ли удалять выбросы? Стрижка? Может быть надежный метод?

и так далее.

Но задание начинается задолго до включения компьютера и заканчивается задолго до того, как статистический пакет был выключен.

До: что хочет сделать клиент? Часто это много работы! Какие данные у клиента? Ой вей! Переменные помечены от V1 до V828171 Какие есть какие? Каково состояние литературы? Что ожидает клиент? Насколько технически это должно быть?

После: Что означают результаты ? (а не просто «это означает, что регрессия значительна») Как объяснить результаты клиенту? Какие еще вопросы поднимают результаты?

Думаю, пройдет много времени, прежде чем компьютеры смогут это сделать.


1
Чтобы ответить на вопросы, перечисленные в (1), (2) и (3), вы проходите некоторый логический процесс. Теоретически этот логический процесс может быть закодирован в компьютерную программу. Если бы компьютер имел идеальный процессор естественного языка, а программное обеспечение содержало все «консервированные» программы и имело запрограммированную логику, указанную выше, он мог бы делать эти вещи. Или, вы говорите, это не совсем логичный процесс?
Макрос

4
Для меня аналогия немного ближе к тому, что «покупка автомобиля не делает вас механиком или дизайнером автомобилей».
кардинал

1
@Macro Потому что логический процесс не обязательно означает, может ли быть запрограммирован в компьютер. «Если некоторые уровни объединяются» не всегда является числовым измерением - необходимо учитывать, имеют ли смысл эти объединенные уровни, например, в контексте самой переменной.
Fomite

1
Решение о том, имеет ли это смысл в контексте приложения, не является вопросом для статистики - это вопрос для эксперта в том, что является приложением. Статистик может сказать вам, оправдано ли объединение уровней в зависимости от того, кажутся ли они однородными или нет, что, безусловно, можно преподавать компьютеру.
Макрос

4
Я не могу не отметить, что Google добился больших успехов в том направлении, когда покупка автомобиля позволит вам управлять автомобилем - это будет сделано автоматически!
whuber

2

Академические исследования, которые рассматривают вероятность автоматизации различных профессий или задач, не думают, что статистики скоро будут заменены компьютерами. См., Например, противоречивое исследование Frey & Osborne (2013), в котором ранжируются профессии в соответствии с их вероятностью компьютеризации. Статистики оцениваются как низкие 213 из 702 с вероятностью 22% (см. Таблицу в приложении). Если вы заинтересованы, смотрите также статью Slate здесь .

Арнц и соавт. (2016) ( здесь статья в The Economist) рассматривает задачи, а не профессии для Европейского Союза, и приходит к аналогичному выводу: «Сложная математика или статистика» статистически значимо отрицательно связана с автоматизируемостью работы (см. Таблицу 3).

Но некоторая осторожность целесообразна, ученые и / или экономисты не всегда были очень хороши в прогнозировании будущего (например, Нобелевский лауреат Роберт Лукас пришел к выводу, что в 2003 году, за несколько лет до финансового кризиса), «центральной проблемой предотвращения депрессии как была решена для всех практических целей и фактически решалась в течение многих десятилетий. " ) Оба исследования являются рабочим документом, который широко обсуждается, но не был опубликован в стандартных рецензируемых журналах.

Что касается академических дебатов, здесь вы можете найти обзорную статью о состоянии исследований в области автоматизации.


0

Я думаю, что ИИ сделает статистиков только умнее и конкурентоспособнее. Зачем? Потому что это цель искусственного интеллекта с момента их зачатия много десятилетий назад ...

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.