Что подразумевается под «Пусть данные говорят сами за себя»?

Читая следующую статью , я натолкнулся на следующее утверждение:

Как уже упоминалось, он часто представлен без какой-либо ссылки на вероятностные модели, в соответствии с идеей Benzecri [1973] «позволить данным говорить самим за себя».

(Цитата из JP Benzécri. L'analyse des données. Том II: L'analyse des соответствия. Dunod, 1973.)

Из того, как я читаю эту статью, звучит так: «пусть данные говорят сами за себя» означает что-то вроде рассмотрения различных мер в данных без учета функции правдоподобия или процесса генерирования данных .

Хотя раньше я слышал цитату «пусть данные говорят сами за себя», я не задумывался о том, что подразумевается. Является ли моя приведенная выше интерпретация тем, что канонически подразумевается под этой цитатой?

eda quotation

— Клифф AB
источник

Пусть цитата говорит сама за себя.

— Марк Л. Стоун

@ MarkL.Stone: Как и данные, цитаты лучше понимаются в контексте

— Клифф А.Б.

Ответы:

Интерпретация зависит от контекста, но есть некоторые общие контексты, в которых это возникает. Это утверждение часто используется в байесовском анализе, чтобы подчеркнуть тот факт, что в идеале мы хотели бы, чтобы апостериорное распределение в анализе было устойчивым к предыдущим предположениям, чтобы влияние данных «доминировало» над апостериорным. В более общем смысле, цитата обычно означает, что мы хотим, чтобы наша статистическая модель соответствовала структуре данных, а не заставляла данные интерпретацию, которая является не поддающимся проверке структурным допущением модели.

Конкретная цитата, на которую вы ссылаетесь, дополняется дополнительной цитатой: «Модель должна следовать данным, а не наоборот» (перевод от Benzécri J (1973) L'Analyse des Données. Том II: L'Analyse des Correspondances . Dunod, стр. 6). Бензекри утверждал, что статистические модели должны извлекать структуру из данных, а не навязывать структуру. Он считал использование исследовательских графических методов очень важным, чтобы позволить аналитику «позволить данным говорить».

— Бен - Восстановить Монику
источник

(+1) Имея это в виду, я предполагаю, что цитата из первой связанной статьи подразумевает, что эти методы смотрят на эмпирическую ковариационную структуру, а не на структуру зависимости на основе модели.

— Клифф AB

Да, я думаю, что это правильно. Стоит отметить, что Бензерик утверждал, что анализ данных был в основном эквивалентен разложению собственных данных в PCA. Его цитируют так: «В общем, анализ данных в хорошей математике - это просто поиск собственных векторов; вся наука (или искусство) заключается в поиске правильной матрицы для диагонализации». (см. Husson et al 2016 , стр. 2)

— Бен - восстановить Монику

Ха, это очень интересная претензия для него. Этот контекст делает цитату в статье более понятной.

— Клифф AB

Да, это довольно экстремально!

— Бен - Восстановить Монику

(+1). В то время как, на первый взгляд, цитата кажется трудно не согласиться с (почему «навязывать» что-то было бы хорошо, в конце концов?), Проклятие размерности в непараметрической статистике, например, показывает, что это, так сказать, легче слушать данные, говорящие сами за себя, когда мы слушаем их через параметрическую модель.

— Кристоф Ханк

Примерно в 2005 году, когда «Data Mining» была последней угрозой для статистической профессии, я помню, как видел плакат с «Принципами Data Mining», один из которых был «пусть данные говорят» (не помню, если «для себя») был включен). Если вы подумаете об алгоритмах, которые можно считать «интеллектуальным анализом данных», вам на ум придут априорные и рекурсивные методы разделения, два алгоритма, которые могут быть мотивированы без статистических допущений и приводят к довольно простым обобщениям базового набора данных.

@Ben понимает больше истории этой фразы, чем я, но думаю о цитате, приведенной в статье:

MCA может рассматриваться как аналог PCA для категориальных данных и включает в себя уменьшение размерности данных, чтобы обеспечить подпространство, которое наилучшим образом представляет данные в смысле максимизации изменчивости проецируемых точек. Как уже упоминалось, он часто представлен без какой-либо ссылки на вероятностные модели, в соответствии с идеей Бенцкри [1973] «позволить данным говорить самим за себя».

мне кажется, что процедура MCA действительно напоминает априорное или рекурсивное разбиение (или ад, среднее арифметическое значение в этом отношении) в том смысле, что она может быть мотивирована вообще без какого-либо моделирования и является механической операцией над набором данных, которая имеет смысл на основе на некоторых первых принципах.

Существует спектр предоставления данных говорить. Полностью байесовские модели с сильными приорами были бы на одном конце. Частые непараметрические модели были бы ближе к другому концу.

— Бен Огорек
источник