Во-первых, это просто шутка и неверна. В Google много очень талантливых статистиков, экспертов по поиску информации, лингвистов, экономистов, некоторых психологов и других. Эти люди проводят много времени, обучая многих статистиков о разнице между корреляцией и причинно-следственной связью. Учитывая, что это большая организация, могут быть карманы, даже большие, невежества, но утверждение определенно неверно. Более того, большая часть этого образования стоит перед клиентами, особенно рекламодателями.
Более глубокий ответ: разница чрезвычайно важна. Просто посмотрите на ранжирование результатов поиска и позвольте мне выйти за рамки просто «корреляции», чтобы включить показатели сходства, функции оценки и т. Д. Некоторые страницы оцениваются как хорошие результаты для определенных запросов. У них есть различные функции предикторов, которые важны для их ранжирования. В отличие от этих хороших страниц, которые являются хорошими результатами для запросов, есть набор веб-страниц, которые являются страницами, которые являются очень плохими результатами для тех же самых запросов. Однако создатели этих страниц тратят много усилий, чтобы они выглядели как хорошие страницы с числовой точки зрения.такие как текстовые совпадения, интернет-ссылки и многое другое. Однако то, что эти страницы в числовом выражении «похожи» на хорошие страницы, не означает, что на самом деле это хорошие страницы. Поэтому Google вложил и будет продолжать прилагать много усилий, чтобы определить, какие разумные функции различают (разделяют) хорошие и плохие страницы.
Это не совсем корреляция и причинность, но это глубже, чем это. Хорошие страницы для определенных запросов могут отображаться в числовое пространство, где они кажутся похожими и отличными от многих нерелевантных или плохих страниц, но только то, что результаты находятся в той же области функционального пространства, не означает, что они получены из того же подмножества «высокого качества» в Интернете.
Более простой ответ: очень простая перспектива состоит в том, чтобы обратиться к ранжированию результатов. Лучший результат должен быть первым, но то, что что-то занимает первое место, не означает, что это лучший результат. По некоторым показателям оценки вы можете обнаружить, что рейтинг Google соотносится с золотым стандартом оценки качества, но это не означает, что их рейтинг подразумевает, что результаты действительно в таком порядке с точки зрения качества и релевантности.
Обновление (третий ответ): Со временем есть еще один аспект, который затрагивает всех нас: это то, что лучший результат Google может считаться авторитетным, потому что это лучший результат в Google. Хотя анализ ссылок (например, «PageRank» - один из методов анализа ссылок) - это попытка отразить предполагаемую авторитетность, со временем новые страницы по теме могут просто усилить эту структуру ссылок путем ссылки на лучший результат в Google. На более новой авторитетной странице возникла проблема с заголовком относительно первого результата. Поскольку Google хочет предоставить наиболее релевантную страницу в настоящее время , из-за неявного влияния корреляции на воспринимаемую причинность возникает множество факторов, в том числе так называемое явление «богатые - становятся богаче».
Обновление (четвертый ответ): я понял (для комментария ниже), что было бы полезно прочитать «Аллегорию пещеры» Платона, чтобы получить представление о том, как интерпретировать корреляцию и причинность в результате «размышлений / проекций» реальности и как мы (или наши машины) это воспринимаем. Корреляция, строго ограниченная корреляцией Пирсона, слишком ограничена как интерпретация проблемы недопонимания ассоциации (более широкой, чем просто корреляция) и причинности.