В [1, §3.2] Дэвид Фридман предлагает существенно отрицательный ответ на ваш вопрос. То есть никакая (простая) статистическая модель или алгоритм не могут решить проблему Джона Сноу. Задача Сноу состояла в том, чтобы разработать критический аргумент в поддержку его теории о том, что холера является инфекционным заболеванием, передаваемым через воду, вопреки господствующей теории миазмов своего времени. (Глава 3 в [1], озаглавленная «Статистические модели и кожа для обуви», также доступна в ранее опубликованной форме [2] здесь .)
В этих нескольких коротких страницах [1, с.47–53], большая часть которых является расширенной цитатой самого Джона Сноу, Фридман утверждает, что «то, что на самом деле сделал Сноу в 1853–54 годах, даже более интересно, чем басня [Брод Уличный насос]. " Что касается сбора статистических данных (кроме того, обсуждаются другие предварительные данные, такие как идентификация случая индекса и т. Д.), Сноу использовал естественные вариации для проведения действительно замечательного квазиэксперимента.
Оказывается, в более ранние времена среди компаний водоснабжения в Лондоне была жесткая конкуренция, и это привело к пространственному смешиванию водоснабжения, которое было (по словам Сноу) «самым интимным видом».
Трубы каждой компании идут по всем улицам и почти во все дворы и переулки. Несколько домов поставляются одной компанией, а некоторые - другой, в соответствии с решением владельца или арендатора в то время, когда водные компании были в активном соревновании.
...
Поскольку нет разницы между домами или людьми, получающими водоснабжение двух водопроводных компаний, или какими-либо физическими условиями, в которых они находятся, очевидно, что не могло быть разработано никакого эксперимента, который мог бы более тщательно проверить Влияние водоснабжения на прогрессирование холеры, чем это, какие обстоятельства ставят готовыми перед наблюдателем.
Джон Сноу
Еще один критически важный элемент «естественного отклонения», использованный Джоном Сноу в этом квазиэксперименте, заключался в том, что одна компания по водоснабжению имела водозабор в Темзе ниже по течению от сброса сточных вод , тогда как другая несколько лет назад перенесла свое потребление в верхнем течении . Я позволю вам угадать, что именно из таблицы данных Джона Сноу!
| Количество | Холера | Смертей за
Компания | дома | смерти | 10 000 домов
-------------------------------------------------- --------
Саутуорк и Воксхолл | 40 046 | 1263 | 315
Ламбет | 26,107 | 98 | 37
Отдых в Лондоне | 256,423 | 1422 | 59
Как отмечает Фридман,
Как часть статистической технологии, [приведенная выше таблица] ни в коем случае не примечательна. Но история, которую он рассказывает, очень убедительна. Сила аргумента проистекает из ясности предыдущих рассуждений, объединения множества различных доказательств и количества обуви, которую Сноу хотел использовать для получения данных. [1, с.51]
Еще одна точка естественного изменения, использованного Сноу, произошла во временном измерении: вышеупомянутое перемещение водозабора произошло между двумя эпидемиями, что позволило Сноу сравнить воду той же компании с добавленными сточными водами и без них. (Спасибо Филипу Старку, одному из авторов [1], за эту информацию через Twitter . См. Его онлайн-лекцию .)
Этот вопрос также предоставляет поучительное исследование контраста между дедуктивизмом и индуктивизмом , как обсуждалось в этом ответе .
Фридман Д., Кольер Д., Сехон Ю.С., Старк П.Б. Статистические модели и причинно-следственные связи: диалог с общественными науками. Кембридж; Нью-Йорк: издательство Кембриджского университета; 2010.
Фридман Д.А. Статистические модели и обувная кожа. Социологическая методология . 1991; 21: 291-313. DOI: 10.2307 / 270939. Полный текст