Какую статистическую модель или алгоритм можно использовать для решения проблемы Джона Сноу Холера?


23

Мне интересно узнать, как разработать географическую аппроксимацию какого-то эпицентра на основе данных о вспышке болезни Джона Сноу Холера. Какое статистическое моделирование может быть использовано для решения такой проблемы без предварительного знания места расположения скважин.

Как общая проблема, у вас будет время, местоположение известных точек и пешеходная дорожка наблюдателя. Метод, который я ищу, будет использовать эти три вещи для оценки эпицентра «вспышки».


2
Модели Кригинга используются для географического прогнозирования. Это может быть место для начала. Чтобы включить информацию о времени, вам нужно пойти еще дальше и использовать пространственно-временную модель (хотя я не использовал их).
отлично38

4
@ Великий Кригинг будет сложно применить здесь: он не предназначен для оценки экстремумов, а также не подходит для геометрии времени ходьбы по дорогам, которая имеет отношение к делу, и не очень хорошо приспособлен для контроля важных ковариат, таких как плотность населения или количество рабочих в зданиях.
whuber

Этот пакет R может представлять интерес github.com/lindbrook/cholera .
Дэвид С. Норрис,

Ответы:


25

Не для того, чтобы дать полный или авторитетный ответ, а просто для того, чтобы стимулировать идеи, я сообщу о быстром анализе, который я сделал для лабораторного упражнения в курсе пространственной статистики, который я преподавал десять лет назад. Цель состояла в том, чтобы увидеть, как точный учет вероятных путей прохождения (пешком) по сравнению с использованием евклидовых расстояний окажет влияние на относительно простой исследовательский метод: оценку плотности ядра. Где будет пик (или пики) плотности по отношению к насосу, рукоятка которого Снег удален?

Используя растровое представление с высоким разрешением (2946 строк на 3160 столбцов) карты Сноу (с должной географической привязкой), я оцифровал каждый из сотен маленьких черных гробов, показанных на карте (обнаружив 558 из них по 309 адресам), назначив каждому край улицы, соответствующий ее адресу, и суммирование по адресу в счетчик в каждом месте.

Точечная карта входных данных

После некоторой обработки изображений, чтобы идентифицировать улицы и переулки, я провел простую диффузию Гаусса, ограниченную этими областями (используя многократные фокусные средства в ГИС). Это KDE.

Результат говорит сам за себя - ему едва ли нужна легенда, чтобы объяснить это. (На карте показано много других насосов, но все они находятся за пределами этого обзора, который фокусируется на областях с самой высокой плотностью.)

Карта снега, показывающая плотность с цветом.


ВАУ. Итак, подведем итог; 1. линеаризовать путь перемещения, 2. выполнить сглаживание в одном измерении, 3. расширить сглаживание в двух измерениях, 4. усреднить kde по путям?
цилиндруда

1
Сглаживание было выполнено в 2D, но ограничено областью, показанной в цвете. Есть и другие способы сделать это, сродни вашему описанию. Тем не менее, нет необходимости усреднять по «путевкам» (какими бы они ни были). Эта карта интересна отчасти потому, что она имеет свойства как одномерной, так и двумерной геометрии.
whuber

Для каждой точки A на улицах подсчитайте количество шагов друг к другу в точке B среди адресов. Включите это количество шагов в гауссову плотность и умножьте это значение на количество смертей в B. Сложите все эти продукты (т.е. по всем точкам адреса B), чтобы получить плотность ядра в точке A. Сделайте это для всех точек A на улицах. Это плотность, которую мы видим в каждой точке на карте. Да?
Хатшепсут

2
В

2
@Hat Это не тот случай, когда гауссиан имеет единичный интеграл, когда он ограничен дорогами и пешеходными дорожками! Тем самым он усекается и должен быть перенормирован.
whuber

19

В [1, §3.2] Дэвид Фридман предлагает существенно отрицательный ответ на ваш вопрос. То есть никакая (простая) статистическая модель или алгоритм не могут решить проблему Джона Сноу. Задача Сноу состояла в том, чтобы разработать критический аргумент в поддержку его теории о том, что холера является инфекционным заболеванием, передаваемым через воду, вопреки господствующей теории миазмов своего времени. (Глава 3 в [1], озаглавленная «Статистические модели и кожа для обуви», также доступна в ранее опубликованной форме [2] здесь .)

В этих нескольких коротких страницах [1, с.47–53], большая часть которых является расширенной цитатой самого Джона Сноу, Фридман утверждает, что «то, что на самом деле сделал Сноу в 1853–54 годах, даже более интересно, чем басня [Брод Уличный насос]. " Что касается сбора статистических данных (кроме того, обсуждаются другие предварительные данные, такие как идентификация случая индекса и т. Д.), Сноу использовал естественные вариации для проведения действительно замечательного квазиэксперимента.

Оказывается, в более ранние времена среди компаний водоснабжения в Лондоне была жесткая конкуренция, и это привело к пространственному смешиванию водоснабжения, которое было (по словам Сноу) «самым интимным видом».

Трубы каждой компании идут по всем улицам и почти во все дворы и переулки. Несколько домов поставляются одной компанией, а некоторые - другой, в соответствии с решением владельца или арендатора в то время, когда водные компании были в активном соревновании.

...

Поскольку нет разницы между домами или людьми, получающими водоснабжение двух водопроводных компаний, или какими-либо физическими условиями, в которых они находятся, очевидно, что не могло быть разработано никакого эксперимента, который мог бы более тщательно проверить Влияние водоснабжения на прогрессирование холеры, чем это, какие обстоятельства ставят готовыми перед наблюдателем.

Джон Сноу

Еще один критически важный элемент «естественного отклонения», использованный Джоном Сноу в этом квазиэксперименте, заключался в том, что одна компания по водоснабжению имела водозабор в Темзе ниже по течению от сброса сточных вод , тогда как другая несколько лет назад перенесла свое потребление в верхнем течении . Я позволю вам угадать, что именно из таблицы данных Джона Сноу!

                     | Количество | Холера | Смертей за
Компания | дома | смерти | 10 000 домов
-------------------------------------------------- --------
Саутуорк и Воксхолл | 40 046 | 1263 | 315
Ламбет | 26,107 | 98 | 37
Отдых в Лондоне | 256,423 | 1422 | 59

Как отмечает Фридман,

Как часть статистической технологии, [приведенная выше таблица] ни в коем случае не примечательна. Но история, которую он рассказывает, очень убедительна. Сила аргумента проистекает из ясности предыдущих рассуждений, объединения множества различных доказательств и количества обуви, которую Сноу хотел использовать для получения данных. [1, с.51]

Еще одна точка естественного изменения, использованного Сноу, произошла во временном измерении: вышеупомянутое перемещение водозабора произошло между двумя эпидемиями, что позволило Сноу сравнить воду той же компании с добавленными сточными водами и без них. (Спасибо Филипу Старку, одному из авторов [1], за эту информацию через Twitter . См. Его онлайн-лекцию .)


Этот вопрос также предоставляет поучительное исследование контраста между дедуктивизмом и индуктивизмом , как обсуждалось в этом ответе .

  1. Фридман Д., Кольер Д., Сехон Ю.С., Старк П.Б. Статистические модели и причинно-следственные связи: диалог с общественными науками. Кембридж; Нью-Йорк: издательство Кембриджского университета; 2010.

  2. Фридман Д.А. Статистические модели и обувная кожа. Социологическая методология . 1991; 21: 291-313. DOI: 10.2307 / 270939. Полный текст


1
+1 за указание на то, что простого определения эпицентра было бы недостаточно для решения «проблемы Джона Сноу», как указано выше. Теория миазмов была одной из таких преобладающих теорий в то время, как указывает Дэвид. Чтобы сфальсифицировать теорию миазмов, нужно показать, что географические показатели не повышаются с приближением к реке. Современный подход к этой проблеме мог бы использовать кригинг.
AdamO

Спасибо, @AdamO; но мне интересно, как в этом случае Кригинг приспособился бы к «интимному» пространственному микшированию, что почти противоречит преемственности, необходимой для применения метода интерполяции (таким, каким я понимаю Кригинга).
Дэвид С. Норрис,

Возможно, я неправильно понял слова Сноу: мое предположение заключалось в том, что «близкое смешение [источников питания водяных насосов]» относилось к почти идеальной конструкции блока, в которой, по стратификации по удаленности от реки, в каждом концентрическом слое городских кварталов было по крайней мере несколько насосы поставщиков A, B, C ... это имеет отношение к поддержке теории, что загрязненная вода вызывает холеру. Кригинг отверг бы гипотезу миазма, показав, что близость к реке не связана с увеличением заболеваемости холерой. Это подтверждают люди, поливающие насосы: миазмы не путешествуют по трубе.
AdamO

2
@AdamO На самом деле Уильям Фарр изучал показатели смертности от холеры (с 1849 г.) и сравнивал их с уровнем над рекой Темза. Соответствие между этими переменными поразительно и почти полностью соответствует предсказаниям теории миазмов. Смотри Langmuir AD. Бактериологический обзор 25, 174, 1961 ( bmj.com/content/323/7327/1469.full#B4 ). В этой статье отмечается, что даже к моменту смерти доктора Сноу в 1858 году его теория «не была принята в официальных кругах».
whuber

1
Большое спасибо за эти ссылки, @whuber. В качестве пояснения отмечу, что статья Ленгмюра - открытый доступ .
Дэвид С. Норрис,
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.