Исследование низкого веса при рождении
Это один из наборов данных в учебнике Хосмера и Лемешоу по прикладной логистической регрессии (2000, Wiley, 2nd ed.). Целью этого проспективного исследования было выявить факторы риска, связанные с рождением ребенка с низкой массой тела при рождении (весом менее 2500 грамм). Данные были собраны по 189 женщинам, 59 из которых имели детей с низким весом при рождении и 130 из которых имели детей с нормальным весом при рождении. Четырьмя переменными, которые считались важными, были возраст, вес субъекта во время последней менструации, раса и количество посещений врача в первом триместре беременности.
Это доступно в R как data(birthwt, package="MASS")
или в Stata с webuse lbw
. Текстовая версия появляется здесь: lowbwt.dat ( описание ). Следует отметить, что существует несколько версий этого набора данных, потому что он был расширен до исследования типа «случай-контроль» (1-1 или 1-3, сопоставимого по возрасту), как показано Хосмером и Лемешоу в главе 7 ALR.
Раньше я проводил вводные курсы на основе этого набора данных по следующим причинам:
- Это интересно с исторической и эпидемиологической точки зрения (данные были собраны в 1986 году); Для понимания основных идей и вопросов, которые можно задать в ходе этого исследования, не требуется предварительный опыт в области медицины или статистики.
- χ2
- Это позволяет обсуждать различные перспективы моделирования (объяснительный или прогнозирующий подходы) и значение схемы выборки при разработке моделей (стратификация / сопоставленные случаи).
Другие моменты, на которые можно обратить внимание, в зависимости от аудитории и уровня экспертизы статистического программного обеспечения или статистики в целом.
Что касается набора данных, доступного в R, категориальные предикторы оцениваются как целые числа (например, для этнической принадлежности матери мы имеем «1» = белый, «2» = черный, «3» = другой), несмотря на тот факт, что для некоторых предикторов естественное упорядочение (например, количество предыдущих преждевременных родов или количество посещений врача) или использование явных меток (всегда полезно использовать «да» / «нет» вместо 1/0 для двоичных переменных, даже если это не так » ничего не менять в матрице дизайна!) просто отсутствуют. Таким образом, легко обсудить, какие проблемы могут возникнуть, игнорируя уровни или единицы измерения в анализе данных.
Переменные смешанных типов интересны, когда нужно провести некоторый предварительный анализ и обсудить, какие графические отображения подходят для суммирования одномерных, двумерных или тривариатных отношений. Аналогичным образом, создание хороших сводных таблиц и более общий отчет - еще один интересный аспект этого набора данных (но Hmisc::summary.formula
команда упрощает его в R).
Хосмер и Лемешоу сообщили, что фактические данные были изменены для защиты конфиденциальности субъекта (стр. 25). Может быть интересно обсудить вопросы конфиденциальности данных, как это было сделано в одном из наших предыдущих журналов Journal Club , но посмотрите его стенограмму . (Должен признать, я никогда не буду вдаваться в подробности.)
Легко ввести некоторые пропущенные значения или ошибочные значения (которые являются общими проблемами в реальной жизни статистика), которые приводят к обсуждению (а) их обнаружения с помощью кодовой книги ( Hmisc::describe
или статистики Stata codebook
) или исследовательской графики (всегда сначала наносите данные на график!) и (b) возможное исправление (вменение данных, удаление по списку или попарная мера ассоциации и т. д.).