Построение и отбор моделей с использованием Hosmer et al. 2013. Прикладная логистическая регрессия в R


17

Это мой первый пост на StackExchange, но я уже давно использую его в качестве ресурса, я сделаю все возможное, чтобы использовать соответствующий формат и внести соответствующие изменения. Кроме того, это вопрос, состоящий из нескольких частей. Я не был уверен, должен ли я разделить вопрос на несколько разных постов или только один. Поскольку все вопросы относятся к одному разделу в одном и том же тексте, я подумал, что было бы более уместно опубликовать один вопрос.

Я исследую использование среды обитания крупных видов млекопитающих для магистерской диссертации. Цель этого проекта состоит в том, чтобы предоставить управляющим лесами (которые, скорее всего, не являются статистиками) практическую основу для оценки качества среды обитания на землях, которыми они управляют, в отношении этого вида. Это животное относительно неуловимо, специалист по среде обитания, и обычно находится в отдаленных районах. Относительно немного исследований было проведено относительно распространения вида, особенно в сезон. Несколько животных были оснащены ошейниками GPS в течение одного года. Сто местоположений (50 летних и 50 зимних) были случайным образом выбраны из данных ошейника GPS каждого животного. Кроме того, 50 баллов были случайно сгенерированы в пределах домашнего диапазона каждого животного, чтобы служить «доступными» или «псевдо-отсутствующими» местоположениями.

Для каждого местоположения в поле были отобраны несколько переменных среды обитания (диаметры деревьев, горизонтальный покров, грубый древесный мусор и т. Д.), А некоторые были отобраны удаленно с помощью ГИС (высота, расстояние до дороги, прочность и т. Д.). Переменные в основном непрерывны, за исключением 1 категориальной переменной, которая имеет 7 уровней.

Моя цель - использовать регрессионное моделирование для построения функций выбора ресурсов (RSF) для моделирования относительной вероятности использования единиц ресурса. Я хотел бы построить сезонный (зимний и летний) RSF для популяции животных (тип конструкции I), а также для каждого отдельного животного (тип конструкции III).

Я использую R для выполнения статистического анализа.

Первичный текст Я использую это ...

  • "Hosmer, DW, Lemeshow, S. & Sturdivant, RX 2013. Прикладная логистическая регрессия. Wiley, Chicester".

Большинство примеров в Hosmer et al. использование STATA, я также использовал следующие 2 тексты для справки с R .

  • «Кроули, MJ 2005. Статистика: введение с использованием RJ Wiley, Чичестер, Западный Суссекс, Англия».
  • «Plant, RE 2012. Анализ пространственных данных в экологии и сельском хозяйстве с использованием R. CRC Press, Лондон, GBR».

В настоящее время я следую инструкциям главы 4 Hosmer et al. для «Целенаправленного выбора ковариат» и несколько вопросов о процессе. Я изложил первые несколько шагов в тексте ниже, чтобы помочь в моих вопросах.

  1. Шаг 1: Неизменный анализ каждой независимой переменной (я использовал неизменную логистическую регрессию). Любая переменная, чей неизменный критерий имеет p-значение менее 0,25, должна быть включена в первую многомерную модель.
  2. Шаг 2: Установите многовариантную модель, содержащую все ковариаты, определенные для включения на шаге 1, и оцените важность каждого ковариата, используя p-значение его статистики Вальда. Переменные, которые не влияют на традиционные уровни значимости, должны быть исключены, и новая модель должна соответствовать. Более новую, меньшую модель следует сравнивать со старой, более крупной моделью, использующей критерий отношения частичного правдоподобия.
  3. Шаг 3: Сравните значения оценочных коэффициентов в меньшей модели с их соответствующими значениями большой модели. Любая переменная, коэффициент которой заметно изменился по величине, должна быть добавлена ​​обратно в модель, так как это важно в смысле обеспечения необходимой корректировки влияния переменных, которые остаются в модели. Выполните шаги 2 и 3, пока не увидите, что все важные переменные включены в модель, а исключенные клинически и / или статистически не важны. Хосмер и соавт. используйте « дельта-бета-шапка-процент » в качестве меры изменения величины коэффициентов. Они предполагают значительное изменение в виде дельта-бета-шляпных процентов > 20%. Хосмер и соавт. определить дельта-бета-шляпу процентов как . Тамгдеθ1является коэффициентом от меньшей модели иβ1является коэффициентом от большей модели.Δβ^%знак равно100θ^1-β^1β^1θ^1β^1
  4. Шаг 4: Добавьте каждую переменную, не выбранную на шаге 1, к модели, полученной в конце шага 3, по одному, и проверьте ее значимость либо с помощью p-значения статистики Вальда, либо с помощью теста отношения частичных правдоподобия, если он является категоричным переменная с более чем 2 уровнями. Этот шаг жизненно важен для определения переменных, которые сами по себе не имеют существенного отношения к результату, но вносят важный вклад в наличие других переменных. Мы ссылаемся на модель в конце шага 4 как предварительную модель основных эффектов .
  5. Шаги 5-7: я не продвинулся до этого момента, поэтому я пока оставлю эти шаги или оставлю их для другого вопроса.

Мои вопросы:

  1. На шаге 2, что было бы уместно в качестве традиционного уровня значимости, значение р <0,05, что-то большее, чем <0,25?
  2. В шаге 2 снова я хочу убедиться, что код R, который я использовал для теста частичного правдоподобия, правильный, и я хочу убедиться, что я правильно интерпретирую результаты. Вот что я делал ... anova(smallmodel,largemodel,test='Chisq')Если значение р является значительным (<0,05), я добавляю переменную обратно в модель, если она незначительна, я продолжаю удаление?
  3. Δβ^%Δβ^%
  4. Δβ^%

    100*((smallmodel$coef[2]-largemodel$coef[2])/largemodel$coef[2])


из любопытства, какой вид вы изучаете?
синоптик

Ответы:


23

Pβ


3
Да, знание предметной области + здоровая доза неверия в простоте, например, не предполагайте, что непрерывные переменные действуют линейно, если у вас нет предварительных данных, демонстрирующих линейность.
Фрэнк Харрелл

6
ФП цитирует основной текст в своем третьем издании вместе с авторами, которые внесли большой вклад в эту область. Другие пункты, затронутые в этом вопросе, обсуждаются в других влиятельных текстах (Агрести, Гельман). Я поднимаю этот вопрос не потому, что согласен с этой стратегией, а хочу отметить, что эти стратегии рекомендуются в недавних основных текстах уважаемыми статистиками. Подводя итог: хотя есть много литературы, рекомендующей против этого, статистическое сообщество, похоже, не отвергает ее.
июля

2
Это довольно ошибочно по моему скромному мнению. Стратегии, выдвинутые так сильно в некоторых текстах, никогда не были подтверждены. Авторы, которые не верят в симуляцию, рискуют выступать за использование методов, которые не работают так, как рекламируется.
Фрэнк Харрелл

2
Да, я знаю. Я часто обращаюсь к вашему тексту и статьям, и это один из источников, которые я использовал, чтобы прийти к моему выводу, не согласному с вышеуказанной стратегией. Я просто передаю дилемму применяемого пользователя. Мы не можем проверить все. Мы полагаемся на экспертов, таких как вы.
julieth

3
@GNG: FH ссылается на симуляцию как на способ показать, что этот подход к выбору модели действительно делает то, что должен делать (предположительно, для повышения точности предсказаний вашей модели) в типичных приложениях. Ваши (проницательные) вопросы выдвигают на первый план его довольно произвольную, специальную, основанную на характере переменную зависимость от неопределенного числа тестов значимости на «традиционных» уровнях, которые теоретически не могут показать, чтобы гарантировать оптимизацию чего-либо.
Scortchi - Восстановить Монику

5

Следует избегать методов, указанных для выбора переменных с использованием статистики, такой как P, ступенчатая регрессия в классическом тексте Hosmer et al.

Недавно я наткнулся на статью, опубликованную в международном журнале по прогнозированию, озаглавленную « Иллюзии предсказуемости », и комментарий к этой статье Кейта Орда . Я очень рекомендую обе эти статьи, поскольку они ясно показывают, что использование статистики регрессии часто вводит в заблуждение. Follwoing - это скриншот статьи Кейта Орда, в которой с помощью моделирования показано, почему пошаговая регрессия (использует p-статистику) для выбора переменных является плохой.

введите описание изображения здесь

Другая замечательная статья Скотта Армстронга , появившаяся в том же номере журнала, показывает, почему следует быть очень осторожным при использовании регрессионного анализа неэкспериментальных данных с примерами из практики. С тех пор, как я прочитал эти статьи, я избегаю использовать регрессионный анализ, чтобы сделать причинные выводы на не экспериментальных данных. Как практик, я бы хотел читать такие статьи много лет, которые бы спасли меня от принятия неправильных решений и избежания дорогостоящих ошибок.

Что касается вашей конкретной проблемы, я не думаю, что в вашем случае возможны рандомизированные эксперименты, поэтому я бы порекомендовал вам использовать перекрестную проверку для выбора переменных. В этой бесплатной онлайн-книге представлен хороший разработанный пример того, как вы будете использовать прогнозную точность для выбора переменных. Это также много других переменных методов отбора, но я ограничусь перекрестной проверкой.

Мне лично нравится цитата из Армстронга: «Где-то я столкнулся с идеей, что статистика должна была помочь коммуникации. Сложные методы регрессии и множество диагностической статистики привели нас в другом направлении»

Ниже мое собственное мнение. Я не статистика.

  • Как биолог, я думаю, вы бы оценили этот момент. Природа очень сложна, принимая на себя логистическую функцию и никакого взаимодействия между переменными не происходит в природе. Кроме того, логистическая регрессия имеет следующие допущения :

  • Истинные условные вероятности являются логистической функцией независимых переменных.

  • Важные переменные не опущены. Никакие посторонние переменные не включены.

  • Независимые переменные измеряются без ошибок.
  • Наблюдения независимы.
  • Независимые переменные не являются линейными комбинациями друг друга.

Я бы порекомендовал дерево классификации и регрессии (CART (r)) в качестве альтернативы логистической регрессии для этого типа анализа, потому что он свободен от предположений:

  1. Непараметрический / управляемый данными / Нет предположений, что ваши вероятности выхода соответствуют логистической функции.
  2. Нелинейный
  3. позволяет сложные переменные взаимодействия.
  4. Предоставляет хорошо интерпретируемые визуальные деревья, которые оценят не такие статистики, как управляющие лесом.
  5. Легко обрабатывает пропущенные значения.
  6. Не нужно быть статистиком, чтобы использовать CART !!
  7. автоматически выбирает переменные, используя перекрестную проверку.

CART является торговой маркой Salford Systems. Смотрите это видео для ознакомления и истории CART. На этом же веб-сайте есть и другие видеоролики, такие как гибриды корзины - логистики. Я бы проверил это. импозиция с открытым исходным кодом в R называется Tree , и есть много других пакетов, таких как rattle, доступных в R. Если я найду время, я опубликую первый пример в тексте Homser, используя CART. Если вы настаиваете на использовании логистической регрессии, то я бы хотя бы использовал такие методы, как CART, чтобы выбрать переменные, а затем применить логистическую регрессию.

Я лично предпочитаю CART, а не логистическую регрессию из-за вышеупомянутых преимуществ. Но все же, я бы попробовал как логистическую регрессию, так и CART или CART-Logistc регрессионный гибрид, и посмотреть, что дает лучшую точность прогнозирования, а также, что более важно, лучшую интерпретируемость и выбрать тот, который, по вашему мнению, «передаст» данные более четко.

Кроме того, FYI CART была отклонена крупными статистическими журналами, и, наконец, изобретатели CART выпустили монографию. CART проложил путь к современным и очень успешным алгоритмам машинного обучения, таким как Random Forest®, Gradient Boosting Machines (GBM), многомерные адаптивные регрессионные сплайны. Randomforest и GBM более точны, чем CART, но менее интерпретируемы (как черный ящик), чем CART.

Надеюсь, это полезно. Дайте мне знать, если вы найдете этот пост полезным?


8
Y

3
Этот ответ вытекает из общих комментариев, многие из которых кажутся мне спорными, по крайней мере для меня, к весьма конкретному и довольно личному одобрению CART как метода выбора. Вы имеете право на свои взгляды, так как другие будут иметь право на свои возражения. Мое предложение состоит в том, чтобы вы отметили двойную изюминку вашего ответа более четко.
Ник Кокс

2
Логистическая регрессия представляет собой обобщенную линейную модель, но в противном случае ее можно оправдать, поскольку она действительно хорошо мотивирована как естественно нелинейная модель (в том смысле, что она соответствует кривым или эквивалентным, а не линиям или эквивалентным в обычном пространстве), которая хорошо подходит для бинарные ответы. Призыв к биологии здесь обоюдоострый; Исторически логистические модели для бинарных ответов были вдохновлены моделями логистического роста (например, популяций) в биологии!
Ник Кокс

Сойер и соавт. бумага, бумага Армстронга и комментарии - все это очень хорошо. Я перечитывал их в эти выходные. Спасибо, что предложили их. Не будучи статистиком, я не могу комментировать использование CART вместо логистической регрессии. Тем не менее, ваш ответ очень хорошо написан, полезен и получил проницательные комментарии. Я читал о методах машинного обучения, таких как CART, MaxEnt и ускоренные деревья регрессии, и планирую обсудить их с моим комитетом, чтобы получить их представление. Когда у меня будет немного свободного времени, видео CART также должно быть интересным.
GNG

3
С улыбкой я думаю, что мы можем перевернуть ваши комментарии к линейным моделям и настаивать на том, что CART далеко не без предположений или даже без предположений, предполагает, что реальность похожа на дерево (что еще?). Если вы думаете, что природа - это плавно меняющийся континуум, вы должны бежать в противоположном направлении.
Ник Кокс

3

Я думаю, что вы пытаетесь предсказать присутствие вида с помощью подхода присутствия / фона, который хорошо документирован в журналах, таких как «Методы в экологии и эволюции», «Экография» и т. Д. Возможно, пакет с диском R полезен для вашей проблемы. Это включает в себя хорошую виньетку. Использование dismo или другого подобного пакета подразумевает изменение вашего подхода к проблеме, но я считаю, что стоит взглянуть.


2
Что мешает вам просто указать модель? Почему большая неопределенность в том, что должно быть в модели? Почему необходимость выбора модели с использованием GLM?
Фрэнк Харрелл

1
Боюсь, вы смешиваете некоторые понятия. (1) фактически максимальный - это данные присутствия / фона или данные присутствия / псевдо-отсутствия. Таким образом, maxent использует данные только присутствия и добавляет некоторые точки из ландшафта, то есть фон / псевдо-отсутствие. Таким образом, это может быть использовано в вашем случае. (2) GLM были разработаны для использования с «истинным» отсутствием. Однако GLM был адаптирован для данных о присутствии / псевдо-отсутствии. (3) пакет dismo предлагает ускоренные деревья регрессии, но не только. Вы также можете использовать GLM, просто следуйте одной из виньеток пакета (их 2).
Хьюго

1
Если ваш вопрос касается того, какие переменные вы должны включить в качестве предикторов, взгляните на эти документы: Sheppard 2013. Как выбор климатических переменных влияет на предсказания распределения видов? Тематическое исследование трех новых сорняков в Новой Зеландии. Исследование сорняков; Харрис и соавт. 2013. Быть или не быть? Переменный отбор может изменить прогнозируемую судьбу угрожаемого вида в будущем климате. Ecol. Manag. Restor.
Хьюго

2
Мысль о том, что методы выбора переменных как-то уменьшают переоснащение, странная. Кажущаяся экономия переменных при сокращении модели является полной иллюзией, когда сокращение происходит от самих данных.
Фрэнк Харрелл

1
@GNG: «Моя неопределенность в отношении того, чтобы оставить все переменные в модели, проистекает из всего, чему меня учили о коллинеарности и перетекании» - содержит ли ваша модель высоко коллинеарные предикторы? Является ли ваша модель более облегающей?
Scortchi - Восстановить Монику
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.