Это мой первый пост на StackExchange, но я уже давно использую его в качестве ресурса, я сделаю все возможное, чтобы использовать соответствующий формат и внести соответствующие изменения. Кроме того, это вопрос, состоящий из нескольких частей. Я не был уверен, должен ли я разделить вопрос на несколько разных постов или только один. Поскольку все вопросы относятся к одному разделу в одном и том же тексте, я подумал, что было бы более уместно опубликовать один вопрос.
Я исследую использование среды обитания крупных видов млекопитающих для магистерской диссертации. Цель этого проекта состоит в том, чтобы предоставить управляющим лесами (которые, скорее всего, не являются статистиками) практическую основу для оценки качества среды обитания на землях, которыми они управляют, в отношении этого вида. Это животное относительно неуловимо, специалист по среде обитания, и обычно находится в отдаленных районах. Относительно немного исследований было проведено относительно распространения вида, особенно в сезон. Несколько животных были оснащены ошейниками GPS в течение одного года. Сто местоположений (50 летних и 50 зимних) были случайным образом выбраны из данных ошейника GPS каждого животного. Кроме того, 50 баллов были случайно сгенерированы в пределах домашнего диапазона каждого животного, чтобы служить «доступными» или «псевдо-отсутствующими» местоположениями.
Для каждого местоположения в поле были отобраны несколько переменных среды обитания (диаметры деревьев, горизонтальный покров, грубый древесный мусор и т. Д.), А некоторые были отобраны удаленно с помощью ГИС (высота, расстояние до дороги, прочность и т. Д.). Переменные в основном непрерывны, за исключением 1 категориальной переменной, которая имеет 7 уровней.
Моя цель - использовать регрессионное моделирование для построения функций выбора ресурсов (RSF) для моделирования относительной вероятности использования единиц ресурса. Я хотел бы построить сезонный (зимний и летний) RSF для популяции животных (тип конструкции I), а также для каждого отдельного животного (тип конструкции III).
Я использую R для выполнения статистического анализа.
Первичный текст Я использую это ...
- "Hosmer, DW, Lemeshow, S. & Sturdivant, RX 2013. Прикладная логистическая регрессия. Wiley, Chicester".
Большинство примеров в Hosmer et al. использование STATA, я также использовал следующие 2 тексты для справки с R .
- «Кроули, MJ 2005. Статистика: введение с использованием RJ Wiley, Чичестер, Западный Суссекс, Англия».
- «Plant, RE 2012. Анализ пространственных данных в экологии и сельском хозяйстве с использованием R. CRC Press, Лондон, GBR».
В настоящее время я следую инструкциям главы 4 Hosmer et al. для «Целенаправленного выбора ковариат» и несколько вопросов о процессе. Я изложил первые несколько шагов в тексте ниже, чтобы помочь в моих вопросах.
- Шаг 1: Неизменный анализ каждой независимой переменной (я использовал неизменную логистическую регрессию). Любая переменная, чей неизменный критерий имеет p-значение менее 0,25, должна быть включена в первую многомерную модель.
- Шаг 2: Установите многовариантную модель, содержащую все ковариаты, определенные для включения на шаге 1, и оцените важность каждого ковариата, используя p-значение его статистики Вальда. Переменные, которые не влияют на традиционные уровни значимости, должны быть исключены, и новая модель должна соответствовать. Более новую, меньшую модель следует сравнивать со старой, более крупной моделью, использующей критерий отношения частичного правдоподобия.
- Шаг 3: Сравните значения оценочных коэффициентов в меньшей модели с их соответствующими значениями большой модели. Любая переменная, коэффициент которой заметно изменился по величине, должна быть добавлена обратно в модель, так как это важно в смысле обеспечения необходимой корректировки влияния переменных, которые остаются в модели. Выполните шаги 2 и 3, пока не увидите, что все важные переменные включены в модель, а исключенные клинически и / или статистически не важны. Хосмер и соавт. используйте « дельта-бета-шапка-процент » в качестве меры изменения величины коэффициентов. Они предполагают значительное изменение в виде дельта-бета-шляпных процентов > 20%. Хосмер и соавт. определить дельта-бета-шляпу процентов как . Тамгдеθ1является коэффициентом от меньшей модели иβ1является коэффициентом от большей модели.
- Шаг 4: Добавьте каждую переменную, не выбранную на шаге 1, к модели, полученной в конце шага 3, по одному, и проверьте ее значимость либо с помощью p-значения статистики Вальда, либо с помощью теста отношения частичных правдоподобия, если он является категоричным переменная с более чем 2 уровнями. Этот шаг жизненно важен для определения переменных, которые сами по себе не имеют существенного отношения к результату, но вносят важный вклад в наличие других переменных. Мы ссылаемся на модель в конце шага 4 как предварительную модель основных эффектов .
- Шаги 5-7: я не продвинулся до этого момента, поэтому я пока оставлю эти шаги или оставлю их для другого вопроса.
Мои вопросы:
- На шаге 2, что было бы уместно в качестве традиционного уровня значимости, значение р <0,05, что-то большее, чем <0,25?
- В шаге 2 снова я хочу убедиться, что код R, который я использовал для теста частичного правдоподобия, правильный, и я хочу убедиться, что я правильно интерпретирую результаты. Вот что я делал ...
anova(smallmodel,largemodel,test='Chisq')
Если значение р является значительным (<0,05), я добавляю переменную обратно в модель, если она незначительна, я продолжаю удаление? 100*((smallmodel$coef[2]-largemodel$coef[2])/largemodel$coef[2])