Обычно в биомедицинских исследованиях мы не используем обучающий набор - мы просто применяем логистическую регрессию ко всему набору данных, чтобы увидеть, какие предикторы являются значительными факторами риска для результата, на который мы смотрим; или посмотреть на одного предиктора интереса, контролируя влияние других возможных предикторов на результат.
Я не совсем уверен, что вы подразумеваете под пороговыми значениями, но есть различные параметры, которые можно стремиться оптимизировать: AUC, предельные значения для дихотомии непрерывной переменной предиктора, положительные и отрицательные прогностические значения, доверительные интервалы и p-значения, ложноположительные и ложноотрицательные показатели. Логистическая регрессия рассматривает совокупность субъектов и оценивает силу и причинную направленность факторов риска, которые способствуют получению интереса в этой совокупности. Можно также «запустить все наоборот», так сказать, и определить риск исхода индивидуума с учетом факторов риска, которые есть у индивидуума. Логистическая регрессия назначает каждому человеку риск исхода, основываясь на их индивидуальных факторах риска, и по умолчанию это 0,5. Если предмет вероятность того, что результат (на основе всех данных и субъектов в вашей модели) равен 0,5 или выше, предсказывает, что он будет иметь результат; если ниже 0,5, то это предсказывает, что он не будет. Но вы можете отрегулировать этот уровень отсечки, например, чтобы отметить больше людей, которые могут быть подвержены риску получить результат, хотя и ценой большего количества ложных срабатываний, прогнозируемых моделью. Вы можете отрегулировать этот уровень отсечки, чтобы оптимизировать решения по скринингу, чтобы предсказать, например, каким людям будет рекомендовано дальнейшее медицинское наблюдение, например; и для построения вашей положительной прогностической ценности, отрицательной прогностической ценности, ложных отрицательных и ложных положительных оценок для скринингового теста на основе модели логистической регрессии. Вы можете разработать модель на половине своего набора данных и протестировать ее на другой половине, но вы не Это действительно необходимо (и это сократит ваши «тренировочные» данные вдвое и, таким образом, уменьшит способность находить значимых предикторов в модели). Так что да, вы можете «тренировать все до конца». Конечно, в биомедицинских исследованиях вы хотели бы проверить его на другой популяции, другой набор данных, прежде чем сказать, что ваши результаты могут быть обобщены для более широкой популяции. Другой подход заключается в использовании подхода типа начальной загрузки, при котором ваша модель запускается на подвыборке вашей изучаемой популяции, затем заменяет эти предметы обратно в пул и повторяется с другой выборкой много раз (обычно 1000 раз). Если вы получаете значимые результаты в установленное большинство времени (например, в 95% случаев), тогда ваша модель может считаться проверенной - по крайней мере, по вашим собственным данным. Но опять же, чем меньше популяция для исследования, на которой вы работаете, тем менее вероятно, что некоторые предикторы будут статистически значимыми факторами риска для результата. Это особенно верно для биомедицинских исследований с ограниченным числом участников.
Использование половины ваших данных для «обучения» вашей модели, а затем «проверка» ее на другой половине - ненужное бремя. Вы не делаете это для t-тестов или линейной регрессии, так зачем делать это в логистической регрессии? Максимум, что он сделает, это позволит вам сказать «да, это работает», но если вы используете свой полный набор данных, вы все равно это определите. Разбиение ваших данных на более мелкие наборы данных создает риск не обнаружить значительных факторов риска в исследуемой совокупности (ИЛИ проверяющей совокупности), когда они фактически присутствуют, из-за небольшого размера выборки, наличия слишком большого количества предикторов для размера исследования и возможности что ваш «проверочный образец» не покажет никаких ассоциаций просто случайно. Логика, лежащая в основе подхода «обучай, затем проверяй», заключается в том, что если факторы риска, которые вы считаете значительными, недостаточно сильны, тогда они не будут статистически значимыми при моделировании случайно выбранной половины ваших данных. Но эта случайно выбранная выборка может случайно не показать связь или потому, что она слишком мала, чтобы факторы риска были статистически значимыми. Но это величина факторов риска и их статистическая значимость, которые определяют их важность, и по этой причине лучше использовать ваш полный набор данных для построения вашей модели. Статистическая значимость станет менее значимой при меньших размерах выборки, как и в большинстве статистических тестов. Выполнение логистической регрессии - это искусство почти столько же, сколько статистическая наука. Существуют разные подходы к использованию и различные параметры для оптимизации в зависимости от дизайна вашего исследования. не быть статистически значимым при моделировании некоторой случайно выбранной половины ваших данных. Но эта случайно выбранная выборка может случайно не показать связь или потому, что она слишком мала, чтобы факторы риска были статистически значимыми. Но это величина факторов риска и их статистическая значимость, которые определяют их важность, и по этой причине лучше использовать ваш полный набор данных для построения вашей модели. Статистическая значимость станет менее значимой при меньших размерах выборки, как и в большинстве статистических тестов. Выполнение логистической регрессии - это искусство почти столько же, сколько статистическая наука. Существуют разные подходы к использованию и различные параметры для оптимизации в зависимости от дизайна вашего исследования. не быть статистически значимым при моделировании некоторой случайно выбранной половины ваших данных. Но эта случайно выбранная выборка может случайно не показать связь или потому, что она слишком мала, чтобы факторы риска были статистически значимыми. Но это величина факторов риска и их статистическая значимость, которые определяют их важность, и по этой причине лучше использовать ваш полный набор данных для построения вашей модели. Статистическая значимость станет менее значимой при меньших размерах выборки, как и в большинстве статистических тестов. Выполнение логистической регрессии - это искусство почти столько же, сколько статистическая наука. Существуют разные подходы к использованию и различные параметры для оптимизации в зависимости от дизайна вашего исследования. Но эта случайно выбранная выборка может случайно не показать связь или потому, что она слишком мала, чтобы факторы риска были статистически значимыми. Но это величина факторов риска и их статистическая значимость, которые определяют их важность, и по этой причине лучше использовать ваш полный набор данных для построения вашей модели. Статистическая значимость станет менее значимой при меньших размерах выборки, как и в большинстве статистических тестов. Выполнение логистической регрессии - это искусство почти столько же, сколько статистическая наука. Существуют разные подходы к использованию и различные параметры для оптимизации в зависимости от дизайна вашего исследования. Но эта случайно выбранная выборка может случайно не показать связь или потому, что она слишком мала, чтобы факторы риска были статистически значимыми. Но это величина факторов риска и их статистическая значимость, которые определяют их важность, и по этой причине лучше использовать ваш полный набор данных для построения вашей модели. Статистическая значимость станет менее значимой при меньших размерах выборки, как и в большинстве статистических тестов. Выполнение логистической регрессии - это искусство почти столько же, сколько статистическая наука. Существуют разные подходы к использованию и различные параметры для оптимизации в зависимости от дизайна вашего исследования. s величина факторов риска и их статистическая значимость, которые определяют их важность, и по этой причине лучше использовать ваш полный набор данных для построения вашей модели. Статистическая значимость станет менее значимой при меньших размерах выборки, как и в большинстве статистических тестов. Выполнение логистической регрессии - это искусство почти столько же, сколько статистическая наука. Существуют разные подходы к использованию и различные параметры для оптимизации в зависимости от дизайна вашего исследования. s величина факторов риска и их статистическая значимость, которые определяют их важность, и по этой причине лучше использовать ваш полный набор данных для построения вашей модели. Статистическая значимость станет менее значимой при меньших размерах выборки, как и в большинстве статистических тестов. Выполнение логистической регрессии - это искусство почти столько же, сколько статистическая наука. Существуют разные подходы к использованию и различные параметры для оптимизации в зависимости от дизайна вашего исследования.