Я имею в виду, что некоторые из этих переменных тесно связаны между собой. Как / почему / в каком контексте мы определяем их как независимые переменные?
Я имею в виду, что некоторые из этих переменных тесно связаны между собой. Как / почему / в каком контексте мы определяем их как независимые переменные?
Ответы:
Если мы отступим от сегодняшнего акцента на машинном обучении и вспомним, какая часть статистического анализа была разработана для контролируемых экспериментальных исследований, фраза «независимые переменные» имеет большой смысл.
В контролируемых экспериментальных исследованиях выбор лекарственного средства и его концентраций или выбор удобрения и его количества на акр осуществляется независимым исследователем. Интерес заключается в том, как переменная интереса (например, кровяное давление, урожайность) зависит от этих экспериментальных манипуляций. В идеале характеристики независимых переменных должны быть четко определены, при этом, по существу, нет ошибок в знании их значений. Затем стандартная линейная регрессия, например, моделирует различия между значениями зависимых переменных в терминах значений независимых переменных плюс остаточные ошибки.
Тот же математический формализм, используемый для регрессии в контексте контролируемых экспериментальных исследований, также может применяться к анализу наблюдаемых наборов данных практически без экспериментальных манипуляций, поэтому, возможно, не удивительно, что фраза «независимые переменные» перенесена на такие типы исследования. Но, как отмечают другие на этой странице, это, вероятно, неудачный выбор, поскольку «предикторы» или «функции» более уместны в таких контекстах.
Во многих отношениях «независимая переменная» является неудачным выбором. Переменные не должны быть независимы друг от друга, и, конечно , не должен быть независимым от зависимой переменной . В преподавании и в моей книге « Стратегии регрессионного моделирования» я использую слово « предиктор» . В некоторых ситуациях это слово недостаточно сильное, но в среднем оно работает хорошо. Полное описание роли (правая часть) переменных в статистической модели может быть слишком длинным, чтобы использовать его каждый раз: набор переменных или измерений, на которых обусловлено распределениеЭто еще один способ обозначить множество переменных, распределение которых нас в данный момент не интересует, но значения которых мы рассматриваем как константы.X Y
Я согласен с другими ответами здесь, что «независимый» и «зависимый» - плохая терминология. Как объясняет EdM , эта терминология возникла в контексте контролируемых экспериментов, в которых исследователь мог устанавливать регрессоры независимо друг от друга. Есть много предпочтительных терминов, которые не имеют такой загруженной причинной коннотации, и, по моему опыту, статистики предпочитают более нейтральные термины. Здесь используется много других терминов , включая следующие:
Лично я использую термины «объяснительные переменные» и «переменная ответа», поскольку эти термины не имеют никакого смысла статистической независимости или контроля и т. Д. (Можно утверждать, что «ответ» имеет причинно-следственную коннотацию, но это довольно слабая коннотация, поэтому я не нашел это проблематичным.)
Чтобы добавить к ответам Фрэнка Харрелла и Питера Флома:
Я согласен, что называть переменную «независимой» или «зависимой» часто вводит в заблуждение. Но некоторые люди все еще делают это. Однажды я услышал ответ, почему:
«Зависимый» и «независимый» могут быть запутанными терминами. Одно из них - псевдокаузальное или даже причинно-следственное, и именно это подразумевается, когда мы говорим «независимая переменная» и «зависимая переменная». Мы имеем в виду, что DV в некотором смысле зависит от IV. Так, например, при моделировании соотношения роста и веса у взрослых людей мы говорим, что вес - это DV, а рост - это IV.
Это действительно захватывает то, чего не делает «предиктор», а именно направление отношений. Рост предсказывает вес, но вес также предсказывает рост. То есть, если бы вам сказали угадать рост людей и сказать им вес, это было бы полезно.
Но мы бы не сказали, что рост зависит от веса.
Исходя из приведенных выше ответов, да, я согласен, что эта зависимая и независимая переменная является слабой терминологией. Но я могу объяснить контекст, в котором он используется многими из нас. Вы говорите, что для общей задачи регрессии у нас есть выходная переменная, скажем, Y, значение которой зависит от других входных переменных, скажем, x1, x2, x3. Вот почему он называется «Зависимая переменная». И точно так же в зависимости от этого контекста только , и просто дифференцируются между выходом и входом переменной, x1, x2, x3, называются независимой переменной. Потому что, в отличие от Y, она не зависит ни от какой другой переменной (но да, здесь мы не говорим о зависимости между собой).
Независимые переменные называются независимыми, потому что они не зависят от других переменных. Например, рассмотрим проблему прогнозирования цен на жилье. Предположим, у нас есть данные о house_size, location и house_price. Здесь, house_price определяется на основе house_size и местоположения, но местоположение и house_size могут различаться для разных домов.