Мне нравятся оба ответа, данные до сих пор. Позвольте мне добавить несколько вещей.
Другой вариант заключается в том, что вы также можете комбинировать переменные. Это делается путем стандартизации обоих (т. Е. Превращения их в z-оценки), их усреднения, а затем подгонки вашей модели только к составной переменной. Это будет хорошим подходом, если вы считаете, что это две разные меры одной и той же базовой конструкции. В этом случае у вас есть два измерения, которые загрязнены ошибкой. Наиболее вероятное истинное значение для переменной, которую вы действительноЗабота о них находится между ними, поэтому их усреднение дает более точную оценку. Сначала вы стандартизируете их, чтобы поместить их в одну шкалу, чтобы номинальные проблемы не загрязняли результат (например, вам не хотелось бы усреднять несколько измерений температуры, если некоторые из них являются градусами Фаренгейта, а некоторые - градусами Цельсия). Конечно, если они уже находятся в одном масштабе (например, несколько высоко коррелированных опросов общественного мнения), вы можете пропустить этот шаг. Если вы думаете, что одна из ваших переменных может быть более точной, чем другая, вы можете сделать средневзвешенное значение (возможно, используя обратную величину ошибок измерения).
Если ваши переменные являются просто разными мерами одной и той же конструкции и достаточно сильно коррелированы, вы действительно можете просто выбросить одну из них, не теряя много информации. Например, однажды я действительно находился в ситуации, когда я хотел использовать ковариату, чтобы поглотить некоторую дисперсию ошибок и повысить мощность, но там, где я не заботился об этом ковариате - это было не совсем по существу. У меня было несколько вариантов и все они коррелируют друг с другом . Я выбрал один наугад и пошел дальше, и он работал нормально. Я подозреваю, что потерял бы силу, сжигая две дополнительные степени свободы, если бы я включил и другие, используя другую стратегию. Конечно, я мог бы объединить их, но зачем? r>.98Однако это критически зависит от того факта, что ваши переменные коррелированы, потому что это две разные версии одной и той же вещи; если есть другая причина, по которой они коррелируют, это может быть совершенно неуместно.
Поскольку это подразумевает, я предлагаю вам подумать о том, что скрывается за вашими коррелированными переменными. То есть вам нужна теория о том, почему они так сильно коррелированы, чтобы лучше всего выбирать, какую стратегию использовать. В дополнение к различным показателям одной и той же скрытой переменной, некоторые другие возможности включают причинную цепочку (т. ) и более сложные ситуации, в которых ваши переменные являются результатом множества причинных сил, некоторые из которых являются одинаково для обоих. Возможно, самый крайний случай - это случай с подавляющей переменной, который @whuber описывает в своем комментарии ниже. Например, предложение @ Macro предполагает, что вы в первую очередь интересуетесь и задаетесь вопросом о дополнительном вкладеX Z X x 1 x 2 X ZX1→X2→YXZ после учета вкладаТаким образом, думая о том, почему ваши переменные коррелируют и то , что вы хотите знать , поможет вам решить , какой (то есть, или ) следует рассматривать как и какие . Ключ должен использовать теоретическое понимание, чтобы сообщить ваш выбор. Xx1x2XZ
Я согласен, что регрессия гребня, возможно, лучше, потому что она позволяет вам использовать переменные, которые вы первоначально планировали, и, вероятно, приведет к бета-версиям, которые очень близки к их истинным значениям (хотя они будут смещены - см. Здесь или здесь для получения дополнительной информации ). Тем не менее, я думаю, что у этого также есть два потенциальных недостатка: он более сложный (требует большей статистической сложности), и, по моему мнению, полученную модель труднее интерпретировать.
Я понимаю, что, возможно, окончательный подход будет соответствовать модели структурного уравнения. Это потому, что это позволит вам сформулировать точный набор отношений, которые вы считаете действующими, включая скрытые переменные. Тем не менее, я не знаю SEM достаточно хорошо, чтобы сказать что-то об этом здесь, кроме упоминания о возможности. (Я также подозреваю, что в ситуации, которую вы описываете с двумя ковариатами, было бы излишним.)