Взаимодействия необходимы явно в регрессионных моделях, потому что формула сама по себе не включает никаких взаимодействий. Точнее, регрессионная модель всегда будет линейной на входе, тогда как взаимодействие представляет собой нелинейную комбинацию признаков.Икся∗ XJ
Самый простой способ увидеть это через XOR-проблему, регрессионная модель без каких-либо взаимодействий не может решить эту проблему, так как требует нелинейной комбинации.
С другой стороны, KNN и SVM (и многие другие модели) являются приближениями универсальной функции. Это означает, что они могут не только комбинировать свои входные данные линейным образом, но и любым возможным нелинейным способом. При наличии достаточного количества слоев или подходящего ядра они могут «создавать» свои собственные взаимодействия именно так, как они им нужны. Если вы знаете или ожидаете, что конкретные взаимодействия будут важны, вы все равно можете использовать их в качестве входных данных для направления моделей в правильном направлении.
Точно так же основанные на деревьях модели могут интерпретироваться как состоящие только из взаимодействий. По сути, разделение в древовидной модели создает определенное взаимодействие со всеми предыдущими переменными.
Таким образом, чтобы решить, какие взаимодействия использовать для достаточно «мощных» моделей (то есть тех, которые являются универсальными приближениями функций), они вам не нужны, и вы можете позволить модели творить свое волшебство. Для других моделей это зависит. Есть несколько методов, доступных для принятия решения, таких как CHAID или пошаговая регрессия. CHAID также работает с большим количеством функций, для пошаговой регрессии он может потеряться в количестве возможных взаимодействий. Учитывая, что если у вас возможностей, есть возможных взаимодействий (считая не только двусторонние, но и взаимодействия более высокого порядка).N2N