Я анализировал набор данных из ~ 400 тыс. Записей и 9 переменных. Зависимая переменная является двоичной. Я установил логистическую регрессию, дерево регрессии, случайный лес и дерево с градиентным повышением. Все они дают виртуально идентичные данные соответствия, когда я проверяю их на другом наборе данных.
Почему это так? Я предполагаю, что это потому, что мои наблюдения к переменному отношению очень высоки. Если это правильно, при каком отношении к переменному отношению разные модели начнут давать разные результаты?