Когда у вас есть такой большой набор данных, вы можете играть с любым из методов статистического и машинного обучения, и это очень рекомендуется. Как и предполагали другие, я бы также порекомендовал взять несколько миллионов случайных выборок из данных и поиграть с ними. Поскольку это проблема классификации, я бы сначала следовал простым методам классификации, а затем - более сложным. Логистическая регрессия хороша для начала.
Я хотел добавить, что генеративные модели также должны быть опробованы. Наивный байесовский классификатор - один из простейших вероятностных классификаторов, он превосходит многие сложные методы, такие как машины опорных векторов, во многих задачах. Вы можете посмотреть на эту простую реализацию NB и эту ссылку для сравнения NB с логистической регрессией.
Можно построить классификатор Наивного Байеса (NB) в качестве базовой модели, а затем перейти на любую технику машинного обучения, такую как машины опорных векторов (SVM) или многослойные персептроны (MLP). Компромисс здесь заключается в том, что NB вычислительно дешевле, чем MLP, поэтому желательна лучшая производительность от MLP.
Точный запрос. Глубокое обучение и усиление градиентного дерева - это очень мощные методы, которые могут моделировать любые виды отношений в данных. Но что если в вашем случае простая логистическая регрессия или NB дает желаемую точность. Поэтому всегда лучше сначала попробовать простые приемы и получить базовую производительность. Тогда можно пойти на сложные модели и сравнить с базовой линией.