Я много раз анализировал набор данных, по которому я не мог провести какую-либо классификацию. Чтобы увидеть, могу ли я получить классификатор, я обычно использовал следующие шаги:
- Создайте графические зависимости метки от числовых значений.
- Уменьшите размерность до 2 или 3, чтобы увидеть, разделяются ли классы, также иногда пробовал LDA.
- Сильно попытайтесь приспособить SVM и Случайные Леса и посмотрите на важность функции, чтобы видеть, имеют ли функции какой-либо смысл или нет.
- Попробуйте изменить баланс классов и методов, таких как недостаточная выборка и избыточная выборка, чтобы проверить, не может ли быть дисбаланс классов.
Есть много других подходов, я могу думать, но не пробовали. Иногда я знаю, что эти функции не очень хороши и совсем не связаны с лейблом, который мы пытаемся предсказать. Затем я использую эту бизнес-интуицию, чтобы завершить упражнение, и пришел к выводу, что нам нужны лучшие функции или совершенно другие ярлыки.
Мой вопрос заключается в том, как Data Scientist сообщает, что классификация с этими функциями невозможна. Есть ли какой-либо статистический способ сообщить об этом или сначала согласовать данные в разных алгоритмах, и наилучшим вариантом является поиск метрики проверки?