У меня есть набор данных с 20000 сэмплами, каждый имеет 12 различных функций. Каждая выборка относится к категории 0 или 1. Я хочу обучить нейронную сеть и лес решений для классификации выборок, чтобы можно было сравнить результаты и оба метода.
Первое, на что я наткнулся, это правильная нормализация данных. Одна особенность находится в диапазоне , другая - в и есть одна особенность, которая в основном принимает значение 8, а иногда и 7. Так как я читаю в разных источниках, правильная нормализация входных данных имеет решающее значение для нейронных сетей. Как я выяснил, существует множество возможных способов нормализации данных, например:
- Min-Max Normalization : входной диапазон линейно преобразуется в интервал (или, альтернативно, , это имеет значение?)
- Нормализация Z-показателя : данные преобразуются, чтобы иметь нулевое среднее значение и единичную дисперсию:
Какую нормализацию выбрать? Нужна ли нормализация для принятия решений? С нормализацией Z-Score различные характеристики моих тестовых данных не лежат в одном диапазоне. Может ли это быть проблемой? Должна ли каждая функция нормализоваться по одному и тому же алгоритму, чтобы я решил либо использовать Min-Max для всех функций, либо Z-Score для всех функций?
Я чувствую себя немного потерянным, потому что я не могу найти ссылки, которые отвечают на эти вопросы.