В настоящее время я работаю над моделью логистической регрессии для геномики. Одно из полей ввода, которое я хочу включить как ковариату, это genes
. Существует около 24 000 известных генов. Существует много особенностей с таким уровнем изменчивости в вычислительной биологии, и необходимы сотни тысяч образцов.
- Если я
LabelEncoder()
эти 24K гены - а потом
OneHotEncoder()
их ...
Собираются ли 24 000 колонок для того, чтобы время обучения керасу было необоснованным для четырехъядерного процессора i7 с тактовой частотой 2,2 ГГц?
Если так, есть ли другой подход к кодированию, который я могу использовать с этим?
Должен ли я как-то попытаться выделить слой моей модели для этой функции?
Означает ли это, что мне нужны 24K входных узлов?