Я довольно новичок в машинном обучении, методиках CART и тому подобном, и я надеюсь, что моя наивность не слишком очевидна.
Как случайный лес обрабатывает многоуровневые / иерархические структуры данных (например, когда интерес представляет межуровневое взаимодействие)?
То есть наборы данных с единицами анализа на нескольких иерархических уровнях ( например , ученики, вложенные в школы, с данными как о учениках, так и о школах).
В качестве примера рассмотрим многоуровневый набор данных с отдельными лицами на первом уровне ( например , с данными о поведении при голосовании, демографией и т. Д.), Вложенными в страны на втором уровне (с данными на уровне страны; например , по населению):
ID voted age female country population
1 1 19 1 1 53.01
2 1 23 0 1 53.01
3 0 43 1 1 53.01
4 1 27 1 1 53.01
5 0 67 0 1 53.01
6 1 34 1 2 47.54
7 0 54 1 2 47.54
8 0 22 1 2 47.54
9 0 78 0 2 47.54
10 1 52 0 2 47.54
Допустим, что voted
это переменная ответа / зависимая, а остальные переменные предиктор / независимые. В таких случаях могут быть очень интересны поля и предельные эффекты переменной (частичной зависимости) для некоторой переменной более высокого уровня ( например , population
) для различных переменных индивидуального уровня и т. Д. В случае, подобном этому, это, glm
конечно, более уместно, но когда существует много переменных, взаимодействий и / или пропущенных значений, и / или очень крупномасштабных наборов данных и т. Д., glm
Это не так надежно.
Подзапросы: Может ли Random Forest каким-то образом явно обработать этот тип структуры данных? Если используется независимо от того, какой уклон это вводит? Если Случайный Лес не подходит, есть ли другой метод ансамблевого типа?
(Вопрос Случайный лес на сгруппированных данных , возможно, похож, но на самом деле не отвечает.)