Есть ли действительно простое описание практических различий между этими двумя методами?
Похоже, что оба они используются для обучения под наблюдением (хотя правила ассоциации могут также обрабатывать без присмотра).
Оба могут быть использованы для прогнозирования
Самое близкое к «хорошему» описанию я нашел из учебника Statsoft . Они говорят, что Правила Ассоциации используются для:
... обнаруживать связи или ассоциации между конкретными значениями категориальных переменных в больших наборах данных.
Хотя классификаторы дерева решений описаны как используемые для:
... предсказать членство дел или объектов в классах категориальной зависимой переменной на основе их измерений по одной или нескольким переменным предикторам.
Однако в R Data Mining они приводят пример правил ассоциации, используемых с целевым полем .
Таким образом, оба могут использоваться для прогнозирования членства в группе. Является ли ключевое различие в том, что деревья решений могут обрабатывать некатегоричные входные данные, а правила ассоциации - нет? Или есть что-то более фундаментальное? Один сайт ( sqlserverdatamining.com ) говорит, что ключевое отличие:
Правила деревьев решений основаны на получении информации, в то время как правила ассоциации основаны на популярности и / или уверенности.
Таким образом (возможно, отвечая на мой собственный вопрос), означает ли это, что правила ассоциации оцениваются исключительно на основе того, как часто они появляются в наборе данных (и как часто они являются «истинными»), в то время как деревья решений фактически пытаются минимизировать дисперсию?
Если кто-нибудь знает хорошее описание, на которое он хотел бы указать мне, это было бы здорово.