Что такое смешивание данных?


15

Этот термин часто встречается в темах, связанных с методом .

Является ли смешивание конкретным методом в интеллектуальном анализе данных и статистическом обучении? Я не могу получить соответствующий результат от Google.

Кажется, смешивание смешивает результаты многих моделей и приводит к лучшему результату. Есть ли какой-нибудь ресурс, который поможет мне узнать больше об этом?

Ответы:


10

http://www.cs.cornell.edu/~caruana/ctp/ct.papers/caruana.icml04.icdm06long.pdf Некоторые документы, которые помогут вам лучше понять, что такое смешивание. Я думаю, что вы также можете Google для выбора / обучения ансамбля, а также укладки.

Ваше общее понимание «смешивания результатов многих моделей и достижения лучшего результата», тем не менее, верно.


Эта ссылка также была взята где-то на форуме Kaggle. Я сохранил только ссылку в PDF, но не обсуждение ...
Король

12

Повышение (как упоминалось в связанном обсуждении) - это метод, который объединяет набор алгоритмов для получения результата, который лучше, чем тот, который вы можете получить из любого отдельного алгоритма. Например, случайные леса - это метод объединения различных деревьев классификации для алгоритма классификации. Этот подход формально называется ансамблевым усреднением (хотя алгоритм обычно применяет правило большинства). Смешивание - это слово, которое некоторые люди используют для описания ускоренного подхода к классификации.


Так можно ли это назвать смешиванием, если я заменю деревья классификации в нормальной модели adaboost другим набором алгоритмов?
TomHall

Привет, Майкл. Ваш ответ действительно полезен, но, позор мне, я новичок в статистике и еще не набрал достаточно репутации, чтобы проголосовать за ваш ответ.
TomHall

1
Хорошо, тогда не забудьте сделать это после того, как вы получите несколько очков репутации.
Майкл Р. Черник

0

В отрасли смешивание данных связано не с моделями, а с предварительной обработкой : это когда данные объединяются из разных источников, например, из базы данных и других данных из файлов CSV.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.