Статистическое тестирование предназначено для того, чтобы сделать вывод из данных, оно показывает, как все связано. Результатом является то, что имеет значение в реальном мире. Например, как курение связано с раком легких, как с точки зрения направления, так и величины. Это все еще не говорит вам, почему вещи произошли. Чтобы ответить, почему что-то произошло, нам нужно также рассмотреть взаимосвязь с другими переменными и внести соответствующие коррективы (см. Pearl, J. (2003). ПРИЧИНА: МОДЕЛИ, ПРИЧИНЫ И ВЛИЯНИЕ).
Контролируемое обучение предназначено для прогнозирования, оно говорит вам, что произойдет. Например, учитывая статус курения человека, мы можем предсказать, будет ли у него рак легких. В простых случаях он по-прежнему говорит вам «как», например, глядя на предельное состояние курения, идентифицированное алгоритмом. Но более сложные модели труднее или невозможно интерпретировать (глубокое обучение / повышение с большим количеством функций).
Обучение без присмотра часто используется для облегчения вышеупомянутых двух.
- Для статистического тестирования, обнаруживая некоторые неизвестные основные подгруппы данных (кластеризация), мы можем вывести неоднородность в ассоциациях между переменными. Например, курение увеличивает вероятность возникновения рака легких для подгруппы А, но не для подгруппы В.
- Для контролируемого обучения мы можем создавать новые функции для повышения точности и надежности прогнозирования. Например, путем определения подгрупп (кластеризация) или сочетания признаков (уменьшение размеров), которые связаны с вероятностью возникновения рака легких.
Когда количество функций / переменных становится больше, разница между статистическим тестированием и контролируемым обучением становится более существенной. Статистическое тестирование может не обязательно выиграть от этого, это зависит, например, от того, хотите ли вы сделать причинный вывод, контролируя другие факторы или выявляя неоднородность в ассоциациях, как упомянуто выше. Обучение под наблюдением будет работать лучше, если функции будут актуальны, и оно станет больше похожим на черный ящик.
Когда количество выборок увеличивается, мы можем получить более точные результаты для статистического тестирования, более точные результаты для обучения под наблюдением и более надежные результаты для обучения без присмотра. Но это зависит от качества данных. Данные плохого качества могут привести к смещению или шуму результатов.
Иногда мы хотим знать, «как» и «почему», чтобы информировать интервенционные действия, например, путем определения того, что курение вызывает рак легких, может быть разработана политика для борьбы с этим. Иногда мы хотим знать, «что» сообщать при принятии решений, например, выяснять, у кого может быть рак легких, и назначать им раннее лечение. В журнале Science опубликован специальный выпуск о прогнозировании и его пределах ( http://science.sciencemag.org/content/355/6324/468.). «Похоже, что успех достигается наиболее последовательно, когда вопросы решаются междисциплинарными усилиями, которые объединяют человеческое понимание контекста с алгоритмической способностью обрабатывать терабайты данных». По моему мнению, например, знания, обнаруженные с помощью тестирования гипотез, могут помочь контролировать обучение, информируя нас какие данные / особенности мы должны собирать в первую очередь. С другой стороны, контролируемое обучение может помочь генерировать гипотезы, сообщая, какие переменные