Разница между отсутствующими данными и разреженными данными в алгоритмах машинного обучения


20

Каковы основные различия между разреженными данными и отсутствующими данными? И как это влияет на машинное обучение? В частности, как редкие и отсутствующие данные влияют на алгоритмы классификации и регрессионные (прогнозирующие числа) типы алгоритмов. Я говорю о ситуации, когда процент пропущенных данных значителен, и мы не можем удалить строки, содержащие пропущенные данные.


4
Разреженные данные означают, что многие значения равны нулю, но вы знаете, что они равны нулю. Отсутствующие данные означают, что вы не знаете, что представляют собой некоторые или многие значения.
Анна SdTC

Благодарю. Я тоже так думал, но хотел подтвердить. Кроме того, как уже упоминалось в вопросе, хотелось бы знать, как, в общем, эти типы наборов данных обрабатываются в задачах машинного обучения ..
уставший и скучающий разработчик

1
Я думаю, что ваш вопрос немного расплывчатый. «Машинное обучение» включает в себя широкий спектр методов и инструментов, поэтому ответ зависит от того, что у вас есть или что вы хотите сделать. Здесь обсуждаются некоторые методы обработки недостающих данных: stats.stackexchange.com/questions/103500/…
Anna SdTC

Благодарю. Я знаю о широком спектре инструментов и типов алгоритмов мл. Но хотел узнать, есть ли какие-то общие подходы.
уставший и скучающий разработчик

Ответы:


16

Для простоты понимания я опишу это на примере. Допустим, вы собираете данные с устройства, которое имеет 12 датчиков. И вы собрали данные за 10 дней.

Данные, которые вы собрали, следующие: введите описание изображения здесь

Это называется разреженными данными, потому что большинство выходных сигналов датчика равно нулю. Это означает, что эти датчики работают нормально, но фактические показания равны нулю. Хотя эта матрица имеет данные большого размера (12 осей), можно сказать, что она содержит меньше информации.

Допустим, 2 датчика вашего устройства неисправны.
Тогда ваши данные будут такими:введите описание изображения здесь

В этом случае вы можете видеть, что вы не можете использовать данные от Sensor1 и Sensor6. Либо вы должны заполнить данные вручную, не влияя на результаты, либо вам придется повторить эксперимент.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.