В чем разница между дискретными данными и непрерывными данными?
В чем разница между дискретными данными и непрерывными данными?
Ответы:
Дискретные данные могут принимать только определенные значения. Потенциально может быть бесконечное количество этих значений, но каждое из них отличается, и между ними нет серой области. Дискретные данные могут быть числовыми - например, количество яблок - но они также могут быть категоричными - например, красные или синие, мужские или женские, хорошие или плохие.
Непрерывные данные не ограничиваются определенными отдельными значениями, но могут занимать любое значение в непрерывном диапазоне. Между любыми двумя непрерывными значениями данных может быть бесконечное число других. Непрерывные данные всегда по существу числовые.
Иногда имеет смысл рассматривать числовые данные, которые относятся к одному типу как к другому. Например, что-то вроде высоты является непрерывным, но часто мы не особо заботимся о крошечных различиях, а вместо этого группируем высоты в несколько дискретных корзин . И наоборот, если мы считаем большие объемы какой-то отдельной сущности - зерна риса, термитов или пенни в экономике - мы можем решить не думать о 2 000 006 и 2 000 008 как о принципиально разных значениях, а вместо этого о близлежащих точках на приблизительный континуум.
Иногда может быть полезно рассматривать числовые данные как категориальные, например: недостаточный вес, нормальный, ожирение. Обычно это просто другой вид биннинга.
Редко имеет смысл считать категориальные данные непрерывными.
Данные всегда дискретны. Учитывая выборку n
значений для переменной, максимальное количество различных значений, которые может принимать переменная, равно n
. Смотрите эту цитату
Все действительные выборочные пространства являются дискретными, и все наблюдаемые случайные величины имеют дискретные распределения. Непрерывное распределение - это математическая конструкция, подходящая для математической обработки, но практически не наблюдаемая. Э.Дж. Питман (1979, стр. 1).
Предполагается, что данные о переменной взяты из случайной величины. Случайная переменная является непрерывной в диапазоне, если существует бесконечное число возможных значений, которые переменная может принимать между любыми двумя различными точками в диапазоне. Например, рост, вес и время обычно предполагаются непрерывными. Конечно, любое измерение этих переменных будет конечно точным и в некотором смысле дискретным.
Полезно различать упорядоченные (т. Е. Порядковые), неупорядоченные (т. Е. Номинальные)
и двоичные дискретные переменные.
Некоторые вводные учебники путают непрерывную переменную с числовой переменной. Например, оценка в компьютерной игре дискретна, даже если она числовая.
Некоторые вводные учебники путают переменную отношения с непрерывными переменными. Переменная count является относительной переменной, но она не является непрерывной.
На практике переменная часто рассматривается как непрерывная, если она может принимать достаточно большое количество различных значений.
Температура постоянная. Это может быть 23 градуса, 23,1 градуса, 23,100004 градуса.
Секс дискретен. Вы можете быть только мужчиной или женщиной (в любом случае в классическом мышлении). Что-то, что вы можете представить целым числом, таким как 1, 2 и т. Д.
Разница важна, поскольку многие алгоритмы статистического анализа и анализа данных могут обрабатывать один тип, но не другой. Например, в регулярной регрессии, Y должен быть непрерывным. В логистической регрессии Y дискретно.
Дискретные данные могут принимать только определенные значения.
Пример: количество учеников в классе (у вас не может быть половины ученика).
Непрерывные данные - это данные, которые могут принимать любое значение (в пределах диапазона)
Примеры:
В случае базы данных мы всегда будем хранить данные в дискретном виде, даже если природа данных является непрерывной. Почему я должен подчеркивать природу данных? Мы должны принять распределение данных, которые могут помочь нам проанализировать данные. Если природа данных непрерывна, я предлагаю вам использовать их при непрерывном анализе.
Возьмите пример непрерывного и дискретного: MP3. Даже тип «звука» является аналогом, если хранится в цифровом формате. Мы должны всегда анализировать это аналогичным образом.
С одной стороны, с практической точки зрения я согласен с ответом Джерома Англима. В конце концов, мы большую часть времени имеем дело с дискретными переменными - хотя с теоретической точки зрения они непрерывны - и это оказывает реальное влияние, например, на классификацию. Вспомните статью Стробла, в которой указано, что случайные леса смещены в сторону переменных с несколькими точками резания (более высокая точность, но потенциально схожая природа). Исходя из моего личного опыта, вероятностные нейронные сети могут также представлять смещение, когда переменные представляют разную точность, если они не относятся к одному и тому же типу (то есть непрерывны). С другой стороны, с теоретической точки зрения классическая классификация (например, непрерывная, дискретная, номинальная и т. Д.), IMHO, верна. В соответствии с этим я думаю, что название источника статьи Куинлана, описывающей алгоритм M5, который является «регрессором», это отличный выбор. Таким образом, определение и последствия непрерывного и дискретного имеют отношение в зависимости от «среды».
Refs:
Quinlan JR (1992). Обучение с непрерывными занятиями. В: 5-я совместная австралийская конференция по искусственному интеллекту. Сидней (Австралия), 343–348.
Strobl C., Boulesteix A.-L., Zeileis A. & Hothorn T. (2007). Смещение в случайных лесных переменных показателях важности: иллюстрации, источники и решение. BMC Bioinformatics, 8, 25. doi: 10.1186 / 1471-2105-8-25
Дискретные данные принимают конкретные значения, в то время как непрерывные данные не ограничиваются отдельными значениями.
Дискретные данные различны, и между ними нет серой области, в то время как непрерывные данные занимают любое значение по сравнению с непрерывным значением данных.
Дискретные данные Они могут принимать конкретные значения. Они являются числовыми.
Дискретные данные могут принимать только целые значения, тогда как непрерывные данные могут принимать любое значение. Например, число больных раком, которых лечат каждый год в больнице, является дискретным, но ваш вес постоянен. Некоторые данные являются непрерывными, но измеряются дискретно, например, ваш возраст. Обычно сообщают о вашем возрасте, как, скажем, 31.