В чем разница между дискретными данными и непрерывными данными?


63

В чем разница между дискретными данными и непрерывными данными?


2
Вы пробовали Google сначала? Для меня это дает это .
Робин Жирар

Вот хорошее видео, которое отвечает на ваш вопрос. youtube.com/watch?v=MIX3ZpzEOdM

2
Просто подумайте, что цифровой против аналогового. То же самое - разные имена.
Питикос

Я действительно не знаю, в чем разница между «дискретными» и «непрерывными» данными. По некоторым причинам вступительные классы, кажется, действительно любят заставлять студентов запоминать правила, чтобы различать эти две вещи. Насколько я понял, различия заключаются не в данных, а в том, как мы выбираем моделирование данных.
user795305

1
Это был лучший результат в Google, @robingirard.
Дэнсон

Ответы:


58

Дискретные данные могут принимать только определенные значения. Потенциально может быть бесконечное количество этих значений, но каждое из них отличается, и между ними нет серой области. Дискретные данные могут быть числовыми - например, количество яблок - но они также могут быть категоричными - например, красные или синие, мужские или женские, хорошие или плохие.

Непрерывные данные не ограничиваются определенными отдельными значениями, но могут занимать любое значение в непрерывном диапазоне. Между любыми двумя непрерывными значениями данных может быть бесконечное число других. Непрерывные данные всегда по существу числовые.

Иногда имеет смысл рассматривать числовые данные, которые относятся к одному типу как к другому. Например, что-то вроде высоты является непрерывным, но часто мы не особо заботимся о крошечных различиях, а вместо этого группируем высоты в несколько дискретных корзин . И наоборот, если мы считаем большие объемы какой-то отдельной сущности - зерна риса, термитов или пенни в экономике - мы можем решить не думать о 2 000 006 и 2 000 008 как о принципиально разных значениях, а вместо этого о близлежащих точках на приблизительный континуум.

Иногда может быть полезно рассматривать числовые данные как категориальные, например: недостаточный вес, нормальный, ожирение. Обычно это просто другой вид биннинга.

Редко имеет смысл считать категориальные данные непрерывными.


@walktalky как @jeromy намекает, по крайней мере, в психологии, что категориальные переменные, такие как ответы на вопросы, часто считаются представлением основной черты, поэтому в этом смысле категориальные данные иногда воспринимаются как непрерывные.
richiemorrisroe

@richiemorrisroe Кто-то может придираться к разнице между данными и предполагаемой чертой, но, конечно, вы правы. В ответ на этот дополнительный вопрос были сделаны некоторые очень интересные дополнительные замечания .
walkytalky

спасибо за ссылку, эти ответы действительно очень интересны.
richiemorrisroe

> « Возможно, таких значений может быть бесконечное количество, но каждое из них различно, и между ними нет серой области » - фактически вполне возможно иметь дискретное распределение с различными значениями, и в то же время одновременно для любых двух отдельные значения, которые вы выбираете, всегда имеют больше значений между ними (в некотором смысле «серая область»). Они не так часто встречаются на практике, но вполне возможно, что они подходят по-настоящему; действительно, я могу вспомнить два различных (если они связаны) примера, которые могут легко возникнуть.
Glen_b

поэтому, чтобы уточнить, даже если бы у вас было 10 миллиардов строк данных о фондовых активах, это все равно будет считаться дискретным? но тогда цена актива может быть от 1 до бесконечности, как думать в такой ситуации?
PirateApp

19

Данные всегда дискретны. Учитывая выборку nзначений для переменной, максимальное количество различных значений, которые может принимать переменная, равно n. Смотрите эту цитату

Все действительные выборочные пространства являются дискретными, и все наблюдаемые случайные величины имеют дискретные распределения. Непрерывное распределение - это математическая конструкция, подходящая для математической обработки, но практически не наблюдаемая. Э.Дж. Питман (1979, стр. 1).

Предполагается, что данные о переменной взяты из случайной величины. Случайная переменная является непрерывной в диапазоне, если существует бесконечное число возможных значений, которые переменная может принимать между любыми двумя различными точками в диапазоне. Например, рост, вес и время обычно предполагаются непрерывными. Конечно, любое измерение этих переменных будет конечно точным и в некотором смысле дискретным.

Полезно различать упорядоченные (т. Е. Порядковые), неупорядоченные (т. Е. Номинальные)
и двоичные дискретные переменные.

Некоторые вводные учебники путают непрерывную переменную с числовой переменной. Например, оценка в компьютерной игре дискретна, даже если она числовая.

Некоторые вводные учебники путают переменную отношения с непрерывными переменными. Переменная count является относительной переменной, но она не является непрерывной.

На практике переменная часто рассматривается как непрерывная, если она может принимать достаточно большое количество различных значений.

Рекомендации

  • Питман, EJG 1979. Некоторые основные теории статистического вывода. Лондон: Чепмен и Холл. Примечание: цитату я нашел во введении к главе 2 книги Мюррея Айткина « Статистический вывод: интегрированный байесовский / вероятностный подход».

12
Вероятность также является «математической конструкцией», а не «непосредственно наблюдаемой». Значит ли это, что вероятность не существует? В целом, это интересный ответ , кажется , на основе несостоятельной предпосылке , что данные должны быть охарактеризовано значениями , они действительно есть , а не значениями математическая модель позволяет им иметь. Последний является решающей характеристикой, а не первым. Все это говорит о том, что при непрерывном / дискретном различии важно то, как мы думаем о данных (то есть как мы их моделируем).
whuber

3
Есть умная маленькая басня, иллюстрирующая точку зрения @ whuber: Лорд (1953), «О статистической обработке футбольных чисел», Американский психолог , 8 , стр. 750-51.
Scortchi - Восстановить Монику

Спасибо, @ Scortchi. Веб-версии доступны через поиск в Google . Лорд обращается к заблуждению, горячо обсуждавшемуся 60 лет назад, о том, в какой степени «теория измерений» должна влиять (или даже ограничивать сферу) статистического анализа. Моя точка зрения была другой относительно различия между модельными конструкциями и наблюдениями.
whuber

12

Температура постоянная. Это может быть 23 градуса, 23,1 градуса, 23,100004 градуса.

Секс дискретен. Вы можете быть только мужчиной или женщиной (в любом случае в классическом мышлении). Что-то, что вы можете представить целым числом, таким как 1, 2 и т. Д.

Разница важна, поскольку многие алгоритмы статистического анализа и анализа данных могут обрабатывать один тип, но не другой. Например, в регулярной регрессии, Y должен быть непрерывным. В логистической регрессии Y дискретно.


5
Y

8

Дискретные данные могут принимать только определенные значения.

Пример: количество учеников в классе (у вас не может быть половины ученика).

Непрерывные данные - это данные, которые могут принимать любое значение (в пределах диапазона)

Примеры:

  • Рост человека: может быть любым значением (в пределах диапазона человеческих высот), а не только определенным фиксированным ростом,
  • Время в гонке: вы можете измерить его до доли секунды,
  • Вес собаки,
  • Длина листа,
  • Вес человека,

2
Вы также можете сообщить нам, куда вы скопировали вставленный ответ: mathsisfun.com/data/data-discrete-continuous.html
philmcole

Красиво описано.
Арсман Ахмад

0

В случае базы данных мы всегда будем хранить данные в дискретном виде, даже если природа данных является непрерывной. Почему я должен подчеркивать природу данных? Мы должны принять распределение данных, которые могут помочь нам проанализировать данные. Если природа данных непрерывна, я предлагаю вам использовать их при непрерывном анализе.

Возьмите пример непрерывного и дискретного: MP3. Даже тип «звука» является аналогом, если хранится в цифровом формате. Мы должны всегда анализировать это аналогичным образом.


0

С одной стороны, с практической точки зрения я согласен с ответом Джерома Англима. В конце концов, мы большую часть времени имеем дело с дискретными переменными - хотя с теоретической точки зрения они непрерывны - и это оказывает реальное влияние, например, на классификацию. Вспомните статью Стробла, в которой указано, что случайные леса смещены в сторону переменных с несколькими точками резания (более высокая точность, но потенциально схожая природа). Исходя из моего личного опыта, вероятностные нейронные сети могут также представлять смещение, когда переменные представляют разную точность, если они не относятся к одному и тому же типу (то есть непрерывны). С другой стороны, с теоретической точки зрения классическая классификация (например, непрерывная, дискретная, номинальная и т. Д.), IMHO, верна. В соответствии с этим я думаю, что название источника статьи Куинлана, описывающей алгоритм M5, который является «регрессором», это отличный выбор. Таким образом, определение и последствия непрерывного и дискретного имеют отношение в зависимости от «среды».

Refs:

Quinlan JR (1992). Обучение с непрерывными занятиями. В: 5-я совместная австралийская конференция по искусственному интеллекту. Сидней (Австралия), 343–348.

Strobl C., Boulesteix A.-L., Zeileis A. & Hothorn T. (2007). Смещение в случайных лесных переменных показателях важности: иллюстрации, источники и решение. BMC Bioinformatics, 8, 25. doi: 10.1186 / 1471-2105-8-25


-1

Дискретные данные принимают конкретные значения, в то время как непрерывные данные не ограничиваются отдельными значениями.

Дискретные данные различны, и между ними нет серой области, в то время как непрерывные данные занимают любое значение по сравнению с непрерывным значением данных.


-2

Дискретные данные Они могут принимать конкретные значения. Они являются числовыми.


Добро пожаловать в резюме! Спасибо за ответ, но, пожалуйста, найдите время, чтобы посмотреть предыдущие ответы и подумать, добавляете ли вы что-нибудь полезное.
Scortchi - Восстановить Монику

-3

Дискретные данные могут принимать только целые значения, тогда как непрерывные данные могут принимать любое значение. Например, число больных раком, которых лечат каждый год в больнице, является дискретным, но ваш вес постоянен. Некоторые данные являются непрерывными, но измеряются дискретно, например, ваш возраст. Обычно сообщают о вашем возрасте, как, скажем, 31.


11
Данные могут быть дискретными без ограничения целыми числами. Или цифры, если на то пошло. Дискретные данные всегда можно представить целыми числами, но это не значит, что данные могут принимать только такие значения.
walkytalky

-4

Дискретные данные чересчур говорят о конечных значениях, а непрерывные данные - о значениях ifinite .....


2
Хотите разработать?
CHL
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.