Я ценю другие ответы, но мне кажется, что некоторый топологический фон дал бы столь необходимую структуру ответов.
Определения
Начнем с определения доменов:
Категориальная переменная - это та, чья область содержит элементы, но между ними нет никакой известной связи (таким образом, у нас есть только категории). Примеры зависят от контекста, но я бы сказал, что в общем случае трудно сравнивать дни недели: с понедельника до воскресенья, если да, то как насчет следующего понедельника? Возможно, более простым, но менее используемым примером являются предметы одежды: без предоставления некоторого контекста, который имел бы смысл порядка, трудно сказать, идут ли брюки перед джемперами или наоборот.
Порядковая переменная - это переменная, которая имеет общий порядок, определенный для домена, то есть для каждых двух элементов домена мы можем сказать, что они либо идентичны, либо один больше другого. Лайкерт масштаб является хорошим примером определения порядкового переменным. «несколько согласен» определенно ближе к «полностью согласен», чем «не согласен».
Переменная- интервал - это единица, область которой определяет расстояния между элементами ( метрика ), что позволяет нам определять интервалы.
Примеры доменов
В качестве наиболее распространенного набора, который мы используем, натуральные и действительные числа имеют стандартный общий порядок и метрики. Вот почему мы должны быть осторожны, когда мы присваиваем номера нашим категориям. Если мы не будем внимательны к пренебрежению порядком и расстоянием, мы практически преобразуем наши категориальные данные в интервальные данные. Когда кто-то использует алгоритм машинного обучения, не зная, как он работает, он рискует сделать такие предположения неохотно, что может лишить законной силы собственные результаты. Например, большинство популярных алгоритмов глубокого обучения работают с действительными числами, используя их интервальные и непрерывные свойства. Другой пример, вспомним 5-балльные шкалы Лайкерта и то, как анализ, который мы применяем к ним, предполагает, что расстояние между полностью согласен и согласенто же самое, что . Трудно обосновать такие отношения.не согласен и не согласен или не согласен
Другой набор, с которым мы часто работаем, это строки . Есть ряд метрик сходства строк которые могут пригодиться при работе со строками. Однако это не всегда полезно. Например, для адресов улица Джон Смит-стрит и Джон Смит-роуд довольно близки с точки зрения сходства строк, но, очевидно, представляют две разные сущности, которые могут находиться на расстоянии нескольких миль друг от друга.
Сводные статистические данные
Хорошо, теперь давайте посмотрим, как подойдет некоторая сводная статистика. Поскольку статистика работает с числами, ее функции хорошо определены через интервалы. Но давайте посмотрим примеры того, можем ли мы как-то обобщить их для категориальных или порядковых данных:
- режим - и при работе с категориальными и порядковыми данными, мы можем сказать, какой элемент наиболее часто используется. Итак, у нас есть это. Затем мы также можем получить все другие показатели, которые @Maddenker перечисляет в своем ответе. доверительный интервал @ gung также может быть полезным.
- медиана - как говорит @ peter-flom, пока у вас есть заказ, вы можете получить медиану.
- среднее значение , но также стандартное отклонение, процентили и т. д. - вы получаете их только с данными интервала, из-за необходимости в метрике расстояния.
Пример контекста данных
В заключение я хочу еще раз подчеркнуть, что порядок и метрики, которые вы определяете в своих данных, очень контекстуальны. Это должно быть очевидно на данный момент, но позвольте мне привести последний пример: при работе с географическими местоположениями у нас есть много разных способов приблизиться к ним:
- если нас интересует расстояние между ними, мы можем работать с их геолокацией, которая в основном дает нам двумерное числовое пространство, то есть интервал.
- если нас интересует их часть отношений, мы можем определить общий порядок (например, улица является частью города, два города равны, континент содержит страну)
- если нас интересует, представляют ли две строки один и тот же адрес, мы могли бы работать с некоторым расстоянием между строками, которое допустило бы орфографические ошибки и поменялось местами слов, но обязательно различало разные термины и имена. Это не легкая вещь, но просто чтобы сделать случай.
- Существует множество других вариантов использования, с которыми мы все сталкиваемся ежедневно, и в этом нет никакого смысла. В некоторых из них нет ничего более важного, чем рассматривать адреса как просто разные категории, в других это сводится к очень умному моделированию и предварительной обработке данных.