Должны ли типы данных (номинальные / порядковые / интервалы / отношения) действительно рассматриваться как типы переменных?


10

Так, например, вот определения, которые я получаю из стандартных учебников

Переменная - характеристика популяции или выборки. ех. Цена акции или оценки на тест

Данные - фактические наблюдаемые значения

Итак, для отчета из двух столбцов [Имя | Income] имена столбцов будут переменными и фактическими наблюдаемыми значениями {dave | 100K}, {Джим | 200K} будут данные

Поэтому, если я скажу, что столбец [Имя] - это номинальные данные, а [доход] - данные о соотношении, я не буду более точным, описывая их как тип переменной вместо типа данных, как это делают большинство учебников? Я понимаю, что это может быть семантикой, и это нормально, вот и все. Но я боюсь, что мне здесь чего-то не хватает.


Не кажется мне значимой разницей; Я считаю, что любая формулировка приемлема, лично. Хотя определение «переменной» кажется немного странным.
Ник Стаунер

2
@ Ник Я верю, что если мы переведем разговорную «характеристику» в математическую «вещественную функцию», мы получим часть определения случайной величины. (Конечно, отсутствующей частью является измеримость в отношении сигма-поля в популяции.) Однако обычно мы переводим «характеристику выборки» в технический термин статистика : возможно, это то, что вы называете "немного прочь" В этих переводах переменные вообще не имеют «типов» в смысле Стивенса (мы можем отличать только дискретные от непрерывных распределений ), но некоторые данные могут.
whuber

Ответы:


16

Типология шкалы Стивенса не обязательно является неотъемлемой характеристикой переменных или даже самих данных, а зависит от того, как мы относимся к информации - к тому, что мы используем для ее значения .

В некоторых обстоятельствах одно и то же значение может считаться отношением, интервалом, порядковым или номинальным, в зависимости от того, что мы с ним делаем, - это вопрос того, какое значение мы придаем значениям, которые могут меняться от одного анализа к другому. Типология Стивенса имеет определенную ценность, но она не должна быть чрезмерно предписывающей.

Эта проблема важности масштаба как значения восходит, по крайней мере, к лорду (1953), который предложил пример, где были как номинальные, так и интервальные интерпретации одного и того же набора чисел.

Эта точка зрения была еще более четко сформулирована Веллеманом и Уилкинсоном (1993), которые приводят пример людей, получающих последовательно пронумерованные билеты при входе на прием с призом, присуждаемым за один из билетов; в зависимости от использования чисел на билетах, они имеют интерпретации по всем четырем шкалам.

Так, например, «я выиграл?» вопрос относится к номеру как к номинальному, а «приехал ли я слишком рано, чтобы получить выигрышный билет?» это вопрос, который рассматривает его как порядковый номер; с другой стороны (и я не думаю, что это в газете), используя 5 случайных номеров билетов, чтобы оценить количество людей в комнате, относились бы к ним как к соотношению (например, если было 4 случайно выбранных номера, которые получили утешительные призы, у вас будет всего 5 случайных чисел, из которых можно оценить общую посещаемость).

Они утверждают, что «хороший анализ данных не предполагает типы данных», «категории Стивенса не описывают фиксированные атрибуты данных», «категории Стивенса недостаточны для описания масштабов данных» и «Статистические процедуры не могут быть классифицированы в соответствии с критериями Стивенса» (на самом деле каждое утверждение также является заголовком раздела).

Критика была также предложена в нескольких местах Тьюки (например, в главе 5 книги Мостеллера и Тьюки 1977 года « Анализ данных и регрессия» ); Мостеллер и Тьюки предложили типологию - имена , оценки (упорядоченные метки), ранги (начиная с 1, которые могут представлять как самые большие или самые маленькие), подсчитанные доли (ограниченные нулем и единицей, включая проценты), количество (неотрицательные целые числа), суммы (неотрицательные действительные числа), сальдо (неограниченные, положительные или отрицательные значения).

В моей собственной работе я видел ситуации, когда серьезные проблемы с анализом были вызваны тем, что люди не смогли оценить большую разницу между переменными, относящимися к уровням (иногда называемые «переменными»), и потоками - простой пример этих типов - это различие в видах анализа, соответствующих количествам воды, фактически находящимся в резервуаре для хранения в каждом из периодов, и количеству воды, поступающей в него. Они будут (в некоторых из этих случаев) оба подкатегории из Мостеллера и Тьюки « количестваха типа» (и в тех же случаях, как отношение переменного в схеме Стивенса), указывая , что вопросы типологии могут быть весьма тонкими, но все еще может критически повлиять на соответствующий анализ.

PFVelleman и L.Wilkinson (1993),
«Номинальные, порядковые, интервальные и формульные типологии вводят в заблуждение»,
American Statistician , vol. 47 № 1 с.65-72

(рабочая версия, кажется, доступна на веб-странице 2-го автора здесь )

Лорд Ф. (1953),
«О статистической обработке футбольных чисел»,
Американский психолог , 8 , с.750-751

(Год этой статьи указан неверно в ссылках на версию статьи Веллемана и Уилкинсона, на которую я ссылался, но правильно упоминается в основной части статьи)


Спасибо. Очень подробный ответ. Я размышлял в том же духе, но при многократном исследовании этого материала мне кажется, что он конкретный, и был достигнут консенсус. Вот почему я оказался здесь.
Пользователь 42

Типология Стивенса обсуждалась и оспаривалась с момента ее первой публикации. Это иногда полезная структура, а не теорема.
Glen_b

Есть ли "новый фаворит" кроме Стивенса и Мостеллера? В примере уровней / потоков, если я вас правильно понимаю, оба имеют один и тот же тип, но должны рассматриваться по-разному? Можете ли вы объяснить эту разницу? И как, например, лог преобразование значения вписывается в эту типологию? Спасибо.
Эрих Шуберт

1. Я не знаю о каких-либо недавних попытках сделать это - и я думаю, что они не обязательно полезны, так как они склонны подталкивать людей к менее подходящим анализам (см. Статью Лорда для игрушечного примера, но последствия для анализа очень реальный - эти списки анализа по типам не дают конца ужасному статистическому анализу, в то же время исключая огромные объемы статистики из возможности рассмотрения в соответствующих ситуациях). .. ctd
Восстановить Монику

ctd ... 2. Один пример того, как уровни и потоки сильно различаются: обратите внимание, что если бы вы смотрели на уровень каждый день, сегодняшним уровнем был бы предыдущий уровень плюс промежуточный входящий или выходной поток (или сумма обоих , если оба возможны). Поэтому измерения уровня обязательно зависят, часто очень сильно. Не имеет смысла относиться к ним так, как будто они независимы, но я вижу, что люди делают это постоянно. 3. Я не совсем уверен, что вы спрашиваете с журналом. Можете ли вы быть более откровенным об этом? Какая типология (обратите внимание, что я упоминаю более одного)?
Glen_b

1

Тип данных связан, но не идентичен типу переменной. В большинстве случаев они одинаковы, но они не должны быть.

Например, если вы собрали N образцов из нормального распределения. Вы могли бы подумать, что это числовые (отношение или масштаб) данные. Но я также могу сказать, что это категориальная переменная с N различными категориями, с частотой 1 для каждой категории. Это выглядит глупо, но это также допустимая переменная.


Это кажется немного противоречащим Стивенсу (которому приписывают формулировку этой типологии), который написал, что «реальная проблема заключается в значении измерения». Хотя вы всегда можете принять решение рассматривать такие данные как номинальные, это не делает их номинальными в оценке Стивенса. Его статья доступна по адресу gaius.fpce.uc.pt/niips/novoplano/mip1/mip1_201314/scales/… .
whuber
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.