Что такое связанные данные в контексте рангового коэффициента корреляции?

16

Я не в области статистики.

Я видел слово «связанные данные», когда читал о коэффициентах корреляции рангов.

Что такое привязанные данные?
Что является примером связанных данных?

correlation nonparametric ranks

— BB01
источник

5

Это означает, что данные имеют одинаковое значение; например, если у вас есть 1,2,3,3,4 в качестве набора данных, то два 3 являются связанными данными. Если у вас есть 1,2,3,4,5,5,5,6,7,7 в качестве набора данных, то 5 и 7 являются связанными данными.

— quarkdown27
источник

14

«Связанные данные» возникают в контексте непараметрических статистических тестов на основе рангов.

Непараметрические тесты : тестирование, которое не предполагает определенного распределения вероятностей, например, не предполагает колоколообразную кривую.

на основе рангов : большой класс непараметрических тестов начинается с преобразования чисел (например, «3 дня», «5 дней» и «4 дня») в ранги (например, «самая короткая продолжительность (3-я)», «самая большая продолжительность» (1-й) "," второй по продолжительности (2-й) "). Затем к этим разрядам применяется традиционный метод параметрического тестирования.

Связанные данные - это проблема, поскольку идентичные числа теперь необходимо преобразовать в ранг. Иногда ранги назначаются случайным образом, иногда используется средний ранг. Наиболее важно, протокол для разрыва связанных рангов должен быть описан для воспроизводимости результата.

— Минг К
источник

5

Это просто два одинаковых значения данных, например, наблюдение 7 раз в одном наборе данных.

Это происходит в контексте статистических методов, которые предполагают, что данные имеют непрерывный характер, и поэтому идентичные измерения невозможны (или, технически, вероятность идентичных значений равна нулю). Практические сложности возникают, когда эти методы применяются к данным, которые округляются или обрезаются, так что идентичные измерения не только возможны, но и довольно распространены.

— Джон Д. Кук
источник

1

Я не согласен с этим рассуждением, поскольку вы не можете сказать, что из-за его нулевой вероятности, что это событие может никогда не произойти. Это не хорошая аргументация.

— Henry.L

2

Вопрос имеет принципиальное значение:

Что такое связанное наблюдение / данные / пара?

Хотя это часто упоминается только в непараметрических методах, это понятие не зависит от непараметрических методов. Это упомянуто в непараметрических методах, потому что эта ситуация вызовет усложнение вычисления в получении статистики, используемой в непараметрических методах, таких как ранговая статистика Уилкоксона со знаком . $T^+$

(Поэтому я не думаю, что ответ @ Ming-Chih Kao будет правильным, сначала введя непараметрические тесты. Но поскольку заголовок «Что такое связанные данные в контексте рангового коэффициента корреляции?», Я его куплю.)

$Z_{i}=X_{i}-Y_{i}$

$(X_{i},Y_{i})$

$Z_{i}$

$|Z_{i}|$

$\{(1,-1) (1,-1)\},\{ (1,2) (1,2) (2,1) (2,1) (2,3) (2,3) (3,2) \},\{(3,0)\}$

Давайте попробуем очень простой способ сделать это, мы ранжируемся слева направо и дадим:

$R_{i}$

$|Z_{i}|$

$R_{i}$

$|Z_{i}|$

$R_{i}$

$|Z_{i}|=1$ $|Z_{i}|=2$ observations.

We assign to each of the observation in the first group the rank $\frac{1+\cdots+7}{7}=4$ ;we assign to each of the observation in the second group the rank $\frac{8+9}{2}=8.5$ . Therefore we have:

$R_{i}$ : 8.5 4 4 8.5 4 4 4 4 4 10

This modified the rankings and make each of the tied observation has the same influence in calculating the ranked statistics, thus in the rank test.

What are the solutions to tied observation/data/pair ?

(1)Assign the average rank. This is just what we did above. By assigning the same rank to the tied data in the same group, we make their influence in the ranked test just the same and therefore eliminate the possible inaccuracy caused by tied observations.

(2)Assign the random rank. Just assign ranks randomly to each of the tied group element. The only restriction is that $MaxRank_{first group}<MinRank_{second group}$ since if $MaxRank_{first group}>MinRank_{second group}$ , that breaks the ranking law; if $MaxRank_{first group}=MinRank_{second group}$ , then we have to merge two tied groups into one.

(3)Perturbation of data. This requires very careful consideration about the nature of the data. This works only if the data is not categorical(discrete). In the above example, we can just make a This will put different weights manually to each of the elements in the tied group. For a continuous distribution, for example, it makes little difference if you perturb it in $\epsilon$ manner.

(@John D. Cook 's answer is a bit misleading in this way. A better way of saying this point is that when the distribution is continuous, $P{X=x}=0$ . However, we shall observe ties since our measurement is of limited accuracy, i.e. any sample space in reality is actually finite.) (@quarkdown27 's answer is simple but correct in each word.)

— Henry.L
источник