Преобразование данных пропорции: когда квадратного корня арксинуса недостаточно

Есть ли (более сильная?) Альтернатива квадратному корню арксин для преобразования процент / пропорция? В наборе данных, над которым я сейчас работаю, заметная гетероскедастичность сохраняется после того, как я применяю это преобразование, то есть график зависимости остатков от подгоночных значений все еще очень ромбовидный.

Отредактировано, чтобы отвечать на комментарии: данные представляют собой инвестиционные решения участников эксперимента, которые могут инвестировать 0-100% от фонда, кратного 10%. Я также посмотрел на эти данные, используя порядковую логистическую регрессию, но хотел бы увидеть, что произвел бы действительный glm. Кроме того, я мог бы увидеть, что ответ будет полезен для будущей работы, так как квадратный корень arcsin, кажется, используется в качестве единого решения для всех в моей области, и я не встречал никаких альтернативных вариантов применения.

data-transformation generalized-linear-model heteroscedasticity

— Фрейя Харрисон
источник

Каковы соответствующие значения от? Какая у тебя модель? arcsin (приблизительно) стабилизирует дисперсию для биномиального, но у вас все еще будут эффекты "края", если пропорции близки к 0 или 1 - потому что нормальная часть эффективно усекается.

— вероятностная

Позвольте мне вдвойне сказать, что сказал @probabilityislogic, а также узнать, откуда поступают данные. В проблеме может быть что-то, что предполагает другое преобразование или совсем другую модель, которая может быть более подходящей и / или интерпретируемой.

— JMS

@prob @JMS Почему бы нам не позволить оператору, который, как мне кажется, хорошо разбирается в статистике, сначала попробовать маршрут трансформации? Затем, если это не сработает, было бы полезно начать новый поток, в котором проблема представлена менее узко. Ваши комментарии будут уместны в этом контексте.

— whuber

Существуют огромные проблемы с преобразованием квадратного корня арксинуса, прямо описанного в забавно озаглавленной статье .

— Арксинус асинин

@mkt Спасибо за ссылку, это сразу перешло к лекции следующего семестра об обобщенных линейных моделях.

— Фрейя Харрисон

Ответы:

Конечно. Джон Тьюки описывает семейство (растущих, однозначных) преобразований в EDA . Он основан на этих идеях:

Уметь удлинять хвосты (в направлении 0 и 1) в соответствии с параметром.
Тем не менее, чтобы соответствовать оригинальным (непреобразованным) значениям ближе к середине ( $1/2$ ), что делает преобразование легче интерпретировать.
Для того, чтобы повторно выражение симметричными относительно $1/2.$ То есть, если $p$ является повторно выражена как $f(p)$ , то $1-p$ будет повторно выражена как $-f(p)$ .

Если вы начнете с любой возрастающей монотонной функции $g: (0,1) \to \mathbb{R}$ дифференцируется в $1/2$ вы можете настроить его для удовлетворения второго и третьего критерия: просто определить

f (p) = \frac{g (p) - g (1 - p)}{2 g^{'} (1 / 2)} .

$f(p) = \frac{g(p) - g(1-p)}{2g'(1/2)}.$

Числитель явно симметричен (критерий $(3)$ ), потому что замена $p$ на $1-p$ обращает обратное вычитание, тем самым отрицая его. Для того, чтобы видеть , что $(2)$ выполнено, к сведению , что знаменатель именно фактор необходимо , чтобы сделать $f^\prime(1/2)=1.$ Напомним , что производная аппроксимирует локальное поведение функции с линейной функцией; наклон $1=1:1$ означает, что $f(p)\approx p$ (плюс константа $-1/2$ ) , когда $p$ достаточно близко к $1/2.$ Именно в этом смысле , в котором исходные значения «соответствуют ближе к середине.»

Тьюки называет это «свернутой» версией $g$ . Его семейство состоит из степенных и лог-преобразований $g(p) = p^\lambda$ где, когда $\lambda=0$ , мы рассматриваем $g(p) = \log(p)$ .

Давайте посмотрим на некоторые примеры. При $\lambda = 1/2$ мы получаем сложенный корень, или «Фрут» $f(p) = \sqrt{1/2}\left(\sqrt{p} - \sqrt{1-p}\right)$ . Когда $\lambda = 0$ мы имеем сложенный логарифм, или «flog», $f(p) = (\log(p) - \log(1-p))/4.$ Очевидно, это всего лишь постоянное число, кратноелогит-преобразованию, $\log(\frac{p}{1-p})$ .

Графики для лямбда = 1, 1/2, 0 и arcsin

На этом графике синие линий соответствуют $\lambda=1$ , промежуточной красной линии $\lambda=1/2$ , и крайней зеленой линию $\lambda=0$ . Пунктирная золотая линия - арксинусное преобразование, $\arcsin(2p-1)/2 = \arcsin(\sqrt{p}) - \arcsin(\sqrt{1/2})$ . «Соответствие» склонов (критерий $(2)$ ) вызывает все графики совпадают вблизи $p=1/2.$

Наиболее полезные значения параметра $\lambda$ лежат между $1$ и $0$ . (Вы можете сделать хвосты еще тяжелее с отрицательными значениями $\lambda$ , но это использование редко.) $\lambda=1$ ничего вообще не делать , кроме центрирования значений ( $f(p) = p-1/2$ ). По мере того как $\lambda$ сжимается к нулю, хвосты тянутся дальше к $\pm \infty$ . Это удовлетворяет критерию № 1. Таким образом, выбирая подходящее значение $\lambda$ , вы можете контролировать «силу» этого повторного выражения в хвостах.

— Whuber
источник

что, знаете о любой функции R, которая выполняет эту функцию автоматически?

— Джон

@ Джон Нет, не знаю, но это достаточно просто реализовать.

— uber

Я не видел в этом ничего сложного, но было бы неплохо, если бы было что-то вроде преобразований boxcox, которые автоматически отображали лучший выбор для лямбды. Да, не страшно реализовать ...

— Джон

Спасибо, это именно то, что я искал, и график действительно полезен. Определенно согласен с Джоном, что что-то вроде boxcox будет полезно, но это кажется достаточно простым для проработки.

— Фрейя Харрисон

Одним из способов включения является включение индексированного преобразования. Один общий способ заключается в использовании любой симметричной (обратной) кумулятивной функции распределения, так что и . Одним из примеров является стандартное распределение Стьюдента с степенями свободы. Параметр контролирует, насколько быстро преобразованная переменная уходит в бесконечность. Если вы установите то у вас есть преобразование арктана: $F(0)=0.5$ $F(x)=1-F(-x)$ $\nu$ $v$ $v=1$

x = a r c t a n (\frac{π [2 p - 1]}{2})

$x=arctan\left(\frac{\pi[2p-1]}{2}\right)$

Это намного более экстремально, чем arcsine, и более экстремально, чем logit-преобразование. Обратите внимание, что логит-преобразование можно приблизительно аппроксимировать, используя t-распределение с . Так или иначе, это обеспечивает приблизительную связь между логитом и пробитом ( $\nu\approx 8$ преобразованиями ) и распространяет их на более экстремальные преобразования. $\nu=\infty$

Проблема с этими преобразованиями состоит в том, что они дают когда наблюдаемая пропорция равна или . Таким образом , вы должны как - то сжать их каким - то образом - самый простой способ в том , чтобы добавить «успехи» и «провалы». $\pm\infty$ $1$ $0$ $+1$ $+1$

— probabilityislogic
источник

По разным причинам Тьюки рекомендует добавлять +1/6 к счетам. Обратите внимание, что этот ответ является частным случаем подхода свертывания Тьюки, который я описал: любой CDF с положительным PDF является монотонным; сворачивание симметричного CDF оставляет его без изменений.

— whuber

Мне было интересно, откуда приходит ваше грубое приближение. Как вы пришли к

? Я не могу воспроизвести это. Я принимаю , что приближение должно сломаться в крайнем

вблизи

или

, но я считаю , что

является гораздо лучше подходит для логита для

около

. Возможно, вы оптимизируете некоторую меру средней разницы между CDF

ν \approx 8

$\nu\approx 8$

p

$p$

0

$0$

1

$1$

ν = 5

$\nu=5$

p

$p$

1 / 2

$1/2$

t_{ν}

$t_\nu$

logit

$\text{logit}$

— whuber

@whuber - ты слишком мне доверяешь. Мое предложение было основано на просмотре графика pdf из

, графика логистики pdf

и графика стандартного нормального pdf.

степеней свободы соответствуют избыточному эксцессу, и вполне могут быть лучше.

t_{8}

$t_8$

f (x) = e^{- x} (1 + e^{- x})^{- 2}

$f(x)=e^{-x}(1+e^{-x})^{-2}$

5

$5$

— вероятностная

@whuber Одной из причин добавления 1/6 к счетам является то, что результирующий «начальный» счет аппроксимирует медиану апостериорного, предполагая биномиальное распределение с ранее Джеффрисом (я немного напишу об этом здесь: sumsar.net/blog/2013/09/ a-bayesian-twist-on-tukeys-flogs ). Однако я не знаю, было ли это причиной Тьюки для добавления 1/6. Вы знаете, в чем его причина?

— Расмус Батх

@Rasmuth In EDA , p. 496. Тьюки пишет: «[Использование], которое мы здесь рекомендуем, имеет оправдание, но поскольку это оправдание (i) является косвенным и (ii) связано с более сложными соображениями, мы не будем больше говорить об этом. Мы рекомендуем добавить 1 / 6 ко всем разделенным подсчетам, таким образом, «запуская» их ». («Счетчик разделения» любого значения

- это число

плюс половина числа

в пакете данных

.) Я не помню, чтобы сталкивался с этими «сложными соображениями» в других газетах или книгах Тьюки, которые я читал, но всегда предполагал, что они могут быть связаны с точками построения вероятности.

x

$x$

x_{i} < x

$x_i\lt x$

x_{i} = x

$x_i=x$

(x_{i})

$(x_i)$

— whuber