Преобразование, чтобы изменить перекос, не влияя на эксцесс?


11

Мне любопытно, есть ли преобразование, которое изменяет перекос случайной величины, не влияя на эксцесс. Это было бы аналогично тому, как аффинное преобразование RV влияет на среднее значение и дисперсию, но не на перекос и эксцесс (отчасти потому, что перекос и эксцесс определяется как инвариантный к изменениям масштаба). Это известная проблема?


Требуете ли вы, чтобы стандартное отклонение оставалось постоянным и с этим преобразованием?
Russellpierce

нет, я ожидаю, что не будет, но избыточный эксцесс должен оставаться неизменным. Однако я ожидаю, что преобразование будет монотонным и предпочтительно детерминированным.
Шаббычеф

1
Yikes - горе человеку, который хочет доказать недетерминированную функцию, является монотонным.
Расселпирс

Ответы:


6

Мой ответ - начало полного взлома, но я не знаю ни одного устоявшегося способа сделать то, что вы просите.

Моим первым шагом было бы упорядочить ваш набор данных по рангу, вы можете найти пропорциональное положение в вашем наборе данных и затем преобразовать его в нормальное распределение, этот метод был использован в Reynolds & Hewitt, 1996. Смотрите пример кода R ниже в PROCMiracle.

Как только распределение нормальное, проблема перевернулась с ног на голову - вопрос корректировки эксцесса, но не перекоса. Поиск в Google показал, что можно выполнить процедуры John & Draper, 1980, чтобы скорректировать эксцесс, но не перекос, но я не мог воспроизвести этот результат.

Мои попытки разработать грубую функцию расширения / сужения, которая принимает входное (нормализованное) значение и добавляет или вычитает из него значение, пропорциональное положению переменной на нормальной шкале, приводит к монотонной корректировке, но на практике имеет тенденцию создавать бимодальное распределение, хотя и имеющее желаемые значения асимметрии и эксцесса.

Я понимаю, что это не полный ответ, но я подумал, что это может стать шагом в правильном направлении.

PROCMiracle <- function(datasource,normalrank="BLOM")
  {
     switch(normalrank,
      "BLOM" = {
                  rmod <- -3/8
                  nmod <- 1/4
                },
      "TUKEY" = {
                  rmod <- -1/3
                  nmod <- 1/3
                },
      "VW" ={
                  rmod <- 0
                  nmod <- 1
            },
      "NONE" = {
                  rmod <- 0
                  nmod <- 0
                }
    )
    print("This may be doing something strange with NA values!  Beware!")
    return(scale(qnorm((rank(datasource)+rmod)/(length(datasource)+nmod))))
  }

Я делал что-то вроде этого: ранжировал, затем использовал преобразование g-and-h, чтобы получить фиксированный эксцесс и перекос. Тем не менее, эта техника предполагает, что я на самом деле знаю популяционный эксцесс, который я могу оценить, но с философской точки
зрения

@shabbychef: О, ну тогда извините, что не добавил ничего нового. Тем не менее, вы добавили что-то новое, я раньше не слышал о формуле g-and-h. У вас есть свободно доступная цитата, которая обеспечивает это? Я наткнулся на одну бумагу с ее прописью ( fic.wharton.upenn.edu/fic/papers/02/0225.pdf ), но мне это понятие немного чуждо (в частности, то, что e ^ Z ^ g или что-то еще) )? Я попробовал это так ... но результаты казались странными ... a + b * (e ^ g ^ z-1) * (exp ((h * z ^ 2) / 2) / g).
Расселпирс

1
@drnexus: я не хотел смещать результаты, упоминая свою технику. Я узнал о распределениях g-and-h и g-and-k от Haynes et. al, dx.doi.org/10.1016/S0378-3758(97)00050-5 и Fisher & Klein, econstor.eu/bitstream/10419/29578/1/614055873.pdf
shabbychef

1

Еще одна возможная интересная техника пришла на ум, хотя это не вполне отвечает на вопрос, заключается в том, чтобы преобразовать выборку, чтобы иметь фиксированную L-асимметрию выборки и L-эксцесс выборки (а также фиксированное среднее значение и L-шкалу). Эти четыре ограничения являются линейными в статистике заказа. Чтобы сохранить монотонность преобразования на выборке из наблюдений, потребуется другое уравнение. Это можно было бы представить как квадратичную задачу оптимизации: минимизироватьn - 1 2nn12норма между статистикой порядка выборки и преобразованной версией с учетом данных ограничений. Хотя это своего рода дурацкий подход. В первоначальном вопросе я искал что-то более простое и фундаментальное. Я также неявно искал метод, который можно было бы применить к отдельным наблюдениям, независимо от наличия целой когорты выборок.


0

Я бы предпочел смоделировать этот набор данных, используя лептокуротическое распределение вместо использования преобразований данных. Мне нравится распределение sinh-arcsinh от Jones and Pewsey (2009), Biometrika.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.