Как рассчитать шкалу оценки Rousseeuw's и Croux '(1993) Qn для больших выборок?

Пусть поэтому для очень короткой выборки, такой как ее можно вычислить от нахождения статики го порядка парных разностей: $Q_n = C_n.\{|X_i-X_j|;i < j\}_{(k)}$ $\{1,3,6,2,7,5\}$ $k$

    7 6 5 3 2 1
1   6 5 4 2 1
2   5 4 3 1
3   4 3 2
5   2 1
6   1
7

ч = [п / 2] + 1 = 4

к = ч (ч-1) / 2 = 8

Таким образом, $Q_n=C_n. 2$

Очевидно, что для больших выборок, состоящих из 80 000 записей, нам нужна очень большая память.

Есть ли способ вычислить в 1D пространстве вместо 2D? $Q_n$

Ссылка на ответ ftp://ftp.win.ua.ac.be/pub/preprints/92/Timeff92.pdf, хотя я не могу полностью понять это.

— К-1
источник

Хорошо, ответ для парней, которые будут читать это позже: если вы просто хотите рассчитать надежную оценочную шкалу для фрагмента данных 1, установите последнюю версию R 2, установите пакет robustbase, 3 готов к работе! но если вы разрабатываете код вне этой среды, вам нужно использовать взвешенные высокие медианы, чтобы минимизировать необходимые вычисления для Sn или Qn.

— К-1

Ссылка на статью не работает. Правильная ссылка (даже лучше, с цитатой из наиболее релевантной информации) помогла бы нам найти информацию; в таком виде бесполезно, когда ссылка умирает (как это часто бывает).

— Glen_b

не должно ли быть k = h выбрать 2 = h (h-1) / 2 = 6 ? Это не меняет конечного результата.

— тигр

почему Qn = Cn * 2, почему 2? как рассчитывалось?

— Лидокс

Ответы:

Обновление: суть проблемы заключается в том, что для достижения временной сложности требуется порядок хранения . $O(n\log(n))$ $O(n)$

Нет, $O(n\log(n))$ - нижняя теоретическая граница для временной сложности (см. (1)) выбора элемента $k^{th}$ среди всех $\frac{n(n-1)}{2}$ возможных. $|x_i - x_j|: 1 \leq i \lt j \leq n$

Вы можете получить пространство , но только наивно проверяя все комбинации за время . $O(1)$ $x_i-x_j$ $O(n^2)$

Хорошей новостью является то, что вы можете использовать оценщик масштаба (см. (2) и (3) для улучшенной версии и некоторых сравнений по времени), реализованный в функции в пакете . Одномерная оценка является двухступенчатой (т.е. повторно взвешенной) оценкой масштаба. Он имеет эффективность Гаусса 95 процентов, точку разбивки 50 процентов и сложность времени и пространства (плюс его легко можно сделать «онлайн», что позволяет сократить половину вычислительных затрат при повторном использовании - хотя вы для реализации этой опции придется копаться в коде, это довольно просто сделать). $\tau$ scaleTau2()Rrobustbase $\tau$ $O(n)$ $O(1)$ R

Сложность выбора и ранжирования в X + Y и матрицах с отсортированными столбцами Г. Н. Фредериксон и Д. Б. Джонсон, Журнал компьютерных и системных наук, том 24, выпуск 2, апрель 1982, страницы 197-208.
Йохай, В. и Замар, Р. (1988). Высокая точка пробоя оценки регрессии посредством минимизации эффективной шкалы. Журнал Американской статистической ассоциации 83 406–413.
Маронна Р. и Замар Р. (2002). Надежные оценки местоположения и дисперсии для многомерных наборов данных. Технометрия 44 307–317

Изменить Чтобы использовать это

Запустите R(это бесплатно и может быть загружено здесь )
Установите пакет, набрав:

install.packages("robustbase")

Загрузите пакет, набрав:

library("robustbase")

Загрузите файл данных и запустите функцию:

mydatavector <- read.table("address to my file in text format", header=T)
scaleTau2(mydatavector)

— user603
источник

@ user603: тау, о котором ты говорил. Кстати, почему это не широко распространено, если оно имеет такую хорошую статистическую и вычислительную эффективность и точку разбивки?

— Кварц

а) вы можете вычислить сумасшедшие и срединные онлайн . Отсюда легко вычислить Тау. б) поломка не является устойчивой и тау имеет ужасный уклон в присутствии выбросов. Вы можете найти больше аргументов против этого в разделе 5 статьи Qn

— user603

@ user603 ты имеешь в виду эту статью? wis.kuleuven.be/stat/robust/papers/publications-1994/…

— Герман Демидов,

@ user603, согласно статье, кривая смещения говорит нам, насколько оценщик может измениться из-за данной доли загрязнения.

были смещены для моих смоделированных примеров (нормальное распределение + 20% от чрезвычайно высоких / низких значений), и уровень смещения был сопоставим. Может быть, я что-то не так понял, но и похоже, страдают от одной и той же проблемы.

Q_{n}

$Q_n$

S_{n}

$S_n$

S_{n}

$S_n$

Q_{n}

$Q_n$

— Герман Демидов

@ user603 извините, эффект не может быть виден для образцов размером 100. Я ясно вижу проблему с использованием больших размеров образцов. У всех них ужасные уклоны, но у самый большой.

τ

$\tau$

— Герман Демидов

(Очень короткий ответ) Текст для комментирования говорит

избегайте ответов на вопросы в комментариях.

Итак, вот оно: Есть статья об онлайн-алгоритме, который, похоже, работает достаточно хорошо: Применение Estimator Online $Q_n$ .

РЕДАКТИРОВАТЬ

(пользователем user603). Алгоритм, связанный с этой статьей, представляет собой версию с движущимся окном . $Q_n$

Для большой выборки разделенной на временные окна шириной , мы можем применить к каждому временному окну, получая значения . Обозначим эти значения $\{x_i\}_{i=1}^N$ $n<N$ $\{x_i\}_{i=t-n+1}^t$ $Q_n$ $N-n+1$ $Q_n$ $\{Q_n^i\}_{i=1}^{N-n+1}$

Приведенный здесь алгоритм позволяет получить при средней стоимости меньше, чем наихудший необходимый для вычисления с нуля. $Q_n^i|Q_n^{i-1}$ $O(n\log(n))$ $Q_n^i$

Однако этот алгоритм не может использоваться для вычисления полной исходной выборки . Также необходимо поддерживать буфер, размер которого может достигать (хотя он часто намного меньше). $Q_n$ $\{x_i\}_{i=1}^N$ $O(n^2)$

— Serv-вкл
источник

Хотя вы не должны отвечать в комментариях, вы также не должны публиковать комментарии как ответы, и если ваш ответ является только ссылкой, это не ответ (но может быть комментарием). Если вы хотите, чтобы это был ответ, а не комментарий, ваш ответ должен каким-либо образом содержать соответствующую информацию, такую как цитата из ссылки, на которую ссылаются должным образом, или ваше собственное объяснение важных деталей. Если вы можете, пожалуйста, предоставьте необходимую информацию; в качестве альтернативы я могу преобразовать это в комментарий для вас.

— Glen_b

@Glen_b: идти вперед и конвертировать. Спасибо за разъяснение.

— серв-ин

@ user603 Возможно, вы могли бы (как в ссылках в моем комментарии) отредактировать основную информацию в приведенном выше ответе - так как в настоящее время это не входит в рекомендации сетей SE для ответов.

— Glen_b

Нет проблем, я буду! (но здесь уже поздно)

— user603

@ user603 Спасибо; Тогда я оставлю это здесь

— Glen_b

это мой инструмент Qn ...

Я программировал это на C, и результат таков:

void bubbleSort(double *datos, int N)
{
 for (int j=0; j<N-1 ;j++)     
  for (int i=j+1; i<N; i++)    
   if (datos[i]<datos[j])      
   {
    double tmp=datos[i];
    datos[i]=datos[j];
    datos[j]=tmp;
   }
}

double  fFactorial(long N)    
{
 double factorial=1.0;

 for (long i=1; i<=N; ++i)
  factorial*=(double)i;

 return factorial;  
}

double fQ_n(double *datos, int N)  // Rousseeuw's and Croux (1993) Qn scale estimator
{
 bubbleSort(datos, N);

 int m=(int)((fFactorial((long)N))/(fFactorial(2)*fFactorial((long)N-2)));

 double D[m];
 //double Cn=2.2219;      //not used now :) constant value https://www.itl.nist.gov/div898/software/dataplot/refman2/auxillar/qn_scale.htm

 int k=(int)((fFactorial((long)N/2+1))/(fFactorial(2)*fFactorial((long)N/2+1-2)));

 int y=0;

 for (int i=0; i<N; i++)
  for (int j=N-1; j>=0; j--)
   if (i<j)
   {
    D[y]=abs(datos[i]-datos[j]);
    y++;
   }

 bubbleSort(D, m);

 return D[k-1];
}

int main(int argc, char **argv)    
{
 double datos[6]={1,2,3,5,6,7};
 int N=6;

 // Priting in terminal the final solution
 printf("\n==[Results] ========================================\n\n");

 printf(" Q_n=%0.3f\n",fQ_n(datos,N));

 return 0;
}

— Виктор
источник

Хотя реализация часто смешивается с содержательным содержанием вопросов, мы должны быть сайтом для предоставления информации о статистике, машинном обучении и т. Д., А не кода. Также может быть полезно предоставить код, но, пожалуйста, разработайте свой содержательный ответ в тексте для людей, которые недостаточно хорошо читают этот язык, чтобы распознать и извлечь ответ из кода.

— gung - Восстановить Монику

Это наивный алгоритм O (n ** 2) ~

— user603