Тест на выборку IID


16

Как бы вы проверили или проверили, что выборка является IID (независимой и идентично распределенной)? Обратите внимание, что я не имею в виду гауссово и идентично распределенное, просто IID.

И идея, которая приходит мне в голову, состоит в том, чтобы многократно разделить выборку на две подвыборки одинакового размера, выполнить тест Колмогорова-Смирнова и проверить, чтобы распределение значений p было равномерным.

Любые комментарии по этому подходу и любые предложения приветствуются.

Разъяснение после запуска щедрости: я ищу общий тест, который можно применить к данным не временных рядов.


Это данные временного ряда?
danas.zuokas

@ gui11aume ты пробовал тест "глазное яблоко"? То есть нанесите данные на график и посмотрите, выглядит ли он IID.
Макрос

У меня нет Я не уверен, что вы имеете в виду: построить значения в порядке их поступления (возможно, случайных)? А потом проверить отсутствие поразительного рисунка?
gui11aume

1
Вы смотрели на «пробный тест»? en.wikipedia.org/wiki/Wald%E2%80%93Wolfowitz_runs_test
Стефан Лоран,

1
Сожалею. Я имел в виду следующий прогон теста: apprendre-en-ligne.net/random/run.html (но это написано по-французски)
Стефан Лоран

Ответы:


14

То, о чем вы заключаете, если данные являются IID, исходит из внешней информации, а не от самих данных. Вы, как ученый, должны определить, разумно ли принимать IID данных на основании того, как были собраны данные, и другой внешней информации.

Рассмотрим несколько примеров.

Сценарий 1: Мы генерируем набор данных независимо от одного распределения, которое оказывается смесью 2 нормалей.

Сценарий 2: Сначала мы генерируем гендерную переменную из биномиального распределения, затем внутри мужчин и женщин мы независимо генерируем данные из нормального распределения (но нормали отличаются для мужчин и женщин), затем мы удаляем или теряем гендерную информацию.

В сценарии 1 данные являются IID, а в сценарии 2 данные явно не идентично распределены (различные распределения для мужчин и женщин), но 2 распределения для 2 сценариев неотличимы от данных, вы должны знать, как данные был создан, чтобы определить разницу.

Сценарий 3: Я беру простую случайную выборку людей, живущих в моем городе, и провожу опрос и анализирую результаты, чтобы сделать выводы обо всех людях в городе.

Сценарий 4: Я беру простую случайную выборку людей, живущих в моем городе, и провожу опрос и анализирую результаты, чтобы сделать выводы обо всех людях в стране.

В сценарии 3 субъекты будут считаться независимыми (простая случайная выборка представляющей интерес совокупности), но в сценарии 4 они не будут считаться независимыми, поскольку они были выбраны из небольшого подмножества представляющей интерес совокупности, и географическая близость, вероятно, навязывает зависимость. Но 2 набора данных идентичны, и именно таким образом мы намереваемся использовать данные, чтобы определить, являются ли они независимыми или зависимыми в этом случае.

Таким образом, нет способа проверить, используя только данные, чтобы показать, что данные являются IID, графики и другие виды диагностики могут показывать некоторые типы не-IID, но их отсутствие не гарантирует, что данные являются IID. Вы также можете сравнить с конкретными предположениями (нормальный IID легче опровергнуть, чем просто IID). Любой тест по-прежнему является лишь правилом, но отказ от него не доказывает, что это IID.

Решения о том, готовы ли вы предположить, что условия IID выполняются, должны приниматься на основе научных данных о том, как были собраны данные, как они связаны с другой информацией и как она будет использоваться.

Редактирование:

Вот еще один набор примеров для неидентичных.

Сценарий 5: данные являются остатками от регрессии, где есть гетероскедастичность (различия не равны).

Сценарий 6: данные взяты из смеси нормалей со средним 0, но с разными отклонениями.

В сценарии 5 мы можем ясно видеть, что остатки не распределяются одинаково, если мы строим графики остатков по соответствующим значениям или другим переменным (предикторам или потенциальным предикторам), но сами остатки (без внешней информации) будут неотличимы от сценария 6.


В частности, первая часть этого ответа мне кажется немного запутанной (или запутанной). Будучи н.о.р. хорошо определен математическим свойством из конечного множества случайных величин . Ваши сценарии 1 и 2 идентичны, если случайные величины во втором случае получены «после потери информации о поле». Они есть в обоих случаях!
кардинал

ГрегСноу, я не совсем согласен с твоим утверждением. Возможно, вы знаете, что данные поступают из последовательности одинаково распределенных случайных величин. Вы не знаете точно, какая модель породила это. Может быть так, что они независимо генерируются или поочередно поступают из стационарного временного ряда. Чтобы решить, в каком случае это происходит, предположим, что вы знаете, что идентичное распределение является нормальным. Тогда обе возможности подпадают под категорию стационарной последовательности, и будет показано, если и только все ненулевые автокорреляции равны 0. Совершенно разумно проверить, чтобы увидеть, есть ли корреляция
Майкл Р. Черник

2
@cardinal, согласны ли вы с тем, что данные в сценарии 2 не распределяются одинаково до потери гендерной информации? Таким образом, у нас был бы случай, когда они не идентичны, но единственный способ определить разницу - это использовать информацию за пределами рассматриваемой переменной (в данном случае пол). Да, то, что IID является хорошо определенным математическим свойством, но также является целым числом, можете ли вы проверить, является ли точка 3 данных целым числом, хранящимся как число с плавающей запятой, или как непрерывное значение, которое было округлено без внешней информации о том, откуда оно пришло из.
Грег Сноу,

2
ZXiXj,ijXi|ZXj|ZZZ

Но все, что вы говорите выше, использует информацию о том, как данные были собраны / созданы, а не только сами данные. И даже если у нас есть данные, подтверждающие, что не существует автокорреляции временных рядов, которая ничего не говорит нам о пространственной корреляции или других типах не-независимости. Можем ли мы действительно проверить все возможные типы зависимости и получить значимые результаты? или мы должны использовать информацию о том, как были собраны данные, чтобы определить, какие тесты наиболее вероятны?
Грег Сноу

5

Если данные имеют порядок индексов, вы можете использовать тесты белого шума для временных рядов. По сути, это означает проверку того, что автокорреляции при всех ненулевых лагах равны 0. Это обрабатывает часть независимости. Я думаю, что ваш подход состоит в том, чтобы в основном учитывать идентично распределенную часть предположения. Я думаю, что есть некоторые проблемы с вашим подходом. Я думаю, что вам нужно много расщеплений, чтобы получить достаточно р-значений для проверки на однородность. Тогда каждый тест KS теряет мощность. Если вы используете расщепления, которые перекрывают части набора данных, тесты будут коррелированными. При небольшом количестве разбиений тесту на однородность не хватает мощности. Но при многих расколах тест на однородность может быть мощным, а тесты KS - нет. Также кажется, что этот подход не поможет обнаружить зависимость между переменными.

@ gu11aume Я не уверен, что вы просите с общим тестом для не временных рядов. Пространственные данные предоставляют одну форму данных не временных рядов. Там можно посмотреть функцию под названием вариограмма. Для одномерных последовательностей я не вижу большой разницы между последовательностями, упорядоченными по времени, и любым другим способом упорядочения данных. Автокорреляционная функция все еще может быть определена и протестирована. Когда вы говорите, что хотите проверить независимость выборки, я думаю, что у вас есть порядок, в котором собираются образцы. Поэтому я думаю, что все одномерные случаи работают одинаково.


2
(+1), так как это то, о чем я думал, но Re: «Если данные имеют порядок индексов, вы можете использовать тесты белого шума для временных рядов. По сути, это означает проверку того, что автокорреляции при всех ненулевых лагах равны 0.» - эта логика применима только тогда, когда вы имеете дело со стационарными временными рядами, верно? В противном случае вы можете получить ошибочные результаты об отставших корреляциях. Например, что если бы только «более поздняя» часть временного ряда была автокоррелирована?
Макро

1
@Macro Я думал, что это то, что вы имели в виду, основываясь на вашем вопросе к ОП. Но я не думал, что нужно ждать его ответа, чтобы указать на это. Это применимо, когда вы ищете независимость. Но я понимаю вашу точку зрения. На практике вы проверяете только первые k лагов. Если бы ряд был стационарным, корреляции уменьшались бы с k, но не для нестационарных рядов. Так что, по крайней мере, теоретически вы бы пропустили корреляцию при больших лагах для нестационарного ряда.
Майкл Р. Черник

2
cor(yt,ys)=f(s,t)f(s,t)|st|

Спасибо за ваш ответ Майкл! Вы правы: в случае, если данные представляют собой временные ряды, проверка автокорреляции является наилучшим подходом. Что касается вашей критики подхода к разделению KS, у вас также есть точка зрения. Таким образом, у нас все еще нет теста в общем (не временном ряду) случае, как кажется.
gui11aume

2
Первая ненулевая автокорреляция выполняется с задержкой 60 и только с другими коэффициентами, кратными 60. Если временной ряд имеет длину 55, мы даже не можем наблюдать две точки 60 отстоят друг от друга. Соу не может проверить, равна ли корреляция задержки 60 нулю. Если длина ряда составляет 65, мы можем оценить корреляцию лаг 60, но основываясь только на 5 парах лаг 60. Таким образом, дисперсия оценки велика, и у нас не будет возможности обнаружить эту ненулевую корреляцию.
Майкл Р. Черник
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.