Вопросы для начинающих:
Я хочу проверить, поступают ли два дискретных набора данных из одного распределения. Мне предложили пробу Колмогорова-Смирнова.
Коновер ( Практическая непараметрическая статистика , 3d), кажется, говорит, что для этой цели можно использовать тест Колмогорова-Смирнова, но его поведение «консервативно» с дискретными распределениями, и я не уверен, что это значит здесь.
Комментарий DavidR к другому вопросу гласит: «... Вы все еще можете сделать тест уровня α на основе статистики KS, но вам нужно будет найти какой-то другой метод для получения критического значения, например, с помощью моделирования».
Версия ks.test () в пакете dgof R ( статья , кран ) добавляет некоторые возможности, отсутствующие в версии ks.test () по умолчанию в пакете статистики. Среди прочего, dgof :: ks.test включает в себя этот параметр:
simulate.p.value: логическое указание, следует ли вычислять p-значения с помощью симуляции Монте-Карло, только для дискретных тестов на соответствие.
Является ли цель simulate.p.value = T для достижения того, что предлагает DavidR?
Даже если это так, я не уверен, смогу ли я действительно использовать dgof :: ks.test для теста с двумя примерами. Похоже, что он обеспечивает только два образца теста для непрерывного распределения:
Если y является числовым, выполняется проверка двух выборок нулевой гипотезы о том, что x и y были взяты из одного и того же непрерывного распределения.
В качестве альтернативы, y может быть строкой символов, называющей непрерывную (накопительную) функцию распределения (или такую функцию), или функцией ecdf (или объектом класса stepfun), дающей дискретное распределение. В этих случаях выполняется однократный тест на то, что функция распределения, сгенерировавшая x, является распределением y ....
(Общие сведения: строго говоря, мои базовые распределения являются непрерывными, но данные, как правило, лежат очень близко к горстке точек. Каждая точка является результатом моделирования и представляет собой среднее из 10 или 20 действительных чисел от -1 до 1. К концу симуляции эти числа почти всегда очень близки к 0,9 или -9. Таким образом, средства группируются вокруг нескольких значений, и я отношусь к ним как к дискретным. Симуляция сложна, и у меня нет есть основания полагать, что данные следуют общеизвестному распространению.)
Совет?