В качестве контекста: при работе с очень большим набором данных меня иногда спрашивают, можем ли мы создать синтетический набор данных, в котором мы «знаем» отношения между предикторами и переменной ответа или отношения между предикторами.
На протяжении многих лет я, кажется, сталкивался либо с одноразовыми синтетическими наборами данных, которые выглядят так, как будто они были получены специальным образом, либо с более структурированными наборами данных, которые кажутся особенно благоприятными для предложенного исследователем метода моделирования.
Я считаю, что я перебираю стандартные методы создания синтетических наборов данных. Хотя повторная выборка при начальной загрузке является одним из распространенных методов создания синтетического набора данных, она не удовлетворяет условию, что мы знаем структуру априори . Более того, обмен образцами начальной загрузки с другими, по сути, требует обмена данными, а не метода генерации данных.
Если мы можем подогнать параметрическое распределение к данным или найти достаточно близкую параметризованную модель, то это один из примеров, где мы можем генерировать синтетические наборы данных.
Какие еще методы существуют? Меня особенно интересуют данные больших размеров, разреженные данные и данные временных рядов. Для данных больших размеров я бы искал методы, которые могут генерировать интересующие структуры (например, ковариационную структуру, линейные модели, деревья и т. Д.). Для данных временных рядов, из распределений по БПФ, моделям AR или различным другим моделям фильтрации или прогнозирования, это выглядит как начало. Для разреженных данных воспроизведение шаблона разреженности кажется полезным.
Я считаю, что это только царапает поверхность - это эвристические, а не формальные практики. Существуют ли ссылки или ресурсы для создания синтетических данных, которые должны быть известны практикующим врачам?
Примечание 1: я понимаю, что этот вопрос обращается к литературе о том, как можно генерировать данные, такие как конкретная модель временных рядов. Здесь проводится различие между практиками, особенно для того, чтобы указать на известную структуру (мой вопрос), по сравнению со сходством / точностью к существующему набору данных. В моем случае нет необходимости иметь сходство в той же степени, что и известную структуру, хотя сходство гораздо предпочтительнее, чем сходство. Экзотический синтетический набор данных, для которого модель показывает перспективу, менее предпочтителен, чем реалистичное моделирование.
Примечание 2: В статье Википедии для синтетических данных указывается, что такие светилы, как Рубин и Фенберг, обратились к этой проблеме, хотя я не нашел ссылок на лучшие практики. Было бы интересно узнать, что будет происходить, скажем, с Анналами прикладной статистики (или AOS) или с обзорами работ в этих или других журналах. В простых и причудливых терминах можно спросить, где существует порог между «(приемлемо) приготовленным» и «слишком приготовленным»?
Примечание 3: Хотя это не влияет на вопрос, сценарий использования заключается в моделировании разнообразных больших, многомерных наборов данных, где программа исследования заключается в изучении (как человеком, так и машиной ;-)) структуры данных. В отличие от одномерного, двумерного и других низкоразмерных сценариев, структура не может быть легко выведена. По мере того, как мы продвигаемся к лучшему пониманию структуры, возможность генерировать наборы данных с аналогичными свойствами представляет интерес для того, чтобы увидеть, как метод моделирования взаимодействует с данными (например, для проверки стабильности параметров). Тем не менее, более ранние руководства по низкоразмерным синтетическим данным могут быть отправной точкой, которая может быть расширена или адаптирована для наборов данных более высокого измерения.