Я использую другое слово в зависимости от способа использования данных. Если я обнаружил, что готовый набор данных лежал вокруг, и подтвердил мой алгоритм на него, то слово «синтетический» вполне подойдет.
Однако часто, когда я использую этот тип данных, я придумывал данные с конкретной целью показать возможности моего алгоритма. Другими словами, я изобрел данные для конкретной цели получения «хороших результатов». В таких обстоятельствах мне нравится термин «надуманный» вместе с объяснением моих ожиданий в отношении данных. Это потому, что я не хочу, чтобы кто-то допустил ошибку, думая, что я указал мой алгоритм на какой-то произвольный синтетический набор данных, который я нашел лежащим вокруг, и это действительно сработало. Если у меня есть специально отобранные данные (до момента их составления) специально для того, чтобы мой алгоритм работал хорошо, я так и говорю. Это потому, что такие результаты свидетельствуют о том, что мой алгоритм можетработать хорошо, но предоставить только очень слабые доказательства того, что алгоритм может работать хорошо в целом . Слово «надуманный» действительно хорошо подводит итог того факта, что я выбрал данные с учетом «хороших результатов», априори.
"Это создает впечатление мошеннических данных?"
Нет, но важно иметь четкое представление об источнике любого набора данных и ваших априорных ожиданиях в качестве экспериментатора при составлении отчета о ваших результатах в любом наборе данных. Термин «мошенничество» явно включает в себя аспект того, чтобы что-то скрыть или открыто лгать. Лучший способ избежать мошенничества в науке - просто быть честным и откровенным в отношении характера ваших данных и ваших ожиданий. Другими словами, если ваши данные сфабрикованы, и вы не можете сказать что-либо так , как есть, и есть какое-то ожидание, что данные не сфабрикованы, или, что еще хуже, вы утверждаете, что данные собраны в некотором не сфабрикованном виде в пути, то , что есть«Мошенничество». Не делай этого. Если вы хотите использовать некоторый синоним для термина «сфабрикованный», который «звучит лучше», например, «синтетический», никто не будет обвинять вас, но в то же время я не думаю, что кто-то заметит разницу, кроме вас.
Примечание стороны:
Менее очевидны обстоятельства, когда кто-то утверждает, что имел априорные ожидания, которые на самом деле являются постфактумными объяснениями . Это также мошеннический анализ данных.
Существует опасность этого, когда кто-то выбирает данные специально с целью «показать» возможности алгоритма, что часто бывает в случае синтетических данных.
Чтобы понять, почему это так, рассмотрим, что «нормальный» научный метод работает примерно так: 1) выбрана популяция 2) выдвинута гипотеза 3) проверен на (или какой-то образец, выбранный из ) Наука не должна работать в рамках этого узкого определения, но это то, что называется «подтверждающим» анализом, и обычно считается самой сильной формой доказательств, которую можно предоставить. Поскольку порядок событий соотносится с силой доказательств, важно специально их документировать.DHHDD
Следует отметить, что в случае «умудрялся» данных, процесс часто работает больше как так: 1) Гипотеза задумана, 2) популяция выбирается, 3) проверяется на . Например, если вы тестируете алгоритм, то до изобретения синтетического набора данных может возникнуть гипотеза о том, что ваш модный новый алгоритм «хорошо работает». Если это так, вы должны упомянуть об этом. По крайней мере, вы не должны заявлять, что события произошли «подтверждающим» образом, потому что это заставит читателей прийти к заключению, что ваши доказательства сильнее, чем они есть на самом деле.HDHD
В этом нет проблем, если вы честны и откровенны в том, что сделали. Если вы прошли через усилия по созданию набора данных, который дает «хорошие результаты», так и скажите. Пока вы даете читателю знать, какие шаги вы предприняли при анализе данных, у него есть информация, необходимая для эффективного взвешивания доказательств за или против ваших гипотез. Если вы не честны или не прямолинейны , то это может создать впечатление , что ваши доказательства сильнее , чем на самом деле. Когда вы ЗНАЕТЕ, что вы менее чем честны и откровенны ради того, чтобы ваши доказательства казались сильнее, чем они есть на самом деле, тогда это действительно мошенничество,
В любом случае именно поэтому я предпочитаю термин «надуманный» для таких наборов данных, а также краткое объяснение того, что они действительно выбраны с учетом гипотезы. «Придуманный» передает ощущение, что я не только создал синтетический набор данных, но я сделал это с особыми намерениями, которые отражают тот факт, что моя гипотеза уже была создана до создания моего набора данных.
Для иллюстрации на примере: Вы создаете алгоритм анализа произвольных временных рядов. Вы выдвигаете гипотезу, что этот алгоритм даст «хорошие результаты», когда он указывается во временных рядах. Теперь рассмотрим следующие две возможности: 1) Вы создаете некоторые синтетические данные, которые выглядят так, как вы ожидаете, что ваш алгоритм будет работать хорошо. Вы анализируете эти данные, и алгоритм работает хорошо. 2) Вы получаете некоторые синтетические наборы данных, потому что они доступны, почему бы и нет. Вы анализируете эти данные, и алгоритм работает хорошо. Какое из этих двух обстоятельств является лучшим доказательством того, что ваш алгоритм хорошо работает на произвольных временных рядах? Очевидно, что это вариант 2. Однако в варианте 1 или 2 может быть легко сообщить, что «мы применили алгоритмAк синтетическому набора данных . Результаты показаны на рис. . "В отсутствие какого-либо контекста читатель может разумно предположить, что эти результаты являются подтверждающими (вариант 2), когда, в случае варианта 1, они не являются. 1, сложилось впечатление, что доказательства сильнее, чем на самом деле.Dx.y
ТЛ; др
Используйте любой термин, который вам нравится, «синтетический», «надуманный», «сфабрикованный», «вымышленный». Однако используемый вами термин недостаточен для того, чтобы ваши результаты не вводили в заблуждение . Убедитесь в том, что в вашем отчете ясно, как появились данные, включая ваши ожидания относительно данных и причины, по которым вы выбрали данные, которые выбрали.