Хорошо, честное предупреждение - это философский вопрос, в котором нет цифр. Я много размышлял о том, как ошибки проникают в наборы данных с течением времени и как это следует обрабатывать аналитикам - или это вообще должно иметь значение?
Для справки, я делаю анализ долгосрочного исследования, которое включает в себя множество наборов данных, собранных, вероятно, 25 людьми за 7-8 лет - никто никогда не приводил все данные в единую структуру (это моя работа). Я много занимался вводом данных (транскрибирование с фотокопий старых лабораторных тетрадей), и я продолжаю находить небольшие ошибки транскрипции, которые делали другие люди, а также нахожу записи данных, которые трудно или невозможно прочитать - в основном из-за чернил со временем исчез Я использую контекст, чтобы составить «лучшие предположения» о том, что говорят данные, и оставляя данные, если я не совсем уверен, вообще указываю. Но я продолжаю думать о том, что при каждом копировании данных частота ошибок неизбежно будет увеличиваться, пока исходные данные не будут полностью потеряны.
Итак, это подводит меня к мысли: помимо ошибок прибора / измерений и ошибок записи, есть фундаментальный компонент «ошибка обработки данных», который будет увеличиваться со временем и с большей обработкой данных (примечание: это, вероятно, просто еще один способ сформулировать второй закон термодинамики, верно? Энтропия данных всегда будет увеличиваться). Следовательно, мне интересно, должна ли быть введена какая-то «коррекция» для учета истории жизни наборов данных (что-то вроде коррекции Бонферрони)? Другими словами, должны ли мы предполагать, что старые или более скопированные наборы данных менее точны, и если да, следует ли нам соответствующим образом корректировать результаты?
Но с другой стороны, я думаю, что ошибки являются неотъемлемой частью сбора и обработки данных, и, поскольку все статистические тесты были разработаны с использованием реальных данных, возможно, эти источники ошибок уже «оценены» для анализа?
Кроме того, еще один момент, который стоит упомянуть, состоит в том, что, поскольку ошибки в данных являются случайными, они с гораздо большей вероятностью уменьшают силу результатов, чем улучшают их - другими словами, ошибки обработки данных могут привести к ошибкам типа 2, а не к ошибкам типа 1. , Таким образом, во многих случаях, если вы использовали старые / сомнительные данные и все еще находили эффект, это увеличило бы вашу уверенность в том, что эффект реален (потому что он был достаточно силен, чтобы выдержать добавление случайной ошибки к набору данных). По этой причине, возможно, «исправление» должно пойти другим путем (увеличить альфа-уровень, необходимый для «обнаружения»), или просто не беспокоить нас?
Во всяком случае, извините за столь многословный и тупой, я не совсем уверен, как задать этот вопрос более кратко. Спасибо за терпение со мной.