Ошибки обработки данных уже «учтены» в статистическом анализе?

Хорошо, честное предупреждение - это философский вопрос, в котором нет цифр. Я много размышлял о том, как ошибки проникают в наборы данных с течением времени и как это следует обрабатывать аналитикам - или это вообще должно иметь значение?

Для справки, я делаю анализ долгосрочного исследования, которое включает в себя множество наборов данных, собранных, вероятно, 25 людьми за 7-8 лет - никто никогда не приводил все данные в единую структуру (это моя работа). Я много занимался вводом данных (транскрибирование с фотокопий старых лабораторных тетрадей), и я продолжаю находить небольшие ошибки транскрипции, которые делали другие люди, а также нахожу записи данных, которые трудно или невозможно прочитать - в основном из-за чернил со временем исчез Я использую контекст, чтобы составить «лучшие предположения» о том, что говорят данные, и оставляя данные, если я не совсем уверен, вообще указываю. Но я продолжаю думать о том, что при каждом копировании данных частота ошибок неизбежно будет увеличиваться, пока исходные данные не будут полностью потеряны.

Итак, это подводит меня к мысли: помимо ошибок прибора / измерений и ошибок записи, есть фундаментальный компонент «ошибка обработки данных», который будет увеличиваться со временем и с большей обработкой данных (примечание: это, вероятно, просто еще один способ сформулировать второй закон термодинамики, верно? Энтропия данных всегда будет увеличиваться). Следовательно, мне интересно, должна ли быть введена какая-то «коррекция» для учета истории жизни наборов данных (что-то вроде коррекции Бонферрони)? Другими словами, должны ли мы предполагать, что старые или более скопированные наборы данных менее точны, и если да, следует ли нам соответствующим образом корректировать результаты?

Но с другой стороны, я думаю, что ошибки являются неотъемлемой частью сбора и обработки данных, и, поскольку все статистические тесты были разработаны с использованием реальных данных, возможно, эти источники ошибок уже «оценены» для анализа?

Кроме того, еще один момент, который стоит упомянуть, состоит в том, что, поскольку ошибки в данных являются случайными, они с гораздо большей вероятностью уменьшают силу результатов, чем улучшают их - другими словами, ошибки обработки данных могут привести к ошибкам типа 2, а не к ошибкам типа 1. , Таким образом, во многих случаях, если вы использовали старые / сомнительные данные и все еще находили эффект, это увеличило бы вашу уверенность в том, что эффект реален (потому что он был достаточно силен, чтобы выдержать добавление случайной ошибки к набору данных). По этой причине, возможно, «исправление» должно пойти другим путем (увеличить альфа-уровень, необходимый для «обнаружения»), или просто не беспокоить нас?

Во всяком случае, извините за столь многословный и тупой, я не совсем уверен, как задать этот вопрос более кратко. Спасибо за терпение со мной.

dataset error

— Джас Макс
источник

Это отличный вопрос (+1). Одно замечание: это может быть существенной ошибкой, если рассматривать большинство ошибок данных, которые вы упоминаете, как «случайные». Например, во время транскрипции существует тенденция к гораздо большему количеству взаимозаменяемости цифр «0», «5», «6» и «8», чем к другим цифрам (и некоторые из них могут быть неправильно прочитаны как «.» И наоборот ). Кроме того, изменения, внесенные в выдающиеся значения данных (например, крайние значения), часто быстро идентифицируются и фиксируются. Хотя эти процессы повреждения данных, безусловно, имеют некоторый элемент случайности, их правильная характеристика может быть важной проблемой.

— whuber

Почему вы не относитесь к ошибкам обработки данных, которые являются частью ошибок измерений, и соответственно исправляете их? Если для того, чтобы измерить количество райдеров в парке развлечений, мне нужно задействовать 20 человек, чтобы наблюдать за воротами, тогда я могу рассматривать эту команду из 20 человек как своего рода измерительное устройство

— Аксакал

@ whuber, все равно случайно смешивать 8 и 5, хотя вероятность смешивания 5 и 7 не одинакова .

— Аксакал

@whuber, это удивительный момент (неодинаковая частота некоторых типов ошибок транскрипции), о котором я не задумывался. Можете ли вы указать мне какие-либо источники, чтобы узнать больше об этом? Это заставляет меня задуматься, можно ли разработать тест качества данных, основанный на частоте цифр? Я слышал о подобных тестах для мошеннических / фальсифицированных данных, основанных на частоте цифр, поэтому я думаю, что нечто подобное было бы возможно, если бы упомянутые вами тенденции были последовательными.

— Джас Макс

@whuber, еще одна мысль. Вы упоминаете 0, 5, 6, 8, часто путаются - потому что они похожи друг на друга? Это заставляет меня осознать, что разные источники ошибок будут иметь характерные ошибки замещения - например, если вы слышите данные (записываете то, что кто-то сказал), то я думаю, что 5 и 9, вероятно, будут чаще путать. Если бы источником ошибки была энтропия (выцветание чернил или перемещение электронов), то я думаю, что замена будет более случайной, но, возможно, также уникальной. Если бы эти схемы сохранялись, возможно, вы могли бы исследовать источники ошибок в больших наборах данных, основываясь на частоте цифр.

— Джас Макс

Второе предложение @Aksakal: если аналитик считает ошибку измерения потенциально важной, она может и должна быть явно смоделирована как часть процесса генерирования данных.

Я вижу несколько соображений, которые противоречат введению общего поправочного коэффициента, основанного, например, на возрасте набора данных.

Во-первых, возраст может быть очень плохим показателем степени ухудшения данных. Очевидно, что важными факторами являются технология дублирования, сжатия и сохранения, а также степень усилий и тщательности, которые были приложены для проверки правильности транскрипции. Некоторые древние тексты (например, Библия) были сохранены на протяжении веков с явно нулевой деградацией. Ваш пример VHS, хотя и является законным, на самом деле необычен, так как каждое событие дублирования всегда приводит к ошибке, и нет простых способов проверить и исправить ошибки транскрипции, если использовать дешевые, широко доступные технологии для дублирования и хранения. Я ожидаю, что это значительно снизит степень ошибок, благодаря инвестициям в более дорогие системы.

Этот последний пункт является более общим: сохранение и распространение данных являются экономической деятельностью. Качество передачи в значительной степени зависит от используемых ресурсов. Эти выборы, в свою очередь, будут зависеть от воспринимаемой важности данных для тех, кто выполняет дублирование и передачу.

Экономические соображения применимы и к аналитику. Всегда есть больше факторов, которые вы можете принять во внимание при проведении анализа. При каких условиях ошибки транскрипции данных будут достаточно существенными и достаточно важными, чтобы их стоило учитывать? Моя догадка: такие условия не являются общими. Более того, если потенциальная деградация данных рассматривается как достаточно важная, чтобы учесть ее в вашем анализе, то, вероятно, достаточно важно приложить усилия для явного моделирования процесса, а не вставлять общий шаг «исправления».

Наконец, нет необходимости разрабатывать такой общий поправочный коэффициент de novo . Уже существует значительный объем статистической теории и практики для анализа наборов данных, для которых ошибка измерения считается важной.

В итоге: это интересная мысль. Но я не думаю, что это должно стимулировать какие-либо изменения в аналитической практике.

— Артур Смолл
источник