В предложении есть множество недостатков. Вот, пожалуй, самый большой.
Предположим, вы собираете данные и видите эти значения:
2,3,1
Среднее значение пока составляет .6/3=2
Затем приходит выброс:
2,3,1,1000
Таким образом, вы замените его на среднее:
2,3,1,2
Следующий номер хорош:
2,3,1,2,7
Теперь среднее значение равно 3. Подождите минуту, среднее значение теперь равно 3, но мы заменили 1000 на среднее значение 2 только потому, что это произошло как четвертое значение. Что если мы изменим порядок образцов?
2,3,1,7,1000
Теперь среднее значение до 1000 составляет . Так мы должны заменить 1000 с этим средним значением?(2+3+1+7)/4=13/4
Проблема в том, что ложные данные, которые мы подставляем вместо 1000, зависят от других данных. Это эпистемологическая проблема, если образцы должны представлять независимые измерения.
Тогда у вас возникает очевидная проблема: вы не просто скрываете данные, которые не соответствуют вашим предположениям, но вы фальсифицируете их. Когда возникает какой-либо нежелательный результат, вы увеличиваете и подставляете поддельное значение. Это неправильно, потому что предполагается, что - это число выборок. Теперь представляет количество выборок плюс количество значений выдумки, добавленных к данным. Это в основном разрушает достоверность всех вычислений с участием : даже те, которые не используют значения выдумки. Ваш тоже значение выдумки!н н н н нnnnnn
По сути, обрезка результатов, которые не соответствуют, - это одно (и это может быть оправдано, если это делается последовательно в соответствии с алгоритмом, а не в соответствии с изменением настроения экспериментатора).
Прямые фальсифицирующие результаты нежелательны по философским, эпистемологическим и этическим соображениям.
Могут быть некоторые смягчающие обстоятельства, которые связаны с тем, как используются результаты. Как, например, скажем, что эта замена выбросов текущим средним значением является частью некоторого встроенного компьютерного алгоритма, который позволяет ему реализовать систему управления с обратной связью. (Он выбирает некоторые системные выходные данные, затем настраивает входные данные для достижения контроля.) Все в режиме реального времени, и поэтому что-то должно быть предоставлено в течение определенного периода времени вместо отсутствующих данных. Если эта помадка помогает преодолеть глюки и обеспечивает бесперебойную работу, то все хорошо.
Вот еще один пример из цифровой телефонии: ПЛК (маскировка потери пакетов). Дерьмо случается, и пакеты теряются, но общение происходит в реальном времени. PLC синтезирует фальшивые фрагменты голоса на основе последней информации основного тона из правильно принятых пакетов. Таким образом, если говорящий произносит гласную «aaa», а затем пакет теряется, PLC может дополнить отсутствующий пакет, экстраполируя «aaa» на длительность кадра (скажем, 5 или 10 миллисекунд или что-то еще). «Ааа» такова, что напоминает голос говорящего. Это аналогично использованию «среднего» для замены ценностей, считающихся плохими. Это хорошая вещь; это лучше, чем звук, включающий и отдающий, и помогает разборчивости.
Если фальсификация данных является частью программы лжи людям, чтобы скрыть неудачную работу, это нечто другое.
Таким образом, мы не можем думать об этом независимо от приложения: как используется статистика? Приведут ли замены к неверным выводам? Есть ли этические последствия?