Подумайте, что означает усеченное значение: в прототипе вы сначала сортируете свои данные в порядке возрастания. Затем вы подсчитываете процент отсечения снизу и отбрасываете эти значения. Например, усеченное на 10% среднее является распространенным; в этом случае вы будете считать с самого низкого значения, пока не пройдете 10% всех данных в вашем наборе. Значения ниже этой отметки откладываются. Аналогично, вы начинаете обратный отсчет с самого высокого значения до тех пор, пока не пройдете процент обрезки, и отложите все значения выше этого значения. Теперь у вас осталось 80%. Вы берете среднее значение этого, и это ваше усредненное значение на 10%. (Обратите внимание, что вы можете обрезать неравные пропорции от двух хвостов или обрезать только один хвост, но эти подходы встречаются реже и не подходят для вашей ситуации.)
Теперь подумайте о том, что произойдет, если вы вычислили усеченное на 50% среднее. Нижняя половина будет отложена, как и верхняя половина. У вас останется только одно значение в середине (обычно). Вы бы взяли среднее значение этого (то есть вы бы просто взяли это значение) в качестве усеченного среднего. Обратите внимание, что это значение является медианой. Другими словами, медиана является усеченным средним (это усеченное на 50% среднее). Это просто очень агрессивный. По сути, предполагается, что 99% ваших данных загрязнены. Это дает вам максимальную защиту от выбросов за счет предельной потери мощности / эффективности .
Я предполагаю, что среднее / усеченное на 50% среднее намного более агрессивно, чем необходимо для ваших данных, и слишком расточительно для имеющейся у вас информации. Если у вас есть какое-либо представление о пропорции существующих выбросов, я бы использовал эту информацию, чтобы установить процент обрезки и использовать соответствующее усеченное среднее. Если у вас нет какой-либо основы для выбора процента усечения, вы можете выбрать одну путем перекрестной проверки или использовать надежный регрессионный анализ только с перехватом.