Есть ли лучшее имя, чем «среднее из целых»?


12

Я тестирую датчики положения дроссельной заслонки (TPS), которые продает мой бизнес, и печатаю график реакции напряжения на вращение вала дроссельной заслонки. TPS - это датчик вращения с диапазоном 90 °, а выходной сигнал подобен потенциометру с полным открытием, равным 5 В (или входным значением датчика), и начальным открытием, являющимся некоторым значением в диапазоне от 0 до 0,5 В. Я построил испытательный стенд с контроллером PIC32 для измерения напряжения каждые 0,75 °, и черная линия соединяет эти измерения.

Один из моих продуктов имеет тенденцию создавать локализованные отклонения с малой амплитудой от идеальной линии (и под ней). Этот вопрос о моем алгоритме количественной оценки этих локализованных «провалов»; Что такое хорошее название или описание для процесса измерения провалов? (полное объяснение приведено ниже). На приведенном ниже рисунке провал происходит в левой трети графика и представляет собой предельный случай, если я пропущу или не выполню эту часть:

Распечатать из подозрительной части

Поэтому я построил детектор провала ( стековый поток по алгоритму ), чтобы измерить мое внутреннее чувство. Сначала я думал, что измеряю «площадь». Этот график основан на распечатке выше и моей попытке объяснить алгоритм графически. Между 13 и 31 пробой длится 13 проб:

Выборочные данные показаны с увеличенным «провалом»

Тестовые данные поступают в массив, и я создаю другой массив для «подъема» из одной точки данных в другую, которую я называю . Я использую библиотеку, чтобы получить среднее и стандартное отклонение для .д е л т ыdeltasdeltas

Анализ массива представлен на графике ниже, где наклон снят с графика выше. Первоначально я думал об этом как о «нормализации» или «унификации» данных, так как ось х - это равные шаги, и теперь я работаю исключительно с ростом между точками данных. Исследуя этот вопрос, я вспомнил, что это производная, исходных данных.д уdeltasdydx

Анализ производной ...?

Я иду через чтобы найти последовательности, где есть 5 или более смежных отрицательных значений. Синие столбцы - это ряд точек данных, которые находятся ниже среднего значения всех . Значения синих полос:д е л т ыdeltasdeltas

0.7+1.2+1.3+1.4+1.8+2.5+2.9+3.0+2.5+2.0+1.5+1.0+1.2

Они составляют , которые представляют площадь (или интеграл). Моя первая мысль: «Я просто интегрировал производную», что должно означать, что я получаю исходные данные, хотя я уверен, что для этого есть термин.23

Зеленая линия - это среднее значение этих «значений ниже среднего», полученных путем деления площади на длину провала:

23÷13=1.77

Во время тестирования 100+ деталей я решил, что допустимы провалы со средним значением зеленой линии менее . Стандартное отклонение, рассчитанное по всему набору данных, не было достаточно строгим тестом для этих провалов, так как без достаточной общей площади они все еще находились в пределах, установленных мною для хороших деталей. Я наблюдательно выбрал стандартное отклонение чтобы быть самым высоким, которое я позволил бы.2.63.0

Установка предела для стандартного отклонения, достаточно строгого для выхода из строя этой части, будет в таком случае настолько строгой, чтобы выходить из строя частей, которые в противном случае выглядят великолепно. У меня также есть детектор всплеска, который не выполняет часть, если таковые имеются .|deltasavg|>avg+stddev

После Calc 1 прошло уже почти 20 лет, поэтому, пожалуйста, будьте осторожны со мной, но это похоже на то, когда профессор использовал исчисление и уравнение смещения, чтобы объяснить, как в гонках конкурент с меньшим ускорением, который поддерживает более высокую скорость на поворотах, может обыграть другого участник, имеющий большее ускорение к следующему повороту: если пройти предыдущий поворот быстрее, более высокая начальная скорость означает, что площадь под его скоростью (смещение) больше.

Чтобы перевести это на мой вопрос, я чувствую, что моя зеленая линия была бы как ускорение, вторая производная от исходных данных.

Я посетил Википедию, чтобы перечитать основы исчисления и определения производных и интегральных , выучил правильный термин для сложения площади под кривой с помощью дискретных измерений как Числовая интеграция . Гораздо больше гуглят в среднем по интегралу, и меня ведут к теме нелинейности и цифровой обработки сигналов. Усреднение интеграла представляется популярной метрикой для количественной оценки данных .

Есть ли термин для среднего интеграла? ( , зеленая линия)? 1.77
... или для использования его для оценки данных?


Я думаю, что «средний провал» достаточно хорош. У него нет измерений ускорения, так что это определенно не имеет к этому никакого отношения.
ShreevatsaR

И я был бы признателен за любые замечания или комментарии по этой теме в целом. Я немного обеспокоен тем, что это измерение "кишки" не может быть лучше выражено математически.
Крис К

Не могли бы вы добавить все точки данных, которые вы использовали для построения идеальной линии, или добавить немного больше информации о том, как пунктирная красная линия вычисляется, чтобы оправдать синие столбцы, представляющие собой «дельты, которые ниже среднего для всех данные точки "? Если это морально среднее расстояние от среднего, то для него должно быть название в стиле ускорения, заменяющее различие курса взятием среднего.

1
Перенесено из Math.SE по запросу OP: meta.stats.stackexchange.com/questions/1845/…
Вилли Вонг

1
Я мог бы добавить слово «местный», чтобы прояснить, что шаг 1 существует - я согласен с @Glen_b (еще один Глен - привет!), Что это важно. Таким образом, я бы ориентировочно предложил «локальный средний дефект», где я только что соединил «отклонение от идеала» в «дефект». Кажется подходящим
Глен Уилер

Ответы:


3

Прежде всего, это отличное описание вашего проекта и проблемы. И я большой поклонник вашей домашней измерительной системы, которая очень крутая ... так почему же важно, что вы называете "усреднением интегралов"?

Если вы заинтересованы в более широком позиционировании своей работы, то, что вы хотели бы сделать, часто называют обнаружением аномалий . В простейшем случае он включает сравнение значения во временном ряду со стандартным отклонением предыдущих значений. Правило будет тогда, если где является значением в ряд, - это стандартное отклонение всех предыдущих значений между значениями и и

x[n]>αSD(x[1:n1])=>x[n] is outlier
x[n]nthSD(x[1:n1])1st(n1)thαэто некоторый подходящий параметр, который вы выбираете, например, 1 или 2, в зависимости от того, насколько чувствительным вы хотите быть детектором. Конечно, вы можете адаптировать эту формулу для работы только локально (на некотором интервале длины ), h
x[n]>αSD(x[nh1:n1])=>x[n] is outlier

Если я правильно понял, вы ищете способ автоматизировать тестирование ваших устройств, то есть объявить устройство исправным / неисправным после того, как оно выполнило весь тест (нарисовал всю диагональ). В этом случае просто рассмотрите приведенные выше формулы как сравнение со стандартным отклонением всех значений.x[n]

Есть также другие правила, которые вы можете рассмотреть с целью классификации устройства как неисправного:

  • если любое отклонение (дельта) больше, чем кратное SD всех дельт
  • если квадратная сумма отклонений больше определенного порога
  • если соотношение суммы положительных и отрицательных дельт приблизительно не равно (что может быть полезно, если вы предпочитаете меньшие ошибки в обоих направлениях, а не сильное смещение в одном направлении)

Конечно, вы можете найти больше правил и объединить их, используя логическую логику, но я думаю, что вы можете продвинуться далеко вперед с тремя вышеупомянутыми.

И последнее, но не менее важное: после того, как вы его настроите, вам нужно будет протестировать классификатор (классификатор - это система / модель, отображающая входные данные в класс, в вашем случае данные каждого устройства, либо «хорошие», либо « неисправна "). Создайте набор тестирования, вручную пометив производительность каждого устройства. Затем посмотрите на ROC , который в основном говорит вам смещение между тем, сколько устройств ваша система правильно выбирает из возвращенных, по отношению к тому, сколько неисправных устройств она поднимает.


Я считаю, «почему это важно» - это функция вашего собственного имени пользователя. :) Почему? По той же причине есть гребень подвздошной кости: нам нужны слова, чтобы четко определить количество всего уникального в жизни. Имхо, этот QA является примером того, насколько ограничен словарный запас в статистике. Нам нужно объединить запутанные или противоречивые дескрипторы для того, что «на глаз» так просто.
Крис К

Хе-хе, хорошо заметили, сэр! :) Если я пропустил какие-либо начинания в страну креативного брендинга, то это было просто потому, что я был вынужден поддерживать находчивость и преданность ваших усилий и идей, а не придумывать пустые ярлыки. Поскольку вы настаиваете на названии среднего значения интеграла, имейте в виду, что то, что вы считаете «средним значением интеграла», является простым средним значением ваших дельт. И как таковые, ваши выбросы - это просто «отклонения от среднего» или, возможно, отклонения от местного среднего. Я не вижу преимущества мышления в интегралах, если у вас недостаточно точек выборки.
значит к значению
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.