Общие слова, которые имеют определенные статистические значения

12

Я не статистик, но моя исследовательская работа связана со статистикой (анализ данных, чтение литературы и т. Д.). Мне снова напомнили из комментария по одному из моих вопросов, размещенных здесь, что есть некоторые общие слова, которые имеют особенно специфические значения или коннотации для тех, кто хорошо практикуется в области статистики.

Будет полезно иметь список таких слов и фраз, а также некоторые комментарии.

terminology

— оборота user4045
источник

1

Похоже, кандидат в сообщество Wiki .

— Glen_b

@Glen_b Это может превратиться в особенно большой, учитывая, что любой термин в статистике или математике будет соответствовать. Есть ли способ осмысленно сузить сферу этого вопроса?

— whuber

3

@whuber Да, есть опасность, что она становится слишком широкой. Будет ли что-то вроде «который обычно вызывает путаницу» достаточно, чтобы сузить сферу?

— Glen_b

Я думаю, что компетентные статистики обычно хорошо владеют своим родным языком и хорошо знают, когда используют жаргон, который должен быть должным образом объяснен непрофессиональной аудитории.

— Роберт Джонс

@Glen_b Я не уверен. Это настолько широко, что я едва могу начать список слов, которые должны быть покрыты: точность, уклон, калибровка, дискриминация, непрерывность, распределение, опасность, выживание, сплайн, модель, ответ, начальная загрузка, корректировка, кластер, условный, достоверность, плотность , оценка, переменная, каноническая, корреляция, прогноз, логический вывод, цензура, риск, соответствие, логистика, предел, охват, смешивание, непредвиденные обстоятельства, конвергенция, переписка, свобода, отклонение, экспоненциальный, экстремальный, диапазон, нормальный, вставка, фиктивная , объяснил [вариация], коэффициент, неисправность, заполнение, подгонка, подгонка, функция, ...

— whuber

12

« значительный » - здесь общеупотребительное слово означает «что-то важное» или «значимый». Статистический смысл неформально ближе к «можно отличить от случайного отклонения от нуля»; это не означает, что разница достаточно велика, чтобы иметь значение.

Вот несколько примеров, когда это различие могло быть причиной некоторой путаницы: 1 2

« параметр » - часто кажется, что, особенно в научных экспериментах, слово «параметр» используется так же, как статистик использует слово «переменная». Википедия описывает это так:

Статистический параметр - это параметр, который индексирует семейство вероятностных распределений. Это можно рассматривать как числовую характеристику населения или модель

Пример, в котором может возникнуть проблема: 1 - предположительно пост, который привел к этому вопросу. (Я видел другой недавно, но я не могу найти его прямо сейчас)

— оборота Glen_b
источник

11

«Ошибка» - в статистике это часто означает любое отклонение между наблюдаемым и прогнозируемым значением. В реальной жизни это означает ошибку.

— Харви Мотульский
источник

11

Я нашел рецензируемую статью 2010 года, в которой рассматривается этот вопрос.

Андерсон-Кук CM. Скрытый жаргон: повседневные слова со значениями, характерными для статистики. ICOTS8, Международная конференция по статистике обучения, Любляна, Словения, 11-17 июля 2010 г.

Документ доступен бесплатно онлайн , поэтому я приведу лишь частичный список терминов, которые обсуждает автор:

 confounding, control, factor, independent, random, uniform

— user4045
источник

10

Я сталкивался с проблемой использования «фальсификации», как в «фальсификации гипотезы», в то время как другие думали, что я имел в виду «составление данных». Также о « предвзятости » почти невозможно упомянуть, не вызывая путаницы.

— колба
источник

6

«нормальный» - в обычной речи нормальный означает, как и ожидалось, а не необычный. В статистике, если переменная распределена нормально, это относится к распределению Гаусса. Я не верю, что употреблять слово «нормальный» с большой буквы, чтобы отличать его от общего значения речи.

«нормализация / стандартизация» - в статистике нормализация переменной означает вычитание среднего значения и деление на стандартное отклонение.

«стандартное отклонение в сравнении со стандартной ошибкой» - стандартное отклонение обычно рассчитывается по всей совокупности, тогда как стандартная ошибка рассчитывается по выборке.

— Rocinante
источник

1

Я действительно сомневаюсь, что «стандартная ошибка» - это «обычное [обычное, нестатистическое] слово» со специальным статистическим значением, отличающимся от других употреблений этого слова (на самом деле, фразы). То же самое для "нормализации" и "стандартного отклонения".

— whuber

Может быть, не «нормализация», но «нормальный» - это хороший момент, и поэтому будет «стандартизировать», который также используется для описания тестов, предназначенных для установления национальных стандартов (например, в образовании, например, в США после отсутствия ребенка). За). Я согласен с тем, что «стандартное отклонение» вряд ли вызовет путаницу, хотя само по себе «отклонение», скорее всего, может иметь отрицательный оттенок (особенно как синоним «отклонения»).

— Ник Стаунер

Вот еще один способ различить SD и SEM. Стандартное отклонение количественно определяет вариацию или разброс. Стандартная ошибка дает количественную оценку точности вычисленного значения.

— Харви Мотульский

@ HarveyMotulsky Я думаю, что лучше всего думать о астероиде (неправильной формы). Что такое центр масс астероида? Это точка, которая равноудалена от всех других точек. Это значит. Что такое стандартное отклонение? Это «среднее» расстояние каждой точки от центра, мера размера. Что такое SEM? Он говорит вам, насколько вы уверены в местонахождении центра астероида.

— Настой

Я нахожу высказывание, что стандартная ошибка - это стандартное отклонение, рассчитанное с использованием «выборки», несколько неудачно. Для меня это будет квадратный корень выборочной дисперсии, тогда как стандартная ошибка - это стандартное отклонение тестовой статистики. Кроме того, из приведенных выше терминов только «нормальный» кажется действительно распространенным. Но я думаю, что это нормально ...

— значит к значению

2

«Параметрический» по сравнению с «Непараметрический»: категории тестов, которые требуют данных «Нормальный» или «Нормальный». Параметрические тесты предпочтительнее непараметрических.

Общие тесты: T-тест (парный), Mann-Whitney U, ANOVA, Anderson-Darling и др.

Другие термины включают «значительный». Это показатель того, что данные указывают на то, что ваша гипотеза верна или нет. Когда вы проверяете свою гипотезу с определенной степенью вероятности (обычно 95%), «р-значение» менее 0,05 будет означать, что вы отклоните свою «нулевую гипотезу» (то есть наборы данных не отличаются) и примете свою « Альтернативная гипотеза »(т.е. наборы данных различны).

— user36904
источник

2

Перекос в статистике подразумевает асимметричное распределение.

На обычном языке, и даже в науке, перекос часто используется (и все чаще?) Для обозначения того, что статистические люди обычно называют предвзятым , как в «Результаты по среднему росту искажаются при включении такого количества баскетболистов».

— Ник Кокс
источник

2

Оценка - в статистике это результат расчета. Например, среднее значение выборки является оценкой среднего значения популяции, а доверительный интервал среднего значения является интервальной оценкой среднего значения популяции. Это оба результаты точных расчетов. «Оценка» - это точное обобщение попытки сделать вывод о населении на основе данных в выборке.

В обычном использовании слово оценка означает обоснованное предположение или догадку, или результат приблизительного расчета.

— Харви Мотульский
источник

2

Вероятность - на обычном языке синоним вероятности , но в статистике, имеющей определенное обратное отношение к вероятности, причем для любого набора параметров и набора данных , . $\theta$ $X$ $\mathcal{L}(\theta|X)=\Pr(X|\theta)$

Представитель - имеет ряд иногда противоречивых значений как в повседневном, так и в научном смысле. Обратитесь к Крускала и Мостеллер 1979a , 1979b , 1979c и 1980 . Большинство известных мне статистиков считают выборку репрезентативной, если она была выбрана с известной вероятностью; большинство знакомых мне мирян сочли бы его репрезентативным, если бы предельные распределения были сродни населению.

— abaumann
источник

2

Образец : хотя в статистике это относится к множеству случаев , во многих других дисциплинах образец представляет собой один физический образец . Конечно, размер выборки также неоднозначен, ссылаясь либо на количество случаев в статистической выборке, либо на физический размер (масса, объем и т. Д.) Образца.
Чувствительность : для медицинской диагностики - доля заболевших, которая определяется тестом. В аналитической химии: наклон калибровочной кривой (см. Ниже).
Специфичность : в медицинской диагностике доля случаев, не связанных с заболеваниями, правильно определена тестом. В аналитической химии метод является специфическим, если нет перекрестной чувствительности.
Калибровка : на самом деле, два значения уже перечислены для статистики в статье Wiki. В химии и физике значение обратной регрессии является обычным. Однако возникает путаница:
- В хемометрике (прямая) калибровка моделирует измеренный сигнал зависящий от концентрации : . Предсказание тогда решает для концентрации : . Модели обратной калибровки . Таким образом, прямая модель согласуется с причинностью (концентрация аналита вызывает сигнал, а не наоборот), но обратная модель моделирует направление, которое используется для предсказаний. (На практике часто можно сказать, что ошибка на или ошибка на намного больше, чем другое, и из этого следует / нужно выбрать соответствующее направление моделирования) $I$ $c$ $I = f (c)$ $c$ $c = f^{-1} (I)$ $c = f (I)$
  $c$ $I$
- Я видел графики прогнозируемой вероятности над истинной вероятностью, называемые «калибровочными графиками» (статистика людей). В аналитической химии соответствующий калибровочный график будет прогнозируемой вероятностью по измеренному сигналу (обычно какой-то другой единице). График прогнозирования по истинно зависимой переменной обычно называется кривой восстановления .
Набор валидации : здесь я хотел бы обратить внимание на потенциально запутанное использование терминов, которое, я думаю, уже возникает в различных областях, связанных со статистикой, даже если я снова противопоставляю это. В контексте вложенной / двойной проверки или оптимизации по сравнению с проверкой / тестированием одна строка терминологии разбивает обучение - проверка - тест и использует набор «проверки» для оптимизации гиперпараметров.
Например, в элементах статистического обучения, с. 222 во 2-е изд. :

... разделите набор данных на три части: обучающий набор, проверочный набор и тестовый набор. Тренировочный набор используется для подгонки моделей; проверочный набор используется для оценки ошибки прогнозирования при выборе модели; тестовый набор используется для оценки ошибки обобщения окончательно выбранной модели.

Напротив, например, в аналитической химии валидация - это процедура, которая демонстрирует, что модель (фактически, оценка окончательной модели является лишь частью валидации аналитического метода) хорошо работает для приложения и измеряет его производительность, см., Например, Джон К. Тейлор: Валидация аналитических методов, Analytical Chemistry 1983 55 (6), 600A-608A или руководства таких учреждений, как FDA. Это будет «тестирование» в другой строке терминологии, где «проверка» фактически используется для оптимизации.
Принципиальное отличие состоит в том, что результаты «оптимизации-валидации» должны использоваться для изменения (выбора) модели, тогда как изменения в проверенном аналитическом методе (включая аналитическую модель данных) означают, что вам необходимо провести повторную проверку (т.е. докажите, что метод все еще работает так, как он должен работать).

Если вам посчастливилось поговорить с химиками, хорошим примером терминологии аналитической химии является Danzer: Аналитическая химия - теоретические и метрологические основы, DOI 10.1007 / b103950

— оборота кбелеитов
источник