«Фиктивная переменная» против «индикаторной переменной» для номинальных / категориальных данных

«Фиктивная переменная» и «индикаторная переменная» представляют собой часто используемые термины меток для описания принадлежности к категории с кодированием 0/1; обычно 0: не член категории, 1: член категории.

26.11.2014 быстрый поиск на scholar.google.com (с заключенными в кавычки) показывает, что «фиктивная переменная» используется примерно в 318 000 статей, а «индикаторная переменная» используется примерно в 112 000 статей. Термин «фиктивная переменная» также имеет значение в нестатистической математике « связанной переменной », что, вероятно, способствует более широкому использованию «фиктивной переменной» в индексированных статьях.

Мои тематически связанные вопросы:

Всегда ли эти термины являются синонимами (в статистике)?
Есть либо из этих терминов никогда не благоугодно применительно к другим видам категориальных кодирования (например , эффект кодирования , Helmert кодирования и т.д. )?
Какие статистические или дисциплинарные причины предпочитают один термин другому?

categorical-data terminology categorical-encoding

— Alexis
источник

Я склонен использовать «переменную индикатора» для бинарных условий, например, пол может быть закодирован как maleзначения 1или 0. Если есть категориальная переменная с более чем 2 категориями, которая затем расширяется в индикаторные переменные для членства на каждом уровне, я бы использовал «фиктивные переменные» для описания этого набора индикаторных переменных.

— Грегор - восстановить Монику

Я думаю, вы имеете в виду, что секс может быть закодирован как 1 или 0, гендер - гораздо более сложная конструкция. (в этом отношении секс тоже может быть более сложным);)

— Алексис

Точка взята, отредактировано до sex.

— Грегор - восстановить Монику

Я склонен называть такую индикаторную переменную male, где 1 означает «истина» (в данном случае «мужчина»), а «0» означает «ложь» (в данном случае «женщина»). Если я использую имя переменной, sexмне придется искать, как я кодировал эту переменную каждый раз, когда возвращаюсь к этому набору данных.

— Мартен Буис

Я слышал различные истории о том, что «фиктивная переменная» дико и, к сожалению, неверно истолковывается нетехнической аудиторией как подразумевающая презрение или унижение. Они были смущающими и достаточно убедительными, чтобы повернуть меня против этого термина. «Индикатор» для меня понятен и понятен.

— Ник Кокс

Ответы:

Я бы сказал, что «фиктивная переменная» является более общим способом ссылки на (одну из) числовую переменную (и), которая представляет (вместе представляет) категориальный предиктор; поэтому термин применяется также к тем, которые используются в кодировании Гельмерта и эффектов ^† . Это в основном из-за общего использования «пустышка», чтобы означать «замену». «Индикаторная переменная» Я имею в виду индикаторные функции ^‡ - так что они могут быть только одним или нулем, чтобы указывать на наличие или отсутствие какого-либо свойства; Таким образом , этот термин относится только к тем , которые используются в справочнике уровня кодирования ^※ . Конечно , некоторые люди используют «фиктивное кодирование» означают «эталонный уровень кодирования»; по-видимому, они имеют более ограниченное определение «фиктивных переменных» или, во всяком случае, должны иметь.

† А если не называть эти «пустышки», что бы вы их называете?

$x_i$ $i$ $u_i$ $M$

{Икс}_{я} знак равно 1_{M} (U_{я}) знак равно {\begin{cases} 1 & вес час е N U_{я} \in M \\ 0 & вес час е N U_{я} \notin M \end{cases}

$x_i=\boldsymbol{1}_\mathrm{M}(u_i)=\left\{ \begin{array}{l l} 1 & \mathrm{when}\ u_i \in M\\ 0 & \mathrm{when}\ u_i \notin M\\ \end{array}\right.$

$\boldsymbol{1}_M(\cdot)$ $M$

※ Или, как указал @gung, уровень означает кодирование.

— Scortchi - Восстановить Монику
источник

Да ... вы можете предоставить ссылки на некоторые ресурсы, мотивирующие это? По моему опыту «фиктивная переменная» очень часто используется для кодирования 0/1. Не уверен, что я видел манекен, используемый, как вы предлагаете, и знаю, что другие используют его в противоположном смысле. Например, Alkharusi, H. (2012) «Категориальные переменные в регрессионном анализе: Сравнение кодирования пустышек и эффектов» Международный образовательный журнал 4 (2): 202–210.

— Алексис

Я не говорил, что «фиктивная переменная» не используется для кодирования 0/1, просто она может использоваться в более общем смысле.

— Scortchi - Восстановить Монику

Действительно, в самой цитируемой статье говорится, что при использовании кодирования эффектов «фиктивные переменные принимают значения 1, 0 и -1». (Конечно, я думаю, что они должны были бы назвать «фиктивное кодирование» чем-то другим, если они собираются это сказать.)

— Scortchi - Восстановить Монику

Понятно ... Что касается вопроса из вашего разбитого верхнего индекса, я склонен называть их "категориальными переменными, использующими XXX-кодирование".

— Алексис

Лучше всего об этом говорит Кнут в arxiv.org/abs/math/9205211. Он приписывает эту идею К.Э. Айверсону. Короче говоря, нам не нужно придумывать или вызывать функцию индикатора, но следуйте формальному обсуждению того, что наше программное обеспечение делает для нас.

— Ник Кокс

$k$ $k$ $1$ ) Когда существует только одна категориальная переменная, это приводит к выводу модели простым способом, который может быть предпочтительным для некоторых людей. (Для примера, где использование этой схемы облегчает сравнение интересов, см. Мой ответ здесь: Почему оценочные значения от Лучшего линейного несмещенного предиктора (BLUP) отличаются от Лучшего линейного несмещенного оценщика (BLUE)? )

— Gung - Восстановить Монику
источник