Изучение различий между популяциями


9

Скажем, у нас есть выборка из двух групп населения: Aи B. Давайте предположим, что эти группы состоят из отдельных лиц, и мы решили описать людей с точки зрения особенностей. Некоторые из этих функций являются категориальными (например, они ездят на работу?), А некоторые являются числовыми (например, их высота). Давайте назовем эти функции: . Мы собираем сотни этих функций (например, n = 200), допустим для простоты, без ошибок и шумов для всех людей.Икс1...ИксN

Мы предполагаем, что две популяции разные. Наша цель - ответить на следующие два вопроса:

  1. Они на самом деле значительно отличаются?
  2. Что существенно отличается между ними?

Могут помочь такие методы, как деревья решений (например, случайные леса) и анализ линейной регрессии. Например, можно посмотреть на важность признаков в случайных лесах или на соответствующие коэффициенты в линейной регрессии, чтобы понять, что может отличать эти группы, и исследовать отношения между признаками и популяциями.

Прежде чем я пойду по этому пути, я хочу понять, какие у меня есть варианты: что хорошо и современно, а что плохо. Обратите внимание, что моя цель - не предсказание как таковое, а тестирование и выявление каких-либо существенных различий между группами.

Каковы некоторые принципиальные подходы к решению этой проблемы?

Вот некоторые проблемы, которые у меня есть:

  • Такие методы, как линейный регрессионный анализ, могут не полностью отвечать (2), верно? Например, одно совпадение может помочь найти некоторые различия, но не все существенные различия. Например, мультиколлинеарность может помешать нам выяснить, как все функции варьируются в разных группах (по крайней мере, для одного соответствия). По той же причине, я ожидаю, что ANOVA также не может дать полный ответ на (2).

  • Не совсем ясно, как прогнозирующий подход будет отвечать (1). Например, какую функцию классификации / прогнозирования потерь мы должны минимизировать? И как мы можем проверить, значительно ли отличаются группы, когда мы подходим? Наконец, я беспокоюсь, что ответ, который я получу (1), может зависеть от конкретного набора моделей классификации, которые я использую.

Ответы:


5

Давайте подумаем, проблема в следующем.

Скажем , и Y представляет собой бинарная переменная , стоящая для населения: Y = 0 означает первое население, Y = 1 второе средство населения. Нулевая гипотеза может быть выражена несколькими эквивалентными способами:X=(X1,X2,..Xn)YY=0Y=1

  • : популяции одинаковыH0
  • : распределение X с учетом Y = 0 такое же, как распределение X с учетом Y = 1H0ИксY=0ИксYзнак равно1
  • : X и Y независимыЧАС0ИксY
  • : для любой функции f в { 0 , 1 } , f ( X ) и Y независимыЧАС0е{0,1}е(Икс)Y

Я не знаю много о случайных лесах, но их можно рассматривать как универсальный предиктор, который избегает чрезмерной подгонки. Если мы немного их идеализируем: это что-то, способное обнаруживать любые отношения между и любыми функциями X без чрезмерного соответствия.YИкс

Можно попробовать что-то на основе этого. Разделите исходный набор данных на тренировочный набор и тестовый набор. Затем:

  • обучить случайный лес который предсказывает Y из X на тренировочном множестве.еYИкс
  • сделать простой критерий независимости хи-квадрат (с риском ) между f ( X ) и Y на тестовом набореαе(Икс)Y

Этот тест довольно консервативный. Если случайный лес является плохим методом, в худшем случае выдает немое , тогда он все равно отклонит H 0 с вероятностью, меньшей α (когда H 0 истинно). Перенастройка даже не будет проблемой, так как мы используем тест и тренировочный набор. Однако мощность теста напрямую зависит от интеллекта метода случайного леса (или любого используемого предиктора).е(Икс)ЧАС0αЧАС0

α


Спасибо Бенуа (+1). Это выглядит применимо к вопросу (1). Любые идеи о том, как решить (2) с этим или альтернативным подходом?
Амелио Васкес-Рейна

α

α

Кроме того, я надеюсь, что с RFs определить признаки, которые фиксируют различия (т.е. получить хотя бы частичный ответ на (2)). Они не идеальны для интерпретируемости (хотя я предполагаю, что это можно сделать, ограничив их рост). В любом случае, то же самое можно сказать о ДЦ, верно? Просто убедитесь, что я хорошо понимаю ваш комментарий.
Амелио Васкес-Рейна

αN1-(1-α)N

3

Вы не говорите, сколько функций доступно в данных. Мало, много, массивно? Можем ли мы предположить, что они являются одинаковыми характеристиками в разных популяциях, и все они измеряются с использованием одних и тех же инструментов, методов и методов? Если нет, то у вас есть большая проблема, когда модель измерения ошибок в переменных может работать.

@benoitsanchez, кажется, ответил на вопрос № 1).

Wrt # 2), я не уверен, что РФ могут помочь. Используя более формальную модель, такую ​​как односторонний ANOVA, примененный к одному признаку за раз, можно разработать тест различий между популяциями по признакам. Суммируя результаты этих тестов, основываясь на значении теста и его значимости, становится возможным описательный профиль того, как популяции различаются по признакам. Это, по общему признанию, специальное и эвристическое решение, которое может быть недостаточно строгим для ваших вкусов, предпочтений и обучения.

Я не очень хорошо разбираюсь в нотации латексного типа. Позвольте мне просто описать, как эти тесты могут работать: во-первых, создать некий макрос-цикл, который пропускает все функции, по одной функции за раз. С каждым проходом цикла новая функция становится целью или DV с X, состоящим из фиктивной переменной для совокупности, а также любых соответствующих управляющих переменных. Убедитесь, что одни и те же элементы управления используются для каждой функции, а также что базовые данные абсолютно одинаковы для всех ANOVA, исключая вариации, связанные с превратностями конечных выборок данных. Агрегируйте значения F-критерия для фиктивной переменной для каждой функции. Это обеспечит стандартизированный показатель, позволяющий сравнивать функции. F-тесты предпочтительнее встроенных бета-версий, так как бета-версиине стандартизированы, выражаются в единицах и стандартных разработках каждой отдельной функции.

Ваш последний комментарий: «Я волнуюсь, что ответ, который я получу (1), может зависеть от конкретного набора моделей классификации / регрессии, который я использую», всегда верен. Ответы могут варьироваться в зависимости от используемой модели. Это также является выражением обычно наблюдаемого недомогания среди более строго теоретических и классически подготовленных статистиков, которые не удовлетворены или испытывают трудности с признанием недетерминированной природы прикладного статистического моделирования. Отличным противоядием от этих симптомов является недавняя книга Эфрона и Хэсти, посвященная статистическому анализу компьютерного века . Они привносят статистическое моделирование в XXI век, в науку о данных и машинное обучение, откровенно признавая итеративную, приближенную, эвристическую природу всехмодели, имеющие погрешность. Не нужно быть байесовским, чтобы признать истину, присущую этому наблюдению. Они представляют собой освежающую перспективу, которая отличается от жесткого детерминизма классической статистической практики 20-го века, которая вскинула руки, когда, например, матрица перекрестных продуктов не инвертировалась и / или не было выполнено некоторое педантичное предположение модели.


Спасибо @DJohnson. Когда вы сказали «Объединить значения F-критерия для фиктивной переменной для каждой функции», что конкретно вы имеете в виду? т.е. что бы вы точно сделали с этим результатом? Кроме того, что вы подразумеваете под бета-версиями в этом контексте? Наконец, не будет ли этот итеративный подход ограничен никакими взаимодействиями? Например, используя оригинальный пример, что если есть существенная разница в «росте людей, которые едут на работу?»
Амелио Васкес-Рейна

Кроме того, зачем вам продолжать последовательность односторонних тестов ANOVA, а не многогранных ANOVA?
Амелио Васкес-Рейна

2
Хорошие вопросы С точки зрения получающегося описательного профиля, я думал просто записать F-тест и связанные значения или p-значения для каждого признака и затем ранжировать их от высокого до низкого. Поскольку F-критерий представляет собой отношение хи-квадратов и, следовательно, не является симметричным, в отчет можно добавить средние значения популяции, чтобы помочь понять направленность результатов. В качестве альтернативы, t-тест может помочь в этом понимании. Этот профиль поможет понять как величину, так и силу признаков как функцию основных популяций.
Майк Хантер

Как уже отмечалось, управляющие переменные должны быть добавлены соответствующим образом. Они могут включать взаимодействия, если они последовательно используются во всех моделях. Введение дополнительных факторов, по определению, расширит модель от односторонней до множественной регрессии или ANOVA.
Майк Хантер
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.