Интерпретация пропорций, суммирующих единицу, как независимых переменных в линейной регрессии


13

Я знаком с понятием категориальных переменных и соответствующим фиктивным кодированием переменных, которое позволяет нам соответствовать одному уровню в качестве базовой линии, чтобы избежать коллинеарности. Я также знаком с тем, как интерпретировать оценки параметров из таких моделей: прогнозируемое изменение результата для заданного подогнанного уровня категориального предиктора относительно базовой категории.

В чем я не уверен, так это в том, как интерпретировать набор независимых переменных, пропорции которых равны единице . У нас снова есть коллинеарность, если мы подгоняем все пропорции в модели, поэтому, вероятно, нам придется оставить одну категорию в качестве базовой линии. Я также предполагаю, что посмотрю на SS типа III для общего теста значимости этой переменной. Тем не менее, как мы интерпретируем оценки параметров для этих уровней, которые соответствуют модели, и которые считаются базовыми?

Пример . На уровне почтового индекса независимой переменной является доля метаморфических, магматических и осадочных пород. Как вы, возможно, знаете, это три основных типа пород, и все породы классифицируются как один из них. Таким образом, пропорции по всем трем сумм равны 1. Результатом является средний уровень радона в соответствующем почтовом индексе.

Если бы я подходил, скажем, к метаморфическим и магматическим пропорциям в качестве предикторов в модели, оставляя осадочные отложения в качестве базовой линии, общий тип III F F- теста из двух подобранных уровней будет означать, является ли тип породы в целом важным предиктор результата (средний уровень радона). Затем я мог бы посмотреть на отдельные значения p (на основе распределения t ), чтобы определить, значительно ли один или оба типа пород отличались от базовой линии.

Тем не менее, когда дело доходит до оценок параметров, мой мозг все еще хочет интерпретировать их как предсказанное изменение результатов между группами (типы камней), и я не понимаю, как включить тот факт, что они соответствуют пропорциям ,

Если оценка для метаморфизма составляла, скажем, 0,43, интерпретация не просто в том, что прогнозируемый средний уровень радона увеличивается на 0,43 единицы, когда порода метаморфическая по сравнению с осадочной. Тем не менее, интерпретация также не просто для некоторого увеличения единицы (скажем, 0,1) в пропорции метаморфического типа породы, потому что это не отражает тот факт, что это также относительно базовой линии ( осадочные ), и, кроме того, это изменение пропорция метаморфизма по своей сути меняет пропорцию подгонки другого уровня породы в модели, магматической .β

Есть ли у кого-нибудь источник, который дает толкование такой модели, или вы могли бы привести здесь краткий пример, если нет?


2
+1 Часто пропорции не имеют линейных отношений с откликом. Если репараметризации, такие как π i = exp ( λ i )(π1,π2,,πk)
πi=exp(λi)exp(λ1)++exp(λk)

1
Нет, но я предполагаю, что это будет проблематично, особенно потому, что многие из «пропорций» фактически были равны 0 и 1, или значениям, очень близким к 0 и 1, и, таким образом, по сути, все равно действуют как двоичные. Таким образом, вероятно, мы сделаем из них реальные группы (и покончили с пропорциями), но это все же вызвало у меня интерес к тому, какой будет правильная интерпретация, гипотетически.
Мег

Достаточно справедливо - это хороший вопрос.
whuber

2
λiπ
log(πi/πj)=λiλj.
πiλiλjkk1λiπi=0πi=1

2
λi=log(πi)
log(πi/πj)=λiλj
exp(λi)exp(λ1)++exp(λk)=πiπ1+π2++πk=π11=πi

Ответы:


8

Как продолжение, и то, что я считаю правильным ответом (мне кажется разумным): я разместил этот вопрос на listserv ASA Connect и получил следующий ответ от Томаса Секстона в Stony Brook:

«Ваша оценочная модель линейной регрессии выглядит следующим образом:

ln (Радон) = (линейное выражение в других переменных) + 0.43M + 0.92I

где М и Я представляют проценты метаморфических и магматических пород, соответственно, в почтовом индексе. Вы ограничены:

M + I + S = 100

где S представляет проценты осадочных пород в почтовом индексе.

Интерпретация 0,43 заключается в том, что увеличение M на один процентный пункт связано с увеличением на 0,43 ln (радона), при котором все остальные переменные в модели фиксированы . Таким образом, значение I не может измениться, и единственный способ увеличить M на один процентный пункт при удовлетворении ограничения состоит в том, чтобы уменьшить S на один процентный пункт, опущенная категория.

Конечно, это изменение не может происходить в почтовых индексах, в которых S = 0, но в таких почтовых кодах возможно уменьшение M и соответствующее увеличение S ».

Вот ссылка на ветку ASA: http://community.amstat.org/communities/community-home/digestviewer/viewthread?GroupId=2653&MID=29924&tab=digestviewer&UserKey=5adc7e8b-ae4f-43f9-b561-442747sd2ff&ff&ff&f&dd&f1

Я публикую это как принятый правильный ответ, но все еще открыт для дальнейшего обсуждения, если кому-то есть что добавить.


Одним из советов было бы перейти к ветке ASA, так как существует довольно много дискуссий, которые ставят под сомнение ответ, предоставленный здесь.
Maxim.K

@ Maxim.K: Вы имеете в виду мою собственную ветку ASA, на которую я ссылался выше? Если да, да, было много предостережений без ответа, и я все еще не совсем уверен в «правильном» ответе (если он вообще существует). Вот почему я добавил классификатор: «Я публикую это как принятый правильный ответ, но все еще открыт для дальнейшего обсуждения, если кому-то есть что добавить».
Мэг
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.