Разница между регрессией PLS и моделированием пути PLS. Критика PLS

Этот вопрос был задан здесь, но никто не дал хорошего ответа. Поэтому я думаю, что это хорошая идея, чтобы поднять это снова, а также я хотел бы добавить еще несколько комментариев / вопросов.

Первый вопрос: в чем разница между «моделированием пути PLS» и «регрессией PLS»? Чтобы сделать его более общим, что такое моделирование структурных уравнений (SEM), моделирование путей и регрессия? Насколько я понимаю, регрессия больше фокусируется на прогнозировании, в то время как SEM фокусируется на взаимосвязи между ответом и предикторами, а моделирование пути является частным случаем SEM?
Второй вопрос: насколько PLS заслуживает доверия? В последнее время он подвергался многочисленной критике, как подчеркивалось в Rönkkö et al. 2016 и Rönkkö et al. 2015, что приводит к отклонению статей на основе PLS в журналах высокого уровня, таких как Журнал управления операциями ( вот примечание редактора журнала):

Мы категорически отвергаем практически все рукописи на основе PLS, потому что пришли к выводу, что PLS был без исключения неправильным подходом к моделированию в тех моделях, которые используют исследователи OM .

Я должен отметить, что моя область - спектроскопия, ни управление / психология, ни статистика. В ссылках, приведенных выше, авторы больше говорят о PLS как методе SEM, но для меня их критика выглядит применимой и к регрессии PLS.

sem partial-least-squares path-model

— Ресса
источник

Все ваши ссылки находятся за платными сетями.

— Джереми Майлз

ты абсолютно прав! и я извиняюсь, у меня есть PDF-файлы, но я не уверен, что могу загрузить или поделиться. Наука должна быть свободной :)

— Ресс

Регресс PLS объясняется и обсуждается довольно подробно в stats.stackexchange.com/questions/179733 . К сожалению, я почти ничего не знаю о "моделировании пути".

— амеба

Я думаю, что «моделирование пути» - это еще одно название для SEM

— rep_ho

Из статьи 2016 года: «Большинство вводных текстов по PLS затеняют значения весов, утверждая, что PLS - это SEM, и поэтому оно должно обеспечивать преимущество перед регрессией с композитами (например, Gefen et al., 2011); однако такие работы часто не указывают явно, что сама PLS также просто регрессия с композитами ". вводит в заблуждение. Основной смысл аргумента я вижу, утверждают ли авторы, что SEM должна быть чисто теоретической конструкцией, и они презирают эмпирически выведенные структурные уравнения. Но PLS выводит «структурированные» уравнения через ковариацию.

— ReneBt

Первый вопрос: в чем разница между «моделированием пути PLS» и «регрессией PLS»?

Нет, они являются синонимами.

Чтобы сделать его более общим, что такое моделирование структурных уравнений (SEM), моделирование путей и регрессия? Насколько я понимаю, регрессия больше фокусируется на прогнозировании, в то время как SEM фокусируется на взаимосвязи между ответом и предикторами, а моделирование пути является частным случаем SEM?

SEM является формой регрессии. Регрессия - это любой метод, который коррелирует независимые и зависимые переменные и включает методы, которые используют несколько переменных, обрабатываемых как отдельные объекты. SEM специально использует математические отношения между переменными для ограничения окончательной модели, в случае PLS это ковариация. Насколько я понимаю, моделирование пути - это предметный (не мой, я спектроскопист, как вы) конкретный термин.

Второй вопрос: насколько PLS заслуживает доверия? В последнее время он подвергался многочисленной критике, как подчеркивалось в Rönkkö et al. 2016 и Rönkkö et al. 2015

Отличное опровержение найдено в Henseler et al. Общие верования и реальность 2013 года о PLS . Основная проблема Rönkkö et al. заключается в том, что PLS не очень хорошо работает в некоторых ситуациях, которые предполагают общий скрытый фактор. PLS на самом деле предназначен для работы с множеством скрытых факторов, ситуация, которая гораздо чаще встречается в реальном мире.

Насколько можно доверять? Для спектроскопии это отличный инструмент, но у него есть свои ограничения. Это создает риск переоснащения, поскольку может создавать сложные модели, в которых учитывается вклад множества факторов. По этой причине его необходимо использовать с осторожностью, и необходима соответствующая внешняя проверка, но тогда эти предостережения применимы ко всем инструментам построения моделей. Я работаю в основном над наборами данных реального мира в течение двух десятилетий, и я не встречал ни одного экспериментального набора данных, у которого был бы только один общий фактор, лежащий в основе зависимой переменной (ни на основе данных, ни на научной теории).

— ReneBt
источник

+1, хотя я хотел бы, чтобы в этом ответе было больше подробностей о Ronkko et al. против Хенселера и соавт. разногласие. Я совсем не спектроскопист, но у меня относительно хорошее понимание PLS как метода регуляризации для линейной регрессии (именно так он представлен в «Элементах статистического обучения » Hastie et al.). Я думаю, что это называется PLS1 в хемометрии. Здесь «производительность» относится к ошибке реконструкции, можно использовать перекрестную проверку для выбора силы регуляризации и т. Д. Это очень знакомая настройка для любого, кто сталкивался с регрессией гребня или ПЦР или чем-то подобным.

— амеба

[продолжение] Мне также известно о PLS2 с несколькими зависимыми переменными, но я не уверен, как часто это используется. В то же время, пытаясь понять, что Ronkko et al. значит, кажется, что фокус "SEM" сосредоточен исключительно на связи множества X с множеством Y (тогда это PLS2?) и, возможно, больше на интерпретации отношений между X и Y, а не на предсказании Y как такового. Я даже не уверен, что они подразумевают под «производительностью», и я понятия не имею, что они предпочитают использовать вместо PLS, когда они критикуют PLS.

— амеба

Спасибо и ReneBT и амебе. Я разместил этот вопрос на Reddit здесь, и кто-то (soumya_ray) ответил, что регрессия и SEM принципиально разные. Она не объяснила технических отличий. Кстати, ее ответ против того, что вы сказали (ваш ответ имеет смысл для меня).

— Ресс

Кстати, я делаю выбор группы, используя PLS. Я подтверждаю вашу точку зрения на производительность PLS, хотя это может привести к хорошим прогнозам (как по тестам, так и по калибровке), но модель может быть в корне неверной или, по крайней мере, очень трудной для интерпретации, поскольку она выбирает предикторы как важные переменные, которые не имеют ничего общего с переменная ответа.

— Ресс

Еще один комментарий по ключевым вопросам, поднятым авторами: «Таким образом, алгоритм PLS создает веса, которые увеличивают корреляцию между смежными композитами по сравнению с взвешенными по единицам композитами, используемыми в качестве отправной точки, используя любые корреляции в данных, но это делает не гарантируют достижение какого-либо глобального оптимума ». Является обоснованным опасением, в двух словах, что означает, что модель будет применяться только к группам населения с той же базовой ковариационной структурой, это не делает PLS недействительным, но означает, что нужно строить и использовать модель с осторожностью.

— ReneBt