Лучший метод для создания диаграмм роста

Я должен создать диаграммы (аналогичные диаграммам роста) для детей в возрасте от 5 до 15 лет (только 5,6,7 и т. Д .; нет дробных значений, таких как 2,6 года) для переменной здоровья, которая является неотрицательной, непрерывной и диапазон 50-150 (только несколько значений за пределами этого диапазона). Я должен создать кривые 90-го, 95-го и 99-го процентиля, а также создать таблицы для этих процентилей. Размер выборки составляет около 8000.

Я проверил и нашел следующие возможные пути:

Найдите квантили, а затем используйте метод Лёсса, чтобы получить плавную кривую из этих квантилей. Степень плавности можно регулировать с помощью параметра «span».
Используйте метод LMS (Lambda-Mu-Sigma) (например, используя пакеты gamlss или VGAM в R).
Используйте квантильную регрессию.
Используйте среднее и SD каждой возрастной группы, чтобы оценить процентиль для этого возраста и создать кривые процентиля.

Каков наилучший способ сделать это? Под «лучшим» я подразумеваю либо идеальный метод, который является стандартным методом для создания таких кривых роста и который был бы приемлем для всех. Или проще и проще реализовать метод, который может иметь некоторые ограничения, но является приемлемым, более быстрым методом. (Например, использование loess для значений процентиля намного быстрее, чем использование LMS пакета gamlss).

Также, что будет основным кодом R для этого метода.

Спасибо за вашу помощь.

— rnso
источник

Вы спрашиваете о «лучшем», которое обычно трудно или невозможно обсудить окончательно. («Наилучший» показатель уровня достаточно сложен.) Вы четко связали свой вопрос с изменениями состояния здоровья детей, но ваши критерии «наилучшего» неясно, в частности, какие виды или степени гладкости являются приемлемыми или неприемлемыми.

— Ник Кокс

Я приветствую эту попытку, но а), очевидно, не существует, иначе почему существуют конкурирующие решения или почему это не видно в литературе, которую вы читаете? Интерес к этой проблеме, несомненно, исчисляется десятилетиями, если не столетиями. Легче означает: легче понять, легче объяснить медикам или специалистам, не занимающимся статистикой, в целом, легче реализовать, ...? Я, без сомнения, выгляжу придирчиво, но зачем вам здесь скорость? Ни один из этих методов не требует вычислительных затрат.

— Ник Кокс

@NickCox: я отредактировал вопрос в соответствии с вашими комментариями. Я буду признателен за реальный ответ.

— Рнсо

Извините, но я не работаю в этой области, и я думаю, что ваш вопрос слишком труден для ответа. Комментарии существуют, потому что люди могут быть неспособны или не хотят отвечать, но, тем не менее, есть что сказать. Я не пишу ответы на заказ.

— Ник Кокс

Ответы:

Существует большая литература по кривым роста. На мой взгляд, есть три «верхних» подхода. Во всех трех случаях время моделируется как ограниченный кубический сплайн с достаточным количеством узлов (например, 6). Это параметрический сглаживатель с отличной производительностью и легкой интерпретацией.

Классические модели кривой роста (обобщенные наименьшие квадраты) для продольных данных с разумной моделью корреляции, такой как AR1 с непрерывным временем. Если вы можете показать, что невязки гауссовы, вы можете получить MLE квантилей, используя оценочные средние и стандартное стандартное отклонение.
Квантильная регрессия. Это не эффективно для не больших . Хотя точность не является оптимальной, метод делает минимальные предположения (поскольку оценки для одного квантиля не связаны с оценками другого квантиля) и является несмещенным. $n$
Порядковый регресс. Это рассматривает непрерывный как порядковый, чтобы быть устойчивым, используя полупараметрические модели, такие как модель пропорциональных шансов. Из порядковых моделей вы можете оценить среднее значение и любой квантиль, последний, только если непрерывен. $Y$ $Y$

— Фрэнк Харрелл
источник

Когда вы использовали пропорциональные коэффициенты, как вы согласились с допущением PO (если оно провалилось) с таким количеством уровней результата? Спасибо.

— julieth

Даже если она потерпит неудачу, модель может работать лучше, чем некоторые другие модели из-за меньшего количества предположений в целом. Или переключитесь на одну из других порядковых моделей совокупного вероятностного семейства, такого как пропорциональные опасности (log-log кумулятивный проб. Ссылка).

— Фрэнк Харрелл

Гауссовский процесс регрессии . Начните с квадратного экспоненциального ядра и попробуйте настроить параметры на глаз. Позже, если вы хотите сделать все правильно, поэкспериментируйте с разными ядрами и используйте предельную вероятность для оптимизации параметров.

Если вы хотите больше подробностей, чем приведенное выше руководство, эта книга великолепна .

— Энди Джонс
источник

Спасибо за Ваш ответ. Как вы оцениваете регрессию гауссовского процесса по сравнению с другими упомянутыми методами? Второй гауссовский сюжет на scikit-learn.org/0.11/auto_examples/gaussian_process/… очень похож на второй последний сюжет на этой странице LOESS (локальная регрессия): princeofslides.blogspot.in/2011/05/… . ПОТЕРЯТЬ намного легче выполнить.

— rnso

Лично я настоятельно предпочитаю GPR для любого набора данных, который достаточно мал, чтобы позволить вам соответствовать ему. Помимо того, что он намного «приятнее» с теоретической точки зрения, он более гибкий, надежный и дает хорошо откалиброванные вероятностные результаты. Сказав все это, если ваши данные плотные и хорошо себя ведут, то ваша аудитория, вероятно, не сможет определить разницу между LOESS и GPR, если они не являются статистиками.

— Энди Джонс

y

$y$

x

$x$

@ Ник: Мой намеченный совет состоял в том, чтобы построить модель ваших данных и затем использовать модель для построения (гладких) кривых процентиля. Теперь вы упомянули об этом, да, я полностью пропустил второй компонент (т.е. сам вопрос).

— Энди Джонс

1.96

$1.96$