Вопросы с тегом «regression»

Методы анализа взаимосвязи между одной (или несколькими) «зависимыми» переменными и «независимыми» переменными.

2
Степени свободы в тесте Хосмера-Лемешоу
Статистика теста для теста Хосмера-Лемешова (HLT) на пригодность (GOF) модели логистической регрессии определяется следующим образом: Затем выборка разбивается на децилей, , , для каждого дециля вычисляются следующие величины:d=10d=10d=10D1,D2,…,DdD1,D2,…,DdD_1, D_2, \dots , D_{d} O1d=∑i∈DdyiO1d=∑i∈DdyiO_{1d}=\displaystyle \sum_{i \in D_d} y_i , т.е. наблюдаемое количество положительных случаев в ;DdDdD_d O0d=∑i∈Dd(1−yi)O0d=∑i∈Dd(1−yi)O_{0d}=\displaystyle \sum_{i \in D_d} (1-y_i) …

4
(Почему) у переоснащенных моделей, как правило, большие коэффициенты?
Я полагаю, что чем больше коэффициент для переменной, тем больше у модели способности «качаться» в этом измерении, обеспечивая повышенную возможность подгонки к шуму. Хотя я думаю, что у меня есть разумное представление о связи между дисперсией в модели и большими коэффициентами, у меня нет такого хорошего представления о том, почему …

1
Является ли регрессия с регуляризацией L1 такой же, как Лассо, а с регуляризацией L2 такая же, как регрессия гребня? А как написать «Лассо»?
Я - инженер-программист, изучающий машинное обучение, особенно на курсах Эндрю Нг по машинному обучению . Изучая линейную регрессию с регуляризацией , я нашел смущающие термины: Регрессия с регуляризацией L1 или регуляризацией L2 ЛАССО Хребет регрессии Итак, мои вопросы: Является ли регрессия с регуляризацией L1 точно такой же, как LASSO? Является …


2
Понимание формы и расчета доверительных полос в линейной регрессии
Я пытаюсь понять происхождение изогнутой формы доверительных полос, связанных с линейной регрессией OLS, и как это относится к доверительным интервалам параметров регрессии (наклон и перехват), например (с использованием R): require(visreg) fit <- lm(Ozone ~ Solar.R,data=airquality) visreg(fit) Похоже, что полоса связана с границами линий, рассчитанными с перехватом 2,5%, с наклоном 97,5%, …

2
Теория за частичной регрессией наименьших квадратов
Кто-нибудь может порекомендовать хорошее изложение теории за частичной регрессией наименьших квадратов (доступно онлайн) для тех, кто понимает SVD и PCA? Я просмотрел многие источники в Интернете и не нашел ничего, что имело бы правильное сочетание строгости и доступности. zi=Xφizi=Xφiz_i=X \varphi_iyTziyTzi y^Tz_i z T i z j = 0 i ≠ …

1
В чем разница между «коэффициентом детерминации» и «среднеквадратичной ошибкой»?
Что касается проблемы регрессии, я видел, как люди использовали «коэффициент детерминации» (он же R в квадрате), чтобы выполнить выбор модели, например, найти подходящий штрафной коэффициент для регуляризации. Однако также часто используют «среднеквадратичную ошибку» или «среднеквадратичную ошибку» в качестве меры точности регрессии. Так в чем же главное отличие этих двух? Могут …

4
Зачем использовать регуляризацию в полиномиальной регрессии вместо понижения степени?
При выполнении регрессии, например, два гиперпараметра, которые нужно выбрать, часто являются емкостью функции (например, наибольшим показателем многочлена) и величиной регуляризации. Что меня смущает, так это почему бы просто не выбрать функцию с низкой пропускной способностью, а затем игнорировать любую регуляризацию? Таким образом, это не будет соответствовать. Если у меня есть …

3
Наборы данных, построенные с целью, аналогичной таковой в квартете Анскомба
Я только что натолкнулся на квартет Анскомба (четыре набора данных, которые имеют почти неразличимую описательную статистику, но выглядят совсем иначе при построении графика), и мне любопытно, есть ли другие более или менее известные наборы данных, которые были созданы, чтобы продемонстрировать важность определенных аспектов статистического анализа.

1
Почему R возвращает NA как коэффициент lm ()?
Я подгоняю lm()модель к набору данных, который включает индикаторы для финансового квартала (Q1, Q2, Q3, делая Q4 по умолчанию). Используя lm(Y~., data = data) я получаю в NAкачестве коэффициента для Q3 и предупреждение о том, что одна переменная была исключена из-за особенностей. Нужно ли добавлять столбец Q4?
32 r  regression 

7
Существуют ли алгоритмы для вычисления «работающих» параметров линейной или логистической регрессии?
В документе «Точное вычисление текущей дисперсии» по адресу http://www.johndcook.com/standard_deviation.html показано, как вычислить среднее значение, дисперсию и стандартные отклонения. Существуют ли алгоритмы, в которых параметры модели линейной или логистической регрессии можно аналогичным образом «динамически» обновлять при предоставлении каждой новой записи обучения?

2
Функция стоимости в линейной регрессии МНК
Меня немного смущает лекция Эндрю Нга о линейной регрессии, посвященная машинному обучению. Там он дал функцию стоимости, которая минимизирует сумму квадратов как: 12m∑i=1m(hθ(X(i))−Y(i))212m∑i=1m(hθ(X(i))−Y(i))2 \frac{1}{2m} \sum _{i=1}^m \left(h_\theta(X^{(i)})-Y^{(i)}\right)^2 Я понимаю, откуда берется . Я думаю, что он сделал это так, чтобы, когда он выполнил производную на квадратном члене, 2 в квадратном …

1
Архитектуры CNN для регрессии?
Я работал над проблемой регрессии, когда входной сигнал представляет собой изображение, а метка представляет собой непрерывное значение между 80 и 350. Изображения имеют некоторые химические вещества после реакции. Цвет, который получается, указывает концентрацию другого химического вещества, которое осталось, и это то, что модель должна вывести - концентрацию этого химического вещества. …

2
Логистическая регрессия: Scikit Learn против Statsmodels
Я пытаюсь понять, почему вывод из логистической регрессии этих двух библиотек дает разные результаты. Я использую набор данных из учебника UCLA idre , прогнозирование admitна основе gre, gpaи rank. rankрассматривается как категориальная переменная, поэтому сначала она преобразуется в фиктивную переменную с помощью rank_1drop. Также добавлен столбец перехвата. df = pd.read_csv("https://stats.idre.ucla.edu/stat/data/binary.csv") …

1
Отрицательный вопрос о биномиальной регрессии - плохая модель?
Я читаю очень интересную статью Селлерса и Шмуэли о регрессионных моделях для подсчета данных. В начале (стр. 944) они цитируют McCullaugh и Nelder (1989), утверждая, что отрицательная биномиальная регрессия непопулярна и имеет проблематичную каноническую связь. Я нашел упомянутый отрывок, и он говорит (стр. 374 из М и N) «Похоже, в …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.