Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных

1
Является ли регрессия с регуляризацией L1 такой же, как Лассо, а с регуляризацией L2 такая же, как регрессия гребня? А как написать «Лассо»?
Я - инженер-программист, изучающий машинное обучение, особенно на курсах Эндрю Нг по машинному обучению . Изучая линейную регрессию с регуляризацией , я нашел смущающие термины: Регрессия с регуляризацией L1 или регуляризацией L2 ЛАССО Хребет регрессии Итак, мои вопросы: Является ли регрессия с регуляризацией L1 точно такой же, как LASSO? Является …


1
Относительная важность переменной для повышения
Я ищу объяснение того, как относительная важность переменной вычисляется в деревьях с градиентным усилением, которое не является слишком общим / упрощенным, например: Измерения основаны на количестве раз, которое переменная была выбрана для расщепления, взвешенной по квадрату улучшения модели в результате каждого расщепления и усредненном по всем деревьям . [ Элит …


3
Как случайные леса не чувствительны к выбросам?
Я читал в нескольких источниках, в том числе и в этом , что случайные леса не чувствительны к выбросам (например, как логистическая регрессия и другие методы ML). Тем не менее, две части интуиции говорят мне иначе: Всякий раз, когда построено дерево решений, все точки должны быть классифицированы. Это означает, что …

3
Интуитивное различие между скрытыми марковскими моделями и условными случайными полями
Я понимаю, что HMM (скрытые марковские модели) являются порождающими моделями, а CRF - дискриминационными моделями. Я также понимаю, как создаются и используются CRF (условные случайные поля). Что я не понимаю, так это чем они отличаются от HMM? Я читал, что в случае HMM мы можем только моделировать наше следующее состояние …

2
Понимание формы и расчета доверительных полос в линейной регрессии
Я пытаюсь понять происхождение изогнутой формы доверительных полос, связанных с линейной регрессией OLS, и как это относится к доверительным интервалам параметров регрессии (наклон и перехват), например (с использованием R): require(visreg) fit <- lm(Ozone ~ Solar.R,data=airquality) visreg(fit) Похоже, что полоса связана с границами линий, рассчитанными с перехватом 2,5%, с наклоном 97,5%, …

2
Определение размера выборки, необходимого для метода начальной загрузки / Предлагаемый метод
Я знаю, что это довольно горячая тема, на которую никто не может дать простой ответ. Тем не менее мне интересно, если следующий подход не может быть полезным. Метод начальной загрузки полезен только в том случае, если ваша выборка более или менее (читай точно) соответствует тому же распределению, что и исходная …

5
Кластеризация набора данных с дискретными и непрерывными переменными
У меня есть набор данных X, который имеет 10 измерений, 4 из которых являются дискретными значениями. Фактически, эти 4 дискретные переменные являются порядковыми, то есть более высокое значение подразумевает более высокую / лучшую семантику. 2 из этих дискретных переменных являются категориальными в том смысле, что для каждой из этих переменных …

5
Сбор информации, взаимная информация и соответствующие меры
Эндрю Мор определяет получение информации как: IG(Y|X)=H(Y)−H(Y|X)IG(Y|X)=H(Y)−H(Y|X)IG(Y|X) = H(Y) - H(Y|X) где - условная энтропия . Однако Википедия называет вышеуказанное количество взаимной информацией .H(Y|X)H(Y|X)H(Y|X) В Википедии, с другой стороны, прирост информации определяется как расхождение Кульбака – Лейблера (иначе говоря, расхождение информации или относительная энтропия) между двумя случайными переменными: DKL(P||Q)=H(P,Q)−H(P)DKL(P||Q)=H(P,Q)−H(P)D_{KL}(P||Q) = …

7
Как вы передаете красоту центральной предельной теоремы не статистику?
Мой отец - энтузиаст математики, но не очень интересуется статистикой. Было бы неплохо попытаться проиллюстрировать некоторые замечательные статистические данные, и CLT является главным кандидатом. Как бы вы передали не статистику математическую красоту и влияние центральной предельной теоремы?

7
Есть ли общепринятое определение медианы образца на плоскости или более упорядоченных пространств?
Если так, то? Если нет, то почему? Для выборки на линии медиана минимизирует общее абсолютное отклонение. Казалось бы, естественно расширить определение до R2 и т. Д., Но я никогда не видел его. Но потом я уже давно на левом поле.

2
Выбор правильного метода связи для иерархической кластеризации
Я выполняю иерархическую кластеризацию данных, которые я собрал и обработал из дампа данных Reddit в Google BigQuery. Мой процесс следующий: Получить последние 1000 сообщений в / г / политика Соберите все комментарии Обработка данных и вычисление n x mматрицы данных (n: пользователи / образцы, m: сообщения / функции) Рассчитать матрицу …

4
Почему tanh почти всегда лучше сигмовидной как функция активации?
В курсе Эндрю Нг « Нейронные сети и глубокое обучение» на Coursera он говорит, что использование tanhTaNчасtanh почти всегда предпочтительнее использования sigmoidsягмояdsigmoid . Причине он дает то , что выходные сигналы с помощью tanhTaNчасtanh центром , вокруг 0 , а не sigmoidsягмояdsigmoid «с 0.5, и это„делает обучение для следующего слоя …

1
Что такое апостериорные прогностические проверки и что делает их полезными?
Я понимаю, что такое апостериорное предиктивное распределение , и я читал о апостериорных прогностических проверках , хотя мне пока не ясно, что он делает. Что такое задняя предиктивная проверка? Почему некоторые авторы говорят, что выполнение апостериорных прогностических проверок "использует данные дважды" и не должно использоваться неправильно? (или даже что это …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.