Статистика и большие данные

5

В чем разница между Multiclass и Multilabel Problem

В чем разница между проблемой мультикласса и проблемой мультиметки?

52 classification clustering terminology multi-class multilabel

7

Почему термин регуляризации * добавляется * к функции стоимости (вместо умножения и т. Д.)?

Всякий раз, когда используется регуляризация, она часто добавляется к функции стоимости, например, в следующей функции стоимости. Это имеет для меня интуитивный смысл, поскольку минимизирует Функция стоимости означает минимизацию ошибки (левый член) и минимизацию величин коэффициентов (правый термин) одновременно (или, по крайней мере, балансирование двух минимизаций).J(θ)=12(y−θXT)(y−θXT)T+α∥θ∥22J(θ)=12(y−θXT)(y−θXT)T+α‖θ‖22 J(\theta)=\frac 1 2(y-\theta X^T)(y-\theta X^T)^T+\alpha\|\theta\|_2^2 …

51 regularization

8

Что такое хороший ресурс по дизайну стола?

Я видел различные теоретические обработки графики, такие как грамматика графики . Но я не видел ничего эквивалентного в отношении таблиц. За это время я разработал неформальную модель хорошей практики в дизайне таблиц. Тем не менее, я хотел бы иметь возможность дать хорошую ссылку на студентов. Руководство APA стиль имеет несколько …

51 tables

4

Почему бы не приблизиться к классификации через регрессию?

В некоторых материалах, которые я видел по машинному обучению, говорилось, что плохая идея - подходить к проблеме классификации с помощью регрессии. Но я думаю, что всегда можно сделать непрерывную регрессию, чтобы соответствовать данным и усечь непрерывный прогноз, чтобы получить дискретные классификации. Так почему это плохая идея?

51 regression machine-learning classification

6

Как определить лучшую точку отсечения и ее доверительный интервал, используя кривую ROC в R?

У меня есть данные теста, который можно использовать для различения нормальных и опухолевых клеток. Согласно кривой ROC это выглядит хорошо для этой цели (площадь под кривой составляет 0,9): Мои вопросы: Как определить точку отсечки для этого теста и его доверительный интервал, где показания следует оценивать как неоднозначные? Каков наилучший способ …

51 r data-visualization confidence-interval roc ggplot2

3

Статистика и причинный вывод?

В своей статье 1984 года «Статистика и причинно-следственные связи» Пол Холланд поднял один из самых фундаментальных вопросов статистики: Что статистическая модель может сказать о причинно-следственной связи? Это привело к его девизу: НЕТ ПРИЧИНЫ БЕЗ МАНИПУЛЯЦИИ который подчеркнул важность ограничений вокруг экспериментов, которые рассматривают причинно-следственную связь. Эндрю Гельман делает подобное замечание …

51 causality

2

В чем разница между фильтром частиц (последовательным методом Монте-Карло) и фильтром Калмана?

Фильтр частиц и фильтр Калмана является рекурсивным байесовскими . Я часто сталкиваюсь с фильтрами Калмана в своей области, но очень редко вижу использование фильтра частиц. Когда один будет использоваться над другим?

51 bayesian particle-filter kalman-filter

4

Взаимная информация против корреляции

Почему и когда мы должны использовать Взаимную информацию для статистических измерений корреляции, таких как «Пирсон», «Спирман» или «Тау Кендалла»?

51 correlation mathematical-statistics mutual-information

3

Есть ли у нас проблема «жалких голосов»?

Я знаю, это может звучать как не по теме, но выслушайте меня. В Stack Overflow и здесь мы получаем голоса за сообщения, все это хранится в табличной форме. Например: идентификатор сообщения идентификатор голосования тип голосования дата и время ------- -------- --------- -------- 10 1 2 2000-1-1 10:00:01 11 3 3 …

51 time-series hypothesis-testing data-mining markov-process censoring

5

Случайный лес - это алгоритм повышения?

Краткое определение повышения : Может ли группа слабых учеников создать одного сильного ученика? Слабый ученик определяется как классификатор, который лишь незначительно коррелирует с истинной классификацией (он может маркировать примеры лучше, чем случайные догадки). Краткое определение случайного леса : Случайные леса произрастает много деревьев классификации. Чтобы классифицировать новый объект из входного …

51 machine-learning random-forest boosting bagging

3

В чем разница в байесовской оценке и оценке максимального правдоподобия?

Пожалуйста, объясните мне разницу в байесовской оценке и оценке максимального правдоподобия?

50 bayesian maximum-likelihood

3

Можно ли использовать случайный лес для выбора признаков в множественной линейной регрессии?

Так как RF может обрабатывать нелинейность, но не может предоставить коэффициенты, было бы разумно использовать случайный лес для сбора наиболее важных признаков, а затем включить эти объекты в модель множественной линейной регрессии для получения их коэффициентов?

50 regression machine-learning feature-selection random-forest regression-strategies

8

Как определить вероятность отказа, если не было сбоев?

Мне было интересно, есть ли способ определить вероятность того, что что-то не получится (продукт), если у нас есть 100 000 продуктов в течение 1 года и без сбоев? Какова вероятность того, что один из следующих 10 000 проданных товаров потерпит неудачу?

50 probability survival binomial

4

Быстрая линейная регрессия, устойчивая к выбросам

Я имею дело с линейными данными с выбросами, некоторые из которых находятся на расстоянии более 5 стандартных отклонений от расчетной линии регрессии. Я ищу технику линейной регрессии, которая уменьшает влияние этих точек. Пока что я сделал, чтобы оценить линию регрессии со всеми данными, затем отбросить точку данных с очень большими …

50 regression linear-model outliers robust fused-lasso

9

Кто-нибудь знает хорошее программное обеспечение с открытым исходным кодом для визуализации данных из базы данных?

Недавно я наткнулся на Tableau и попытался визуализировать данные из базы данных и CSV-файла. Пользовательский интерфейс позволяет пользователю визуализировать временные и пространственные данные и мгновенно создавать графики. Такой инструмент действительно полезен, так как позволяет графически наблюдать данные без написания кода. Поскольку существует много источников данных, из которых мне приходится извлекать …

50 data-visualization software interactive-visualization