Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных


7
Почему термин регуляризации * добавляется * к функции стоимости (вместо умножения и т. Д.)?
Всякий раз, когда используется регуляризация, она часто добавляется к функции стоимости, например, в следующей функции стоимости. Это имеет для меня интуитивный смысл, поскольку минимизирует Функция стоимости означает минимизацию ошибки (левый член) и минимизацию величин коэффициентов (правый термин) одновременно (или, по крайней мере, балансирование двух минимизаций).J(θ)=12(y−θXT)(y−θXT)T+α∥θ∥22J(θ)=12(y−θXT)(y−θXT)T+α‖θ‖22 J(\theta)=\frac 1 2(y-\theta X^T)(y-\theta X^T)^T+\alpha\|\theta\|_2^2 …

8
Что такое хороший ресурс по дизайну стола?
Я видел различные теоретические обработки графики, такие как грамматика графики . Но я не видел ничего эквивалентного в отношении таблиц. За это время я разработал неформальную модель хорошей практики в дизайне таблиц. Тем не менее, я хотел бы иметь возможность дать хорошую ссылку на студентов. Руководство APA стиль имеет несколько …
51 tables 

4
Почему бы не приблизиться к классификации через регрессию?
В некоторых материалах, которые я видел по машинному обучению, говорилось, что плохая идея - подходить к проблеме классификации с помощью регрессии. Но я думаю, что всегда можно сделать непрерывную регрессию, чтобы соответствовать данным и усечь непрерывный прогноз, чтобы получить дискретные классификации. Так почему это плохая идея?

6
Как определить лучшую точку отсечения и ее доверительный интервал, используя кривую ROC в R?
У меня есть данные теста, который можно использовать для различения нормальных и опухолевых клеток. Согласно кривой ROC это выглядит хорошо для этой цели (площадь под кривой составляет 0,9): Мои вопросы: Как определить точку отсечки для этого теста и его доверительный интервал, где показания следует оценивать как неоднозначные? Каков наилучший способ …

3
Статистика и причинный вывод?
В своей статье 1984 года «Статистика и причинно-следственные связи» Пол Холланд поднял один из самых фундаментальных вопросов статистики: Что статистическая модель может сказать о причинно-следственной связи? Это привело к его девизу: НЕТ ПРИЧИНЫ БЕЗ МАНИПУЛЯЦИИ который подчеркнул важность ограничений вокруг экспериментов, которые рассматривают причинно-следственную связь. Эндрю Гельман делает подобное замечание …
51 causality 

2
В чем разница между фильтром частиц (последовательным методом Монте-Карло) и фильтром Калмана?
Фильтр частиц и фильтр Калмана является рекурсивным байесовскими . Я часто сталкиваюсь с фильтрами Калмана в своей области, но очень редко вижу использование фильтра частиц. Когда один будет использоваться над другим?


3
Есть ли у нас проблема «жалких голосов»?
Я знаю, это может звучать как не по теме, но выслушайте меня. В Stack Overflow и здесь мы получаем голоса за сообщения, все это хранится в табличной форме. Например: идентификатор сообщения идентификатор голосования тип голосования дата и время ------- -------- --------- -------- 10 1 2 2000-1-1 10:00:01 11 3 3 …

5
Случайный лес - это алгоритм повышения?
Краткое определение повышения : Может ли группа слабых учеников создать одного сильного ученика? Слабый ученик определяется как классификатор, который лишь незначительно коррелирует с истинной классификацией (он может маркировать примеры лучше, чем случайные догадки). Краткое определение случайного леса : Случайные леса произрастает много деревьев классификации. Чтобы классифицировать новый объект из входного …


3
Можно ли использовать случайный лес для выбора признаков в множественной линейной регрессии?
Так как RF может обрабатывать нелинейность, но не может предоставить коэффициенты, было бы разумно использовать случайный лес для сбора наиболее важных признаков, а затем включить эти объекты в модель множественной линейной регрессии для получения их коэффициентов?

8
Как определить вероятность отказа, если не было сбоев?
Мне было интересно, есть ли способ определить вероятность того, что что-то не получится (продукт), если у нас есть 100 000 продуктов в течение 1 года и без сбоев? Какова вероятность того, что один из следующих 10 000 проданных товаров потерпит неудачу?

4
Быстрая линейная регрессия, устойчивая к выбросам
Я имею дело с линейными данными с выбросами, некоторые из которых находятся на расстоянии более 5 стандартных отклонений от расчетной линии регрессии. Я ищу технику линейной регрессии, которая уменьшает влияние этих точек. Пока что я сделал, чтобы оценить линию регрессии со всеми данными, затем отбросить точку данных с очень большими …

9
Кто-нибудь знает хорошее программное обеспечение с открытым исходным кодом для визуализации данных из базы данных?
Недавно я наткнулся на Tableau и попытался визуализировать данные из базы данных и CSV-файла. Пользовательский интерфейс позволяет пользователю визуализировать временные и пространственные данные и мгновенно создавать графики. Такой инструмент действительно полезен, так как позволяет графически наблюдать данные без написания кода. Поскольку существует много источников данных, из которых мне приходится извлекать …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.