Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных

3
Откуда исходит неправильное представление о том, что Y должен быть нормально распределен?
Достоверно авторитетные источники утверждают, что зависимая переменная должна быть нормально распределена: Предположения модели: нормально распределен, ошибки нормально распределены, и независимы, фиксирован и постоянная дисперсия .e i ∼ N ( 0 , σ 2 ) X σ 2YYYei∼N(0,σ2)ei∼N(0,σ2)e_i \sim N(0,\sigma^2)XXXσ2σ2\sigma^2 Penn State, STAT 504 Анализ дискретных данных Во-вторых, линейный регрессионный анализ …

1
Разница между GradientDescentOptimizer и AdamOptimizer (TensorFlow)?
Я написал простой MLP в TensorFlow, который моделирует XOR-Gate . Таким образом, для: input_data = [[0., 0.], [0., 1.], [1., 0.], [1., 1.]] он должен произвести следующее: output_data = [[0.], [1.], [1.], [0.]] Сеть имеет входной слой, скрытый слой и выходной слой с 2, 5 и 1 нейроном каждый. В …

1
Как определить, должна ли ось Y графика начинаться с нуля?
Один из распространенных способов «лежать с данными» - это использовать масштаб по оси Y, который создает впечатление, что изменения более значительны, чем они есть на самом деле. Когда я просматриваю научные публикации или лабораторные отчеты студентов, меня часто расстраивает этот «грех визуализации данных» (который, как мне кажется, авторы совершают непреднамеренно, …

6
Каковы основные теоремы в машинном (глубоком) обучении?
Аль Рахими недавно выступил с весьма провокационным докладом в NIPS 2017, сравнивая современное машинное обучение с алхимией. Одним из его утверждений является то, что нам нужно вернуться к теоретическим разработкам, чтобы иметь простые теоремы, доказывающие основополагающие результаты. Когда он сказал это, я начал искать основные теоремы для ML, но не …

3
Каков эффект наличия коррелированных предикторов в модели множественной регрессии?
Я узнал в классе линейных моделей, что если два предиктора коррелированы и оба включены в модель, один из них будет незначительным. Например, предположим, что размер дома и количество спален взаимосвязаны. При прогнозировании стоимости дома с использованием этих двух предикторов один из них может быть отброшен, поскольку они предоставляют много одинаковой …

2
Линейное ядро ​​и нелинейное ядро ​​для опорных векторов машины?
При использовании машины опорных векторов есть ли какие-либо рекомендации по выбору линейного ядра или нелинейного ядра, например, RBF? Я когда-то слышал, что нелинейное ядро ​​имеет тенденцию не работать хорошо, когда количество функций велико. Есть ли какие-либо ссылки на этот вопрос?

10
Как правильно строить тренды
Я создаю график, показывающий тенденции смертности (на 1000 чел.) В разных странах, и история должна исходить из того, что Германия (голубая линия) - единственная, чья тенденция увеличивается после 1932 года. моя первая (базовая) попытка По моему мнению, этот график уже показывает то, что мы хотим сказать, но он не очень …

2
Как смоделировать искусственные данные для логистической регрессии?
Я знаю, что чего-то не хватает в моем понимании логистической регрессии, и буду очень признателен за любую помощь. Насколько я понимаю, логистическая регрессия предполагает, что вероятность результата «1» с учетом входных данных представляет собой линейную комбинацию входных данных, пропущенных через обратную логистическую функцию. Это проиллюстрировано в следующем коде R: #create …


8
Есть ли золотой стандарт для моделирования нерегулярно расположенных временных рядов?
В области экономики (я думаю) у нас есть ARIMA и GARCH для регулярно разнесенных временных рядов и Пуассон, Хоукс для моделирования точечных процессов, так как насчет попыток моделирования нерегулярно (неравномерно) разнесенных временных рядов - есть (по крайней мере) какие-либо общие практики ? (Если у вас есть знания в этой теме, …

5
Использование R онлайн - без установки [закрыто]
Есть ли возможность использовать R в веб-интерфейсе без необходимости его установки? У меня есть только один маленький скрипт, который мне нравится запускать, но я просто хочу попробовать его без долгой процедуры установки. Спасибо.
45 r 

3
Что такое девианс? (конкретно в CART / rpart)
Что такое «отклонение», как оно рассчитывается и как его используют в различных областях статистики? В частности, меня лично интересует его использование в CART (и его реализация в rpart в R). Я спрашиваю об этом, потому что в вики-статье, похоже, чего-то не хватает, и ваши идеи будут приветствоваться.
45 r  cart  rpart  deviance 

15
Ожидаемое количество соотношение девочек и мальчиков при рождении
Я наткнулся на вопрос в тесте на собеседование на предмет критического мышления. Это выглядит примерно так: У Zorganian республики есть некоторые очень странные обычаи. Семейные пары хотят иметь только детей женского пола, поскольку только женщины могут наследовать богатство семьи, поэтому, если у них есть ребенок мужского пола, у них остается …

1
Как работает метод стохастического градиентного спуска Адама?
Я знаком с основными алгоритмами градиентного спуска для обучения нейронных сетей. Я прочитал статью с предложением Адама: АДАМ: МЕТОД СТОХАСТИЧЕСКОЙ ОПТИМИЗАЦИИ . Хотя у меня определенно есть некоторые идеи (по крайней мере), статья кажется мне слишком высокой в ​​целом. Например, функция стоимости часто является суммой множества различных функций, поэтому для …


Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.