Статистика и большие данные

6

Линейный график имеет слишком много линий, есть ли лучшее решение?

Я пытаюсь составить график количества действий пользователей (в данном случае «лайков») с течением времени. Таким образом, у меня есть «Количество действий» в качестве моей оси Y, моя ось X - время (недели), и каждая строка представляет одного пользователя. Моя проблема в том, что я хочу посмотреть на эти данные около …

31 r data-visualization

1

В чем разница между функцией потерь и функцией ошибок?

Является ли термин «потеря» синонимом «ошибка»? Есть ли разница в определении? Кроме того, каково происхождение термина "потеря"? NB: упомянутую здесь функцию ошибки не следует путать с обычной ошибкой.

31 loss-functions

4

Почему мы используем ReLU в нейронных сетях и как мы его используем?

Почему мы используем выпрямленные линейные единицы (ReLU) с нейронными сетями? Как это улучшает нейронную сеть? Почему мы говорим, что ReLU является функцией активации? Разве Softmax не активирует функцию для нейронных сетей? Я предполагаю, что мы используем оба, ReLU и softmax, как это: нейрон 1 с выходом softmax ----> ReLU на …

31 neural-networks

4

Какая функция потерь подходит для логистической регрессии?

Я прочитал о двух версиях функции потерь для логистической регрессии, какая из них правильная и почему? Из машинного обучения , Zhou ZH (на китайском языке), с :β=(w,b) and βTx=wTx+bβ=(w,b) and βTx=wTx+b\beta = (w, b)\text{ and }\beta^Tx=w^Tx +b l(β)=∑i=1m(−yiβTxi+ln(1+eβTxi))(1)(1)l(β)=∑i=1m(−yiβTxi+ln⁡(1+eβTxi))l(\beta) = \sum\limits_{i=1}^{m}\Big(-y_i\beta^Tx_i+\ln(1+e^{\beta^Tx_i})\Big) \tag 1 Из моего курса в колледже, с :zi=yif(xi)=yi(wTxi+b)zi=yif(xi)=yi(wTxi+b)z_i = …

31 logistic loss-functions

1

Кросс-энтропия или логарифмическая вероятность в выходном слое

Я читаю эту страницу: http://neuralnetworksanddeeplearning.com/chap3.html и это сказало, что сигмоидальный выходной слой с кросс-энтропией весьма похож на выходной слой softmax с логарифмической вероятностью. что произойдет, если я использую сигмоид с логарифмической вероятностью или softmax с перекрестной энтропией в выходном слое? это нормально? потому что я вижу, что есть только небольшая …

31 neural-networks maximum-likelihood softmax

2

Создаю ли я смещение, используя одно и то же случайное семя снова и снова?

Почти во всей аналитической работе, которую я когда-либо делал, я использую: set.seed(42) Это дань уважения Путеводителю Автостопом по Галактике . Но мне интересно, создаю ли я смещение, используя одно и то же семя снова и снова.

31 random-generation

3

В чем разница между задним и задним предиктивным распределением?

Я понимаю, что такое апостериор, но я не уверен, что означает последний? Чем отличаются 2? Кевин П. Мерфи указал в своем учебнике « Машинное обучение: вероятностная перспектива» , что это «состояние внутреннего убеждения». Что это на самом деле означает? У меня сложилось впечатление, что Приор олицетворяет ваше внутреннее убеждение или …

31 posterior definition

7

Статистические методы для более эффективного построения данных, когда присутствуют миллионы точек?

Я считаю, что R может занять много времени для создания графиков, когда присутствуют миллионы точек - неудивительно, учитывая, что точки строятся индивидуально. Кроме того, такие графики часто слишком загромождены и плотны, чтобы быть полезными. Многие из точек перекрываются и образуют черную массу, и много времени тратится на построение большего количества …

31 r data-visualization

7

В регрессионном анализе почему мы называем независимые переменные «независимыми»?

Я имею в виду, что некоторые из этих переменных тесно связаны между собой. Как / почему / в каком контексте мы определяем их как независимые переменные?

30 regression terminology predictor

3

Утилита Feature-Engineering: зачем создавать новые функции на основе существующих функций?

Я часто вижу, как люди создают новые функции на основе существующих функций для проблемы машинного обучения. Например, здесь: https://triangleinequality.wordpress.com/2013/09/08/basic-feature-engineering-with-the-titanic-data/ люди считают размер семьи человека новой функцией, основанной на на количество братьев, сестер и родителей, которые были существующими функциями. Но какой в этом смысл? Я не понимаю, почему создание взаимосвязанных новых …

30 machine-learning feature-engineering

3

Разве общая вероятность двух независимых событий не должна быть равна нулю?

Если совместная вероятность является пересечением двух событий, то не должна ли совместная вероятность двух независимых событий быть нулевой, поскольку они вообще не пересекаются? Я запутался.

30 probability joint-distribution

2

Чему научилась моя нейронная сеть? Какие особенности это волнует и почему?

Нейронная сеть изучает особенности набора данных как средство достижения определенной цели. Когда это будет сделано, мы можем захотеть узнать, чему научилась нейронная сеть. Каковы были особенности и почему это заботилось о тех. Может кто-нибудь дать какие-то ссылки на основной объем работ, касающихся этой проблемы?

30 neural-networks deep-learning

6

Почему ожидаемое значение названо так?

Я понимаю, как мы получаем 3,5 в качестве ожидаемого значения для бросания честного 6-стороннего кубика. Но интуитивно я могу ожидать, что каждое лицо с равным шансом 1/6. Так не должно ли ожидаемое значение броска кубика быть числом от 1 до 6 с равной вероятностью? Другими словами, когда задают вопрос «какова …

30 expected-value terminology history

2

Кто первым использовал / изобрел p-значения?

Я пытаюсь написать серию постов в блоге о p-значениях, и я подумал, что было бы интересно вернуться к тому, с чего все началось, - похоже, это статья Пирсона 1900 года. Если вы знакомы с этим документом, вы помните, что он охватывает тестирование на пригодность. Пирсон немного болтает со своим языком, …

30 p-value history ronald-fisher

2

Когда регуляризация L1 будет работать лучше, чем L2, и наоборот?

Примечание: я знаю, что у L1 есть свойство выбора функции. Я пытаюсь понять, какой из них выбрать, когда выбор функции совершенно не имеет значения. Как решить, какую регуляризацию (L1 или L2) использовать? Каковы плюсы и минусы каждой регуляризации L1 / L2? Рекомендовано ли вначале делать выбор объектов с использованием L1, …

30 regression lasso regularization ridge-regression