Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных

3
Рекуррентные и рекурсивные нейронные сети: что лучше для НЛП?
Существуют рекуррентные нейронные сети и рекурсивные нейронные сети. Оба обычно обозначаются одной и той же аббревиатурой: RNN. Согласно Википедии , Рекуррентный NN на самом деле является Рекурсивным NN, но я не совсем понимаю объяснение. Более того, я не могу найти, что лучше (с примерами или около того) для обработки естественного …

7
Как мне проверить, что две непрерывные переменные независимы?
Предположим , у меня есть образец от совместного распределения и . Как проверить гипотезу о том , что и являются независимыми ?X Y X Y(Xn,Yn),n=1..N(Xn,Yn),n=1..N(X_n,Y_n), n=1..NXXXYYYXXXYYY Не делается никаких предположений относительно законов совместного или предельного распределения и (наименьшая из всех нормальных норм совместного использования, поскольку в этом случае независимость идентична …

7
Является ли хи-квадрат всегда односторонним тестом?
Опубликованная статья ( pdf ) содержит эти 2 предложения: Кроме того, искажение информации может быть вызвано применением неправильных правил или недостаточным знанием статистического теста. Например, общее значение df в ANOVA может быть принято за ошибку df в отчете о тесте, или исследователь может разделить сообщаемое значение p теста или на …

5
В чем разница между NaN и NA?
Я хотел бы знать, почему некоторые языки, такие как R, имеют как NA, так и NaN. В чем различия или они одинаково одинаковы? Действительно ли нужно иметь АН?
48 r 


17
Какой ваш любимый блог по визуализации данных?
Какой лучший блог по визуализации данных? Я делаю этот вопрос вики-сообществом, так как это очень субъективно. Пожалуйста, ограничьте каждый ответ одной ссылкой. Обратите внимание на следующие критерии для предложенных ответов: [A] приемлемые ответы на подобные вопросы ... необходимо предоставить адекватные описания и обоснованное обоснование. Простая гиперссылка не делает этого. ... …

7
Эффект переключения ответа и объясняющей переменной в простой линейной регрессии
Допустим, существует некоторая «истинная» связь между и такая что , где и - константы, а - нормальный шум. Когда я случайным образом генерирую данные из этого кода R: а затем подгоняю к подобной модели , я, очевидно, получаю достаточно хорошие оценки для и .yyyxxxy=ax+b+ϵy=ax+b+ϵy = ax + b + \epsilonaaabbbϵϵ\epsilonx …
48 regression 

5
Интуиция о расхождении Кульбака-Лейблера (КЛ)
Я узнал об интуиции, лежащей в основе дивергенции KL, о том, насколько функция распределения моделей отличается от теоретического / истинного распределения данных. Источник Читаю продолжает говорить о том , что интуитивное понимание «расстояний» между этими двумя распределениями является полезным, но не следует воспринимать буквально , потому что для двух распределений …

4
В чем разница между градиентным спуском на основе импульса и ускоренным градиентным спуском Нестерова?
Таким образом, градиентный спуск на основе импульса работает следующим образом: v=self.momentum∗m−lr∗gv=self.momentum∗m−lr∗gv=self.momentum*m-lr*g где - это предыдущее обновление веса, а - текущий градиент относительно параметров , - скорость обучения, а - постоянная величина.mmmgggppplrlrlrself.momentumself.momentumself.momentum pnew=p+v=p+self.momentum∗m−lr∗gpnew=p+v=p+self.momentum∗m−lr∗gp_{new} = p + v = p + self.momentum * m - lr * g и ускоренный градиентный спуск …

2
Интуитивно понятные объяснения различий между Gradient Boosting Trees (GBM) и Adaboost
Я пытаюсь понять разницу между GBM и Adaboost. Вот что я понял до сих пор: Существуют оба алгоритма повышения, которые учатся на ошибках предыдущей модели и, наконец, составляют взвешенную сумму моделей. GBM и Adaboost очень похожи, за исключением функций потери. Но мне все еще трудно понять идею различий между ними. …
48 boosting  gbm  adaboost 


5
R - QQPlot: как посмотреть, нормально ли распределяются данные
Я построил это после теста на нормальность Шапиро-Вилка. Тест показал, что вполне вероятно, что население нормально распределено. Однако как увидеть это «поведение» на этом сюжете? ОБНОВИТЬ Простая гистограмма данных: ОБНОВИТЬ Тест Шапиро-Вилка говорит:

10
Каков хороший алгоритм для оценки медианы огромного набора данных с однократным чтением?
Я ищу хороший алгоритм (подразумевающий минимальные вычисления, минимальные требования к хранилищу) для оценки медианы набора данных, который слишком велик для хранения, так что каждое значение может быть прочитано только один раз (если вы явно не сохраните это значение). На данных, которые можно предположить, нет границ. Аппроксимации хороши, пока точность известна. …

1
Как применить стандартизацию / нормализацию к обучению и тестам, если целью является прогнозирование?
Преобразовываю ли я все свои данные или сгибы (если применяется CV) одновременно? например (allData - mean(allData)) / sd(allData) Преобразовать ли наборы поездов и наборы тестов отдельно? например (trainData - mean(trainData)) / sd(trainData) (testData - mean(testData)) / sd(testData) Или я преобразую поездный набор и использую вычисления на тестовом наборе? например (trainData …

7
С чего начать со статистики для опытного разработчика
В первой половине 2015 года я прошел курс обучения машинному обучению (автор Andrew Ng, курс GREAT). И изучил основы машинного обучения (линейная регрессия, логистическая регрессия, SVM, нейронные сети ...) Кроме того, я был разработчиком в течение 10 лет, поэтому изучение нового языка программирования не будет проблемой. В последнее время я …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.