Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных



7
Как выбрать t-критерий или непараметрический критерий, например, Уилкоксон в небольших выборках
Определенные гипотезы могут быть проверены с использованием t- критерия Стьюдента (возможно, с использованием поправки Уэлча для неравных отклонений в случае двух выборок) или с помощью непараметрического теста, такого как парный критерий Уилкоксона со знаком, ранговый критерий Уилкоксона-Манна-Уитни, или парный тест знака. Как мы можем принять принципиальное решение о том, какой …

5
Полный список функций активации в нейронных сетях с плюсами / минусами
Существуют ли какие-либо справочные документы, в которых содержится полный список функций активации в нейронных сетях вместе с их плюсами / минусами (и в идеале некоторые ссылки на публикации, где они были успешными или не очень успешными)?

6
Можно ли обучить нейронную сеть без обратного распространения?
Многие книги и учебные пособия по нейронной сети тратят много времени на алгоритм обратного распространения, который по сути является инструментом для вычисления градиента. Давайте предположим, что мы строим модель с ~ 10K параметров / весов. Можно ли запустить оптимизацию, используя некоторые алгоритмы оптимизации без градиента? Я думаю, что вычисление числового …


2
Как много мы знаем о p-хакерстве «в дикой природе»?
Фраза p- взлома (также: «выемка данных» , «отслеживание» или «промысел») относится к различным видам статистической халатности, в которой результаты становятся искусственно статистически значимыми. Есть много способов добиться «более значительного» результата, включая, но не ограничиваясь: анализ только «интересного» подмножества данных , в котором был найден паттерн; отсутствие правильной настройки для многократного …

30
Какую книгу вы бы порекомендовали ученым, не занимающимся статистикой?
Какую книгу вы бы порекомендовали ученым, которые не являются статистиками? Чистая доставка наиболее ценится. А также объяснение соответствующих методов и методов для типичных задач: анализ временных рядов, представление и агрегация больших наборов данных.
94 references 

13
Каков наилучший способ выявления выбросов в многомерных данных?
Предположим, у меня есть большой набор многомерных данных, по крайней мере, с тремя переменными. Как я могу найти выбросы? Парные диаграммы рассеяния не будут работать, поскольку выброс может существовать в трех измерениях, который не является выбросом ни в одном из двухмерных подпространств. Я имею в виду не проблему регрессии, а …

6
Основные тесты проверки данных
В своей работе я часто работаю с наборами данных других людей, неспециалисты приносят мне клинические данные, и я помогаю им обобщать их и выполнять статистические тесты. Проблема, с которой я сталкиваюсь, состоит в том, что наборы данных, которые я привожу, почти всегда полны опечаток, несоответствий и других проблем. Мне интересно …

3
Как вы рассчитываете точность и вспоминаете для мультиклассовой классификации, используя путаницу?
Интересно, как вычислить точность и вспомнить использование путаницы для решения задачи классификации нескольких классов. В частности, наблюдение может быть назначено только его наиболее вероятному классу / метке. Я хотел бы вычислить: Точность = TP / (TP + FP) Напомним = TP / (TP + FN) для каждого класса, а затем …

10
Почему временные ряды должны быть стационарными?
Я понимаю, что стационарный временной ряд - это тот, чье среднее значение и дисперсия постоянны во времени. Может кто-нибудь объяснить, почему мы должны убедиться, что наш набор данных является стационарным, прежде чем мы сможем запустить на нем различные модели ARIMA или ARM? Относится ли это также к нормальным регрессионным моделям, …

12
Кто такие байесовцы?
Когда кто-то начинает интересоваться статистикой, дихотомия «Частый» и «Байесовский» вскоре становится обычным явлением (а кто вообще не читал « Сигнал и шум» Нейта Сильвера ?). В беседах и вводных курсах точка зрения является чрезвычайно частой ( MLE , значения), но есть небольшая часть времени, посвященная восхищению формулой Байеса и касанием …

3
Вложенная перекрестная проверка для выбора модели
Как можно использовать вложенную перекрестную проверку для выбора модели ? Из того, что я читаю онлайн, вложенное резюме работает следующим образом: Существует внутренний цикл CV, где мы можем проводить поиск по сетке (например, запустив K-fold для каждой доступной модели, например, комбинацию гиперпараметров / функций) Существует внешняя петля CV, где мы …

11
Объясните ребенку «Проклятие размерности»
Я много раз слышал о проклятии размерности, но почему-то до сих пор не могу понять идею, все туманно. Может ли кто-нибудь объяснить это наиболее интуитивно понятным способом, как вы объясните это ребенку, чтобы я (и другие, сбитые с толку, как я) могли понять это навсегда? РЕДАКТИРОВАТЬ: Теперь предположим, что ребенок …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.