Статистика и большие данные

6

Нужно ли удалять высококоррелированные переменные перед PCA?

Я читаю статью, где автор отказывается от нескольких переменных из-за высокой корреляции с другими переменными, прежде чем делать PCA. Общее количество переменных составляет около 20. Это дает какие-то преимущества? Мне это кажется непосильным, так как PCA должен справиться с этим автоматически.

111 correlation pca

4

Оценка приблизительного распределения данных на основе гистограммы

Предположим, я хочу посмотреть, являются ли мои данные экспоненциальными на основе гистограммы (то есть смещены вправо). В зависимости от того, как я сгруппирую или скопирую данные, я могу получить совершенно разные гистограммы. Один из наборов гистограмм, по-видимому, будет экспоненциальным. Другой набор покажет, что данные не являются экспоненциальными. Как сделать так, …

111 distributions data-visualization histogram binning

2

Градиентное дерево против случайного леса

Повышение градиентного дерева, предложенное Фридманом, использует деревья решений в качестве базовых учеников. Мне интересно, должны ли мы сделать базовое дерево решений настолько сложным, насколько это возможно (полностью выросло) или проще? Есть ли объяснение выбора? Случайный лес - это еще один метод ансамбля, использующий деревья решений в качестве базовых учащихся. Исходя …

110 machine-learning random-forest cart boosting ensemble

8

Обнаружение данного лица в базе данных изображений лица

Я работаю над небольшим проектом с участием лиц пользователей твиттера через их фотографии в профиле. Проблема, с которой я столкнулся, заключается в том, что после того, как я отфильтрую все, кроме изображений, которые являются четкими портретными фотографиями, небольшой, но значительный процент пользователей Твиттера использует изображение Джастина Бибера в качестве своего …

110 machine-learning clustering image-processing

3

Что если остатки нормально распределены, а у нет?

У меня странный вопрос. Предположим, что у вас есть небольшая выборка, в которой зависимая переменная, которую вы собираетесь анализировать с помощью простой линейной модели, сильно искажена. Таким образом, вы предполагаете, что не является нормально распределенным, потому что это приведет к нормально распределенному . Но когда вы вычисляете график QQ-Normal, есть …

110 regression residuals error normality-assumption

6

Как бы вы объяснили разницу между корреляцией и ковариацией?

В продолжение этого вопроса: Как бы вы объяснили ковариацию тому, кто понимает только среднее? , который касается вопроса об объяснении ковариации для непрофессионала, поднял аналогичный вопрос в моей голове. Как объяснить статистику-новичку разницу между ковариацией и корреляцией ? Кажется, что оба ссылаются на изменение в одной переменной, связанной с другой …

109 correlation covariance

10

Почему распределение Коши не имеет значения?

Из функции плотности распределения мы можем определить среднее значение (= 0) для распределения Коши, как показано на графике ниже. Но почему мы говорим, что распределение Коши не имеет значения?

109 distributions mathematical-statistics mean pdf cauchy

5

Как работает машина опорных векторов (SVM)?

Как работает машина опорных векторов (SVM) и чем она отличается от других линейных классификаторов, таких как линейный персептрон , линейный дискриминантный анализ или логистическая регрессия ? * (* Я имею в виду основные мотивы для алгоритма, стратегии оптимизации, возможности обобщения и сложность во время выполнения )

108 machine-learning classification svm statistical-learning

15

Результаты выборов в США 2016: что пошло не так с моделями прогнозирования?

Сначала это был Brexit , теперь выборы в США. Многие модельные прогнозы были отклонены с большой разницей, и есть ли уроки, которые нужно здесь извлечь? Вчера в 16:00 по тихоокеанскому времени рынки ставок по-прежнему предпочитали Хиллари 4: 1. Я полагаю, что рынки ставок с реальными деньгами на линии должны выступать …

108 predictive-models ensemble confounding

4

Что такое правило .632+ в начальной загрузке?

Здесь @gung ссылается на правило .632+. Быстрый поиск в Google не дает простого для понимания ответа о том, что означает это правило и для какой цели оно используется. Кто-нибудь, пожалуйста, проясните правило .632+?

107 bootstrap

6

Существует ли интуитивная интерпретация для матрицы данных ?

Для данной матрицы данных (с переменными в столбцах и точками данных в строках) кажется, что играет важную роль в статистике. Например, это важная часть аналитического решения обычных наименьших квадратов. Или, для PCA, его собственные векторы являются основными компонентами данных.AAAATAATAA^TA Я понимаю, как рассчитать , но мне было интересно, есть ли …

107 matrix covariance-matrix correlation-matrix

5

Какие навыки необходимы для проведения крупномасштабного статистического анализа?

Многие статистические работы требуют опыта работы с крупномасштабными данными. Какие виды статистических и вычислительных навыков понадобятся для работы с большими наборами данных. Например, как насчет построения регрессионных моделей с учетом набора данных с 10 миллионами выборок?

107 regression machine-learning multivariate-analysis large-data

21

Какой реальный пример «переоснащения»?

Я вроде понимаю, что означает «переоснащение», но мне нужна помощь, чтобы найти пример из реальной жизни, который относится к переоснащению.

107 overfitting

7

Почему точность не является наилучшей мерой для оценки моделей классификации?

Это общий вопрос, который косвенно задавался здесь несколько раз, но в нем нет ни одного авторитетного ответа. Было бы здорово иметь подробный ответ на этот вопрос для справки. Точность , доля правильных классификаций среди всех классификаций, является очень простой и очень «интуитивно понятной» мерой, однако она может быть плохой мерой …

107 machine-learning classification accuracy model-evaluation scoring-rules

6

Что означает свертка 1x1 в нейронной сети?

В настоящее время я занимаюсь учебником по углубленному изучению Udacity. В уроке 3 они говорят о свертке 1x1. Эта свертка 1x1 используется в начальном модуле Google. У меня проблемы с пониманием, что такое свертка 1x1. Я также видел этот пост от Янн Лекун. Может ли кто-нибудь любезно объяснить это мне?

106 neural-networks deep-learning convolution conv-neural-network