Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных

6
Нужно ли удалять высококоррелированные переменные перед PCA?
Я читаю статью, где автор отказывается от нескольких переменных из-за высокой корреляции с другими переменными, прежде чем делать PCA. Общее количество переменных составляет около 20. Это дает какие-то преимущества? Мне это кажется непосильным, так как PCA должен справиться с этим автоматически.
111 correlation  pca 

4
Оценка приблизительного распределения данных на основе гистограммы
Предположим, я хочу посмотреть, являются ли мои данные экспоненциальными на основе гистограммы (то есть смещены вправо). В зависимости от того, как я сгруппирую или скопирую данные, я могу получить совершенно разные гистограммы. Один из наборов гистограмм, по-видимому, будет экспоненциальным. Другой набор покажет, что данные не являются экспоненциальными. Как сделать так, …

2
Градиентное дерево против случайного леса
Повышение градиентного дерева, предложенное Фридманом, использует деревья решений в качестве базовых учеников. Мне интересно, должны ли мы сделать базовое дерево решений настолько сложным, насколько это возможно (полностью выросло) или проще? Есть ли объяснение выбора? Случайный лес - это еще один метод ансамбля, использующий деревья решений в качестве базовых учащихся. Исходя …

8
Обнаружение данного лица в базе данных изображений лица
Я работаю над небольшим проектом с участием лиц пользователей твиттера через их фотографии в профиле. Проблема, с которой я столкнулся, заключается в том, что после того, как я отфильтрую все, кроме изображений, которые являются четкими портретными фотографиями, небольшой, но значительный процент пользователей Твиттера использует изображение Джастина Бибера в качестве своего …

3
Что если остатки нормально распределены, а у нет?
У меня странный вопрос. Предположим, что у вас есть небольшая выборка, в которой зависимая переменная, которую вы собираетесь анализировать с помощью простой линейной модели, сильно искажена. Таким образом, вы предполагаете, что не является нормально распределенным, потому что это приведет к нормально распределенному . Но когда вы вычисляете график QQ-Normal, есть …

6
Как бы вы объяснили разницу между корреляцией и ковариацией?
В продолжение этого вопроса: Как бы вы объяснили ковариацию тому, кто понимает только среднее? , который касается вопроса об объяснении ковариации для непрофессионала, поднял аналогичный вопрос в моей голове. Как объяснить статистику-новичку разницу между ковариацией и корреляцией ? Кажется, что оба ссылаются на изменение в одной переменной, связанной с другой …

10
Почему распределение Коши не имеет значения?
Из функции плотности распределения мы можем определить среднее значение (= 0) для распределения Коши, как показано на графике ниже. Но почему мы говорим, что распределение Коши не имеет значения?

5
Как работает машина опорных векторов (SVM)?
Как работает машина опорных векторов (SVM) и чем она отличается от других линейных классификаторов, таких как линейный персептрон , линейный дискриминантный анализ или логистическая регрессия ? * (* Я имею в виду основные мотивы для алгоритма, стратегии оптимизации, возможности обобщения и сложность во время выполнения )

15
Результаты выборов в США 2016: что пошло не так с моделями прогнозирования?
Сначала это был Brexit , теперь выборы в США. Многие модельные прогнозы были отклонены с большой разницей, и есть ли уроки, которые нужно здесь извлечь? Вчера в 16:00 по тихоокеанскому времени рынки ставок по-прежнему предпочитали Хиллари 4: 1. Я полагаю, что рынки ставок с реальными деньгами на линии должны выступать …

4
Что такое правило .632+ в начальной загрузке?
Здесь @gung ссылается на правило .632+. Быстрый поиск в Google не дает простого для понимания ответа о том, что означает это правило и для какой цели оно используется. Кто-нибудь, пожалуйста, проясните правило .632+?
107 bootstrap 

6
Существует ли интуитивная интерпретация для матрицы данных ?
Для данной матрицы данных (с переменными в столбцах и точками данных в строках) кажется, что играет важную роль в статистике. Например, это важная часть аналитического решения обычных наименьших квадратов. Или, для PCA, его собственные векторы являются основными компонентами данных.AAAATAATAA^TA Я понимаю, как рассчитать , но мне было интересно, есть ли …

5
Какие навыки необходимы для проведения крупномасштабного статистического анализа?
Многие статистические работы требуют опыта работы с крупномасштабными данными. Какие виды статистических и вычислительных навыков понадобятся для работы с большими наборами данных. Например, как насчет построения регрессионных моделей с учетом набора данных с 10 миллионами выборок?


7
Почему точность не является наилучшей мерой для оценки моделей классификации?
Это общий вопрос, который косвенно задавался здесь несколько раз, но в нем нет ни одного авторитетного ответа. Было бы здорово иметь подробный ответ на этот вопрос для справки. Точность , доля правильных классификаций среди всех классификаций, является очень простой и очень «интуитивно понятной» мерой, однако она может быть плохой мерой …

6
Что означает свертка 1x1 в нейронной сети?
В настоящее время я занимаюсь учебником по углубленному изучению Udacity. В уроке 3 они говорят о свертке 1x1. Эта свертка 1x1 используется в начальном модуле Google. У меня проблемы с пониманием, что такое свертка 1x1. Я также видел этот пост от Янн Лекун. Может ли кто-нибудь любезно объяснить это мне?

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.