Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных

8
Функция графического обзора данных (сводная) в R
Я уверен, что раньше я сталкивался с подобной функцией в пакете R, но после интенсивного поиска в Google я, кажется, нигде не могу ее найти. Функция, о которой я думаю, создала графическое резюме для заданной ей переменной, создавая вывод с некоторыми графиками (гистограммой и, возможно, графиком с усами) и некоторым …

1
Почему мы используем расхождение Кульбака-Лейблера, а не кросс-энтропию в целевой функции t-SNE?
На мой взгляд, расхождение KL от распределения выборки до истинного распределения - это просто разница между кросс-энтропией и энтропией. Почему мы используем перекрестную энтропию как функцию стоимости во многих моделях машинного обучения, но используем расхождение Кульбака-Лейблера в t-sne? Есть ли разница в скорости обучения?

5
LDA против word2vec
Я пытаюсь понять, в чем сходство скрытого распределения Дирихле и word2vec для вычисления сходства слов. Как я понимаю, LDA отображает слова в вектор вероятностей скрытых тем, в то время как word2vec отображает их в вектор действительных чисел (относительно разложения по сингулярным точкам поточечной взаимной информации, см. О. Леви, Ю. Голдберг, …

4
Репликация «надежного» параметра Stata в R
Я пытался повторить результаты опции Stata robustв R. Я использовал rlmкоманду из пакета MASS, а также команду lmrobиз пакета "robustbase". В обоих случаях результаты сильно отличаются от «надежного» параметра в Stata. Кто-нибудь может предложить что-то в этом контексте? Вот результаты, которые я получил, запустив надежную опцию в Stata: . reg …

5
Является ли минимизация квадратичной ошибки эквивалентной минимизации абсолютной ошибки? Почему квадратичная ошибка более популярна, чем последняя?
Когда мы проводим линейную регрессию для подбора группы точек данных , классический подход минимизирует квадратичную ошибку. Я уже давно озадачен вопросом, будет ли минимизация квадратичной ошибки таким же результатом, как минимизация абсолютной ошибки ? Если нет, то почему минимизировать квадрат ошибки лучше? Есть ли какая-либо причина, кроме «целевая функция дифференцируема»?y=ax+by=ax+by=ax+b(x1,y1),(x2,y2),...,(xn,yn)(x1,y1),(x2,y2),...,(xn,yn)(x_1,y_1),(x_2,y_2),...,(x_n,y_n) …

3
Нужна ли стандартизация перед установкой логистической регрессии?
Мой вопрос заключается в том, нужно ли нам стандартизировать набор данных, чтобы убедиться, что все переменные имеют одинаковую шкалу, между [0,1], до подбора логистической регрессии. Формула: xi−min(xi)max(xi)−min(xi)xi−min(xi)max(xi)−min(xi)\frac{x_i-\min(x_i)}{\max(x_i)-\min(x_i)} В моем наборе данных есть 2 переменные, они описывают одно и то же для двух каналов, но громкость отличается. Скажем, это количество посещений …

3
Эмпирическое обоснование одного стандартного правила ошибки при использовании перекрестной проверки
Существуют ли какие-либо эмпирические исследования, оправдывающие использование единого стандартного правила ошибки в пользу скупости? Очевидно, что это зависит от процесса генерации данных, но все, что анализирует большой массив наборов данных, было бы очень интересно прочитать. «Одно стандартное правило ошибки» применяется при выборе моделей путем перекрестной проверки (или, в более общем …

1
Ранг в R - по убыванию [закрыто]
Я рассчитываю ранжировать данные, которые в некоторых случаях имеют большее значение ранга 1. Я относительно новичок в R, но я не вижу, как я могу изменить этот параметр в функции ранга. x <- c(23,45,12,67,34,89) rank(x) генерирует: [1] 2 4 1 5 3 6 когда я хочу, чтобы это было: [1] …
39 r 

4
Приблизительная статистика порядка для нормальных случайных величин
Существуют ли хорошо известные формулы для статистики порядка некоторых случайных распределений? В частности, статистика первого и последнего порядка нормальной случайной величины, но также следует принять более общий ответ. Изменить: чтобы уточнить, я ищу приближающие формулы, которые могут быть более или менее явно оценены, а не точное интегральное выражение. Например, я …

5
Отрицательные значения для AICc (исправленный информационный критерий Акаике)
Я рассчитал AIC и AICc для сравнения двух общих линейных смешанных моделей; AIC положительны с моделью 1, имеющей более низкий AIC, чем модель 2. Однако оба значения AICc являются отрицательными (модель 1 по-прежнему <модель 2). Допустимо ли использовать и сравнивать отрицательные значения AICc?

1
Какова дисперсия взвешенной смеси двух гауссиан?
Скажем, у меня есть два нормальных распределения A и B со средствами и и и . Я хочу взять взвешенную смесь этих двух распределений, используя веса и где и . Я знаю, что среднее значение этой смеси будет .μ B σ A σ B p q 0 ≤ p ≤ …


3
Почему деревья решений не требуют вычислительных затрат?
В «Введении в статистическое обучение с приложениями в R» авторы пишут, что подгонка дерева решений происходит очень быстро, но для меня это не имеет смысла. Алгоритм должен пройти через каждую функцию и разделить ее всеми возможными способами, чтобы найти оптимальное разбиение. Для числовых объектов с наблюдениями это может привести к …
38 cart 

6
Почему я получаю дерево решений со 100% точностью?
Я получаю 100% точность для своего дерева решений. Что я делаю не так? Это мой код: import pandas as pd import json import numpy as np import sklearn import matplotlib.pyplot as plt data = np.loadtxt("/Users/Nadjla/Downloads/allInteractionsnum.csv", delimiter=',') x = data[0:14] y = data[-1] from sklearn.cross_validation import train_test_split x_train = x[0:2635] x_test …

4
Нужно ли изучать ggplot2 или ggvis?
Нужно ли изучать ggplot2 или ggvis? Я не обязательно хочу изучать оба, если один из них превосходит в любом отношении. Почему сообщество R продолжает создавать новые пакеты с перекрывающимися функциями? В вводном посте не упоминается слово, почему ggvis создан, поскольку сложный пакет для построения графиков ggplot2 уже существует.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.