Статистика и большие данные

28

Осмысление анализа главных компонент, собственных векторов и собственных значений

На сегодняшнем занятии по распознаванию образов мой профессор говорил о PCA, собственных векторах и собственных значениях. Я понял математику этого. Если меня попросят найти собственные значения и т.д., я сделаю это правильно, как машина. Но я этого не поняла . Я не понял цели этого. Я не чувствовал этого. Я …

976 pca intuition eigenvalues canonical-question

11

Как выбрать количество скрытых слоев и узлов в нейронной сети с прямой связью?

Существует ли стандартный и общепринятый метод выбора количества слоев и количества узлов в каждом слое в нейронной сети с прямой связью? Я заинтересован в автоматизированных способах построения нейронных сетей.

542 model-selection neural-networks

10

В чем разница между «вероятностью» и «вероятностью»?

На странице википедии утверждается, что вероятность и вероятность - это разные понятия. На нетехническом языке «правдоподобие» обычно является синонимом «вероятности», но при статистическом использовании существует четкое различие в перспективе: число, которое является вероятностью некоторых наблюдаемых результатов при наборе значений параметров, рассматривается как вероятность набора значений параметров с учетом наблюдаемых результатов. …

474 probability likelihood

11

Какая интуиция стоит за бета-дистрибутивом?

Отказ от ответственности: я не статистика, а инженер-программист. Большая часть моих знаний в области статистики основана на самообразовании, поэтому у меня все еще есть много пробелов в понимании концепций, которые могут показаться здесь банальными для других людей. Поэтому я был бы очень благодарен, если бы ответы включали менее конкретные термины …

438 distributions beta-distribution intuition beta-binomial

11

В чем разница между набором тестов и набором валидации?

Я нахожу это странным, когда использую набор инструментов нейронной сети в Matlab. Он разделил необработанные данные на три части: Обучающий набор проверочный набор тестовый набор Я заметил, что во многих алгоритмах обучения или обучения данные часто делятся на 2 части: тренировочный набор и тестовый набор. Мои вопросы: В чем разница …

431 machine-learning validation

20

Две культуры: статистика против машинного обучения?

В прошлом году я прочитал запись в блоге Брендана О'Коннора под названием «Статистика против машинного обучения, сражайтесь!» что обсудили некоторые различия между этими двумя областями. Эндрю Гельман положительно отреагировал на это : Саймон Бломберг: Из пакета R's fortunes: перефразирующе: «машинное обучение - это статистика без всякой проверки моделей и предположений». …

420 machine-learning pac-learning

22

Зачем возводить в квадрат разницу, а не принимать абсолютное значение в стандартном отклонении?

В определении стандартного отклонения, почему мы должны возвести в квадрат разницу от среднего, чтобы получить среднее значение (E) и вернуть квадратный корень в конце? Разве мы не можем просто взять абсолютное значение разницы вместо этого и получить ожидаемое значение (среднее) из них, и не будет ли это также показывать изменение …

408 standard-deviation definition

5

Как понять недостатки К-средних

K-means - широко используемый метод в кластерном анализе. В моем понимании, этот метод НЕ требует ЛЮБЫХ предположений, т. Е. Дает мне набор данных и заранее определенное количество кластеров, k, и я просто применяю этот алгоритм, который минимизирует сумму квадратов ошибок (SSE), в квадрате внутри кластера ошибка. Таким образом, k-means - …

365 machine-learning clustering data-mining k-means

25

Python как инструмент статистики

Многие люди используют основной инструмент, такой как Excel или другую электронную таблицу, SPSS, Stata или R, для своих статистических нужд. Они могут обратиться к какому-то конкретному пакету для очень особых нужд, но многое можно сделать с помощью простой электронной таблицы или пакета общей статистики или среды программирования статистики. Мне всегда …

355 r spss stata python

3

Отношения между СВД и СПС. Как использовать SVD для выполнения PCA?

Анализ главных компонент (PCA) обычно объясняется с помощью собственного разложения ковариационной матрицы. Тем не менее, он также может быть выполнен с помощью сингулярного разложения (SVD) матриц данных XИкс\mathbf X . Как это работает? Какова связь между этими двумя подходами? Какая связь между СВД и СПС? Или, другими словами, как использовать …

352 pca dimensionality-reduction matrix svd

30

Какой твой любимый мультфильм «анализа данных»?

Это один из моих любимых: Одна запись за ответ. (Это вопрос «Переполнения стека». Какой ваш любимый мультфильм «программист»? ) PS Не делайте хотлинк мультфильма без разрешения сайта, пожалуйста.

343 humor

15

Байесовские и частые рассуждения на простом английском

Как бы вы описали на простом английском языке характеристики, которые отличают байесовские и частые рассуждения?

341 bayesian frequentist

11

Объяснение мирянам, почему работает самозагрузка

Недавно я использовал начальную загрузку для оценки доверительных интервалов для проекта. Кто-то, кто мало знает о статистике, недавно попросил меня объяснить, почему работает самозагрузка, т. Е. Почему повторная выборка одной и той же выборки снова и снова дает хорошие результаты. Я понял, что хотя я потратил много времени, чтобы понять, …

326 bootstrap communication

18

Что произойдет, если переменные объяснения и ответа отсортированы независимо перед регрессией?

Предположим, у нас есть набор данных с точками. Мы хотим выполнить линейную регрессию, но сначала мы сортируем значения и независимо друг от друга, формируя набор данных . Есть ли какая-либо значимая интерпретация регрессии в новом наборе данных? У этого есть имя?n X i Y i ( X i , Y …

302 regression correlation

10

Разница между логитовой и пробитной моделями

В чем разница между моделью Logit и Probit ? Мне больше интересно знать, когда использовать логистическую регрессию, а когда использовать Probit. Если есть какая-либо литература, которая определяет это, используя R , это также было бы полезно.

299 r generalized-linear-model logistic probit link-function