Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных

28
Осмысление анализа главных компонент, собственных векторов и собственных значений
На сегодняшнем занятии по распознаванию образов мой профессор говорил о PCA, собственных векторах и собственных значениях. Я понял математику этого. Если меня попросят найти собственные значения и т.д., я сделаю это правильно, как машина. Но я этого не поняла . Я не понял цели этого. Я не чувствовал этого. Я …

11
Как выбрать количество скрытых слоев и узлов в нейронной сети с прямой связью?
Существует ли стандартный и общепринятый метод выбора количества слоев и количества узлов в каждом слое в нейронной сети с прямой связью? Я заинтересован в автоматизированных способах построения нейронных сетей.

10
В чем разница между «вероятностью» и «вероятностью»?
На странице википедии утверждается, что вероятность и вероятность - это разные понятия. На нетехническом языке «правдоподобие» обычно является синонимом «вероятности», но при статистическом использовании существует четкое различие в перспективе: число, которое является вероятностью некоторых наблюдаемых результатов при наборе значений параметров, рассматривается как вероятность набора значений параметров с учетом наблюдаемых результатов. …

11
Какая интуиция стоит за бета-дистрибутивом?
Отказ от ответственности: я не статистика, а инженер-программист. Большая часть моих знаний в области статистики основана на самообразовании, поэтому у меня все еще есть много пробелов в понимании концепций, которые могут показаться здесь банальными для других людей. Поэтому я был бы очень благодарен, если бы ответы включали менее конкретные термины …

11
В чем разница между набором тестов и набором валидации?
Я нахожу это странным, когда использую набор инструментов нейронной сети в Matlab. Он разделил необработанные данные на три части: Обучающий набор проверочный набор тестовый набор Я заметил, что во многих алгоритмах обучения или обучения данные часто делятся на 2 части: тренировочный набор и тестовый набор. Мои вопросы: В чем разница …

20
Две культуры: статистика против машинного обучения?
В прошлом году я прочитал запись в блоге Брендана О'Коннора под названием «Статистика против машинного обучения, сражайтесь!» что обсудили некоторые различия между этими двумя областями. Эндрю Гельман положительно отреагировал на это : Саймон Бломберг: Из пакета R's fortunes: перефразирующе: «машинное обучение - это статистика без всякой проверки моделей и предположений». …

22
Зачем возводить в квадрат разницу, а не принимать абсолютное значение в стандартном отклонении?
В определении стандартного отклонения, почему мы должны возвести в квадрат разницу от среднего, чтобы получить среднее значение (E) и вернуть квадратный корень в конце? Разве мы не можем просто взять абсолютное значение разницы вместо этого и получить ожидаемое значение (среднее) из них, и не будет ли это также показывать изменение …

5
Как понять недостатки К-средних
K-means - широко используемый метод в кластерном анализе. В моем понимании, этот метод НЕ требует ЛЮБЫХ предположений, т. Е. Дает мне набор данных и заранее определенное количество кластеров, k, и я просто применяю этот алгоритм, который минимизирует сумму квадратов ошибок (SSE), в квадрате внутри кластера ошибка. Таким образом, k-means - …

25
Python как инструмент статистики
Многие люди используют основной инструмент, такой как Excel или другую электронную таблицу, SPSS, Stata или R, для своих статистических нужд. Они могут обратиться к какому-то конкретному пакету для очень особых нужд, но многое можно сделать с помощью простой электронной таблицы или пакета общей статистики или среды программирования статистики. Мне всегда …
355 r  spss  stata  python 

3
Отношения между СВД и СПС. Как использовать SVD для выполнения PCA?
Анализ главных компонент (PCA) обычно объясняется с помощью собственного разложения ковариационной матрицы. Тем не менее, он также может быть выполнен с помощью сингулярного разложения (SVD) матриц данных XИкс\mathbf X . Как это работает? Какова связь между этими двумя подходами? Какая связь между СВД и СПС? Или, другими словами, как использовать …



11
Объяснение мирянам, почему работает самозагрузка
Недавно я использовал начальную загрузку для оценки доверительных интервалов для проекта. Кто-то, кто мало знает о статистике, недавно попросил меня объяснить, почему работает самозагрузка, т. Е. Почему повторная выборка одной и той же выборки снова и снова дает хорошие результаты. Я понял, что хотя я потратил много времени, чтобы понять, …

18
Что произойдет, если переменные объяснения и ответа отсортированы независимо перед регрессией?
Предположим, у нас есть набор данных с точками. Мы хотим выполнить линейную регрессию, но сначала мы сортируем значения и независимо друг от друга, формируя набор данных . Есть ли какая-либо значимая интерпретация регрессии в новом наборе данных? У этого есть имя?n X i Y i ( X i , Y …

10
Разница между логитовой и пробитной моделями
В чем разница между моделью Logit и Probit ? Мне больше интересно знать, когда использовать логистическую регрессию, а когда использовать Probit. Если есть какая-либо литература, которая определяет это, используя R , это также было бы полезно.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.