Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных

5
Примеры байесовского и частотного подхода, дающего разные ответы
Примечание: Я нахожусь в курсе философских различий между Байесом и частотной статистикой. Например, «какова вероятность того, что монета на столе - это головы» не имеет смысла в статистике частых случаев, поскольку у нее уже есть приземленные головы или хвосты - в этом нет ничего вероятностного. Таким образом, вопрос не имеет …

3
Использование анализа основных компонентов (PCA) для выбора функций
Я новичок в выборе функций, и мне было интересно, как вы будете использовать PCA для выбора функций. Вычисляет ли PCA относительную оценку для каждой входной переменной, которую можно использовать для фильтрации неинформативных входных переменных? По сути, я хочу иметь возможность упорядочивать исходные элементы данных по отклонениям или количеству содержащейся информации.

8
Актуальна ли выборка во время «больших данных»?
Или тем более "будет"? Большие данные делают статистику и релевантные знания еще более важными, но, похоже, не соответствуют теории выборки. Я видел эту шумиху вокруг «Больших данных» и не могу не задаться вопросом, «почему», я бы хотел все проанализировать ? Разве не было причины, по которой «Теория выборки» была разработана …

10
Как определиться с правильным количеством кластеров?
Мы находим центры кластеров и присваиваем точки k различным блокам кластеров в кластеризации k-средних, которая является очень хорошо известным алгоритмом и встречается почти в каждом пакете машинного обучения в сети. Но пропущенная и самая важная часть, на мой взгляд, это выбор правильного k. Какова лучшая ценность для этого? И что …

2
Нужны ли нам глобальные тесты перед специальными тестами?
Я часто слышу, что специальные тесты после ANOVA можно использовать только в том случае, если сам ANOVA был значительным. Тем не менее, после специальных испытаний корректируют чтобы поддерживать общий уровень ошибок типа I на уровне 5%, не так ли?ppp Итак, зачем нам сначала нужен глобальный тест? Если нам не нужен …

9
Справочник по линейной алгебре применительно к статистике?
Я немного работал в R и сталкивался с такими вещами, как PCA, SVD, QR-разложения и многими такими результатами линейной алгебры (при проверке оценки взвешенных регрессий и т. Д.), Поэтому я хотел знать, есть ли у кого-нибудь рекомендации относительно хорошего всеобъемлющая книга по линейной алгебре, которая не слишком теоретическая, но математически …


6
Введение в статистику для математиков
Что такое хорошее введение в статистику для математика, который уже хорошо разбирается в вероятности? У меня есть две разные причины для того, чтобы спрашивать, что может привести к различным предложениям: Я хотел бы лучше понять мотивацию статистики, стоящую за многими проблемами, рассмотренными вероятностниками. Я хотел бы знать, как лучше интерпретировать …
54 references 

7
Лучший алгоритм PCA для огромного количества функций (> 10K)?
Ранее я спрашивал об этом в StackOverflow, но кажется, что это может быть более уместным, учитывая, что он не получил никаких ответов по SO. Это своего рода на пересечении статистики и программирования. Мне нужно написать код для PCA (Анализ основных компонентов). Я просмотрел известные алгоритмы и реализовал этот , который, …

5
Является ли корректной корректировка значений p в множественной регрессии для множественных сравнений?
Предположим, что вы - исследователь в области социальных наук / эконометрик и пытаетесь найти соответствующие предикторы спроса на услугу. У вас есть 2 итоговые / зависимые переменные, описывающие спрос (используя сервис да / нет и количество случаев). У вас есть 10 предикторов / независимых переменных, которые теоретически могут объяснить спрос …

19
Математическая статистика Видео
Вопрос ранее искал рекомендации для учебников по математической статистике Кто-нибудь знает какие-нибудь хорошие онлайн видео лекции по математической статистике ? Самые близкие, которые я нашел: Машинное обучение эконометрия ОБНОВЛЕНИЕ: Ряд предложений, упомянутых ниже, являются хорошими статистическими видео типа 101. Однако мне особенно интересно, есть ли какие-либо видео, которые обеспечивают строгое …

3
Многомерная линейная регрессия против нейронной сети?
Похоже, что в некоторых случаях можно получить результаты, аналогичные нейронной сети с многомерной линейной регрессией, а многомерная линейная регрессия супер быстрая и простая. При каких обстоятельствах нейронные сети могут давать лучшие результаты, чем многомерная линейная регрессия?

5
Каково интуитивное объяснение того, как PCA превращается из геометрической задачи (с расстояниями) в задачу линейной алгебры (с собственными векторами)?
Я много читал о PCA, включая различные учебники и вопросы (такие как этот , этот , этот и этот ). Геометрическая проблема, которую пытается оптимизировать PCA, мне ясна: PCA пытается найти первый главный компонент, сводя к минимуму ошибку реконструкции (проекции), которая одновременно максимизирует дисперсию проецируемых данных. Когда я впервые прочитал …

10
Удерживающая проверка против перекрестной проверки
Мне кажется, что проверка не нужна. То есть разделение исходного набора данных на две части (обучение и тестирование) и использование результатов тестирования в качестве обобщающей меры несколько бесполезны. K-кратная перекрестная проверка, кажется, дает лучшие приближения к обобщению (поскольку она обучает и проверяет каждую точку). Итак, почему мы должны использовать стандартную …

4
Ковариантность и независимость?
Я прочитал из своего учебника, что не гарантирует, что X и Y независимы. Но если они независимы, их ковариация должна быть 0. Я пока не мог придумать ни одного правильного примера; кто-то может предоставить один?cov(X,Y)=0cov(X,Y)=0\text{cov}(X,Y)=0

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.