Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных

6
Модель для прогнозирования количества просмотров Youtube стиля Gangnam
Музыкальный клип PSY "Gangnam style" популярен, и спустя немногим более 2 месяцев его смотрят около 540 миллионов человек. Я узнал об этом от моих детей в возрасте до обеда на прошлой неделе, и вскоре дискуссия пошла в направлении того, можно ли сделать какое-то предсказание, сколько зрителей будет через 10-12 дней …
73 modeling  web 


1
Как простая модель логистической регрессии достигает 92% точности классификации по MNIST?
Несмотря на то, что все изображения в наборе данных MNIST центрированы с одинаковым масштабом и обращены вверх без поворотов, у них есть существенный разброс рукописного текста, который удивляет меня, как линейная модель достигает такой высокой точности классификации. Насколько я могу визуализировать, учитывая значительные различия в почерке, цифры должны быть линейно …

8
Как вычислить точность / отзыв для классификации мультикласса и мультиметки?
Мне интересно, как рассчитать точность и вспомнить меры для мультиклассовой классификации с несколькими метками, то есть классификации, где существует более двух меток, и где каждый экземпляр может иметь несколько меток?

7
Эмпирические правила для минимального размера выборки для множественной регрессии
В рамках предложения по исследованию социальных наук мне был задан следующий вопрос: Я всегда использовал 100 + m (где m - количество предикторов) при определении минимального размера выборки для множественной регрессии. Это уместно? Я часто получаю похожие вопросы, часто с разными правилами. Я также очень много читал такие практические правила …

14
Когда (если вообще когда-либо) подход с частыми подходами существенно лучше, чем байесовский?
Справочная информация : у меня нет официальной подготовки по байесовской статистике (хотя я очень заинтересован в получении дополнительной информации), но я знаю достаточно - я думаю - чтобы понять суть, почему многие считают, что они предпочтительнее, чем статистика Frequentist. Даже магистранты в классе вводной статистики (по общественным наукам), который я …

2
Решение для параметров регрессии в закрытом виде против градиентного спуска
В курсе машинного обучения Эндрю Нг он знакомит с линейной регрессией и логистической регрессией и показывает, как подобрать параметры модели с использованием градиентного спуска и метода Ньютона. Я знаю, что градиентный спуск может быть полезен в некоторых приложениях машинного обучения (например, обратное распространение), но в более общем случае есть какая-либо …

7
Евклидово расстояние обычно не хорошо для разреженных данных?
Я где-то видел, что классические расстояния (например, евклидово расстояние) становятся слабо дискриминирующими, когда у нас имеются многомерные и разреженные данные. Почему? У вас есть пример двух разреженных векторов данных, где евклидово расстояние не работает хорошо? В этом случае какое сходство мы должны использовать?

4
Связь между пуассоном и экспоненциальным распределением
Время ожидания для распределения Пуассона является экспоненциальным распределением с параметром лямбда. Но я этого не понимаю. Например, Пуассон моделирует количество прибывших за единицу времени. Как это связано с экспоненциальным распределением? Допустим, вероятность k прибытий в единицу времени равна P (k) (смоделирована по Пуассону), а вероятность k + 1 равна P …

10
Каков полный список обычных предположений для линейной регрессии?
Каковы обычные предположения для линейной регрессии? Они включают в себя: линейная зависимость между независимой и зависимой переменной независимые ошибки нормальное распределение ошибок гомоскедастичность Есть ли другие?

13
Какова роль логарифма в энтропии Шеннона?
Энтропия Шеннона является отрицательной суммой вероятностей каждого результата, умноженной на логарифм вероятностей для каждого результата. Какой цели служит логарифм в этом уравнении? Интуитивно понятный или визуальный ответ (в отличие от глубоко математического ответа) получит бонусные баллы!

2
Почему регрессия хребта называется «хребет», зачем она нужна и что происходит, когда уходит в бесконечность?
Оценка коэффициента регрессии хребта - это значения, которые минимизируютβ^Rβ^R\hat{\beta}^R RSS+λ∑j=1pβ2j.RSS+λ∑j=1pβj2. \text{RSS} + \lambda \sum_{j=1}^p\beta_j^2. Мои вопросы: Если , то мы видим, что приведенное выше выражение сводится к обычному RSS. Что делать, если ? Я не понимаю из учебника объяснение поведения коэффициентов.λ=0λ=0\lambda = 0λ→∞λ→∞\lambda \to \infty Чтобы помочь понять концепцию, лежащую …

8
Навыки трудно найти в машинного обучения?
Кажется, что интеллектуальный анализ данных и машинное обучение стали настолько популярными, что теперь почти каждый студент CS знает о классификаторах, кластеризации, статистической НЛП ... и т. Д. Таким образом, кажется, что в настоящее время найти майнеры данных не сложно. Мой вопрос: какие навыки может извлечь майнер, который отличает его от …



Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.