Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных

3
Какой хороший способ использовать R для создания диаграммы рассеяния, которая разделяет данные по обработке?
Locked . Этот вопрос и его ответы заблокированы, потому что вопрос не по теме, но имеет историческое значение. В настоящее время он не принимает новые ответы или взаимодействия. Я очень плохо знаком с R и статистикой в ​​целом, но мне нужно составить график рассеяния, который, я думаю, может быть за …

2
Каковы предположения об отрицательной биномиальной регрессии?
Этот вопрос был перенесен из Математического стека обмена, потому что на него можно ответить по перекрестной проверке. Мигрировал 6 лет назад . Я работаю с большим набором данных (конфиденциально, поэтому я не могу поделиться слишком много), и пришел к выводу, что отрицательный биномиальный регресс будет необходим. Я никогда не проводил …

3
Как строго определить вероятность?
Вероятность может быть определена несколькими способами, например: функция LLL из Θ × X,Θ×X\Theta\times{\cal X} которая отображает в т.е. .(θ,x)(θ,x)(\theta,x)L(θ∣x)L(θ∣x)L(\theta \mid x)L:Θ×X→RL:Θ×X→RL:\Theta\times{\cal X} \rightarrow \mathbb{R} случайная функцияL(⋅∣X)L(⋅∣X)L(\cdot \mid X) мы также можем учитывать, что вероятность - это только «наблюдаемая» вероятность L ( ⋅ | х набл )L(⋅∣xobs)L(\cdot \mid x^{\text{obs}}) на практике …

8
Какие теории должен знать каждый статистик?
Locked . Этот вопрос и его ответы заблокированы, потому что вопрос не по теме, но имеет историческое значение. В настоящее время он не принимает новые ответы или взаимодействия. Я думаю об этом с очень простой точки зрения минимальных требований. Каковы основные теории, которые отраслевой (не академический) статистик должен знать, понимать …

9
В чем разница между оценщиком и статистикой?
Я узнал, что статистика - это атрибут, который вы можете получить из выборок. Взяв множество выборок одинакового размера, рассчитав этот атрибут для всех из них и построив график в формате PDF, мы получим распределение соответствующего атрибута или распределение соответствующей статистики. Я также слышал, что статистика делается для оценки, как эти …

4
Проверка, имеют ли два образца Пуассона одинаковое среднее
Это элементарный вопрос, но я не смог найти ответ. У меня есть два измерения: n1 события во время t1 и n2 события во время t2, оба произведенные (скажем) пуассоновскими процессами с возможно различными значениями лямбда. Это на самом деле из новостной статьи, которая, по сути, утверждает, что, поскольку что они …

4
Оптимизация для кривых Precision-Recall при дисбалансе класса
У меня есть задача классификации, где у меня есть несколько предикторов (один из которых является наиболее информативным), и я использую модель MARS для построения моего классификатора (меня интересует любая простая модель, и использование glms для иллюстративных целей будет тоже хорошо). Теперь у меня огромный дисбаланс классов в данных обучения (около …

2
Интерпретация болтов в анализе главных компонентов
Я наткнулся на этот хороший учебник: Руководство по статистическому анализу с использованием R. Глава 13. Анализ основных компонентов: Олимпийский гепатлон о том, как делать PCA на языке R. Я не понимаю интерпретацию рисунка 13.3: Итак, я строю первый собственный вектор против второго собственного вектора. Что это значит? Предположим, что собственное …

3
Насколько хорошо R масштабируется для текстовых задач классификации? [закрыто]
Закрыто. Этот вопрос не по теме . В настоящее время не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыт 10 месяцев назад . Я пытаюсь ускорить работу с R. Я в конечном итоге хочу использовать библиотеки R для классификации текста. Мне было просто …

2
В чем разница между критерием нормальности Шапиро-Уилка и критерием нормальности Колмогорова-Смирнова?
В чем разница между критерием нормальности Шапиро-Уилка и критерием нормальности Колмогорова-Смирнова? Когда результаты этих двух методов будут отличаться?

3
Визуализация пересечений множества множеств
Есть ли модель визуализации, которая хороша для отображения пересечения многих множеств? Я думаю что-то вроде диаграмм Венна, но это может как-то подойти для большего числа наборов, таких как 10 или более. Википедия показывает некоторые диаграммы Венна с более высокими наборами, но даже диаграммы с четырьмя наборами - это много, что …

6
Когда доверительные интервалы полезны?
Если я правильно понимаю, доверительный интервал параметра - это интервал, построенный методом, который дает интервалы, содержащие истинное значение для определенной доли выборок. Таким образом, «достоверность» относится к методу, а не к интервалу, который я вычисляю из конкретной выборки. Как пользователь статистики, я всегда чувствовал себя обманутым, поскольку пространство всех выборок …

6
Оценка биномиального доверительного интервала - почему он не симметричен?
Я использовал следующий r-код для оценки доверительных интервалов биномиальной пропорции, потому что я понимаю, что он заменяет «расчет мощности» при проектировании кривых рабочих характеристик приемника, рассматривающих обнаружение заболеваний в популяции. n составляет 150, и мы полагаем, что заболеваемость среди населения составляет 25%. Я рассчитал значения для чувствительности 75% и специфичности …

1
Как центрирование влияет на PCA (для SVD и собственного разложения)?
Какое значение имеет центрирование (или де-смысл) ваших данных для PCA? Я слышал, что это облегчает математику или препятствует доминированию переменных на первом компьютере, но я чувствую, что пока не смог твердо понять концепцию. Например, главный ответ здесь. Как центрирование данных избавляет от перехвата в регрессии и PCA? описывает, как не …
30 r  pca  svd  eigenvalues  centering 

6
Разница между байесовской сетью, нейронной сетью, деревом решений и сетями Петри
В чем разница между нейронной сетью , байесовской сетью , деревом решений и сетями Петри , хотя все они являются графическими моделями и визуально отображают причинно-следственную связь.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.