Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных

10
Как ваш любимый дилетант объясняет сложную статистическую концепцию?
Мне действительно нравится слушать простые объяснения сложных проблем. Какая ваша любимая аналогия или анекдот, объясняющий сложную статистическую концепцию? Мое любимое объяснение Мюррея коинтеграции с использованием пьяницы и ее собаки. Мюррей объясняет, как два случайных процесса (странствующий пьяница и ее собака Оливер) могут иметь единичные корни, но все же быть родственными …

4
Откуда происходит в центральной предельной теореме (CLT)?
Очень простая версия центральной ограниченной теоремы, приведенная ниже есть CLT Линдеберга – Леви. Я не понимаю, почему на левой стороне руки есть . А Ляпуновский CLT говорит но почему не \ sqrt {s_n} ? Кто-нибудь скажет мне, что это за факторы, такие как \ sqrt {n} и \ frac {1} …

2
Как интерпретировать glmnet?
Я пытаюсь согласовать многомерную модель линейной регрессии с приблизительно 60 предикторами и 30 наблюдениями, поэтому я использую пакет glmnet для регуляризованной регрессии, потому что p> n. Я просматривал документацию и другие вопросы, но все еще не могу интерпретировать результаты, вот пример кода (с 20 предикторами и 10 наблюдениями для упрощения): …

2
Почему распределение Дирихле является приоритетным для многочленного распределения?
В алгоритме модели темы LDA я видел это предположение. Но я не знаю, почему выбрал дистрибутив Дирихле? Я не знаю, можем ли мы использовать равномерное распределение по многочлену в паре?

4
Как сделать выборку из нормального распределения с известным средним и дисперсией, используя обычный язык программирования?
У меня никогда не было курса по статистике, поэтому я надеюсь, что задаю вопрос здесь. Предположим, у меня есть только две данные, описывающие нормальное распределение: среднее и дисперсия . Я хочу использовать компьютер для случайной выборки из этого дистрибутива, чтобы я уважал эти две статистики.σ 2μμ\muσ2σ2\sigma^2 Совершенно очевидно, что я …

3
Экспериментальные данные, подтверждающие визуализации в стиле Tufte?
Вопрос: Существуют ли экспериментальные данные в поддержку минималистских визуализаций, основанных на данных, в стиле Tufte, по сравнению с визуализированными диаграммой визуализациями, скажем, Найджела Холмса ? Я спросил , как добавить диаграмму-мусор на R участки здесь и ответчики бросили здоровенное количество Снарка на меня. Так что, безусловно, должны быть некоторые экспериментальные …

6
Как квази сопоставить два вектора строк (в R)?
Я не уверен, как это следует называть, поэтому, пожалуйста, поправьте меня, если вы знаете лучший термин. У меня есть два списка. Один из 55 элементов (например, вектор строк), другой из 92. Имена элементов похожи, но не идентичны. Я хочу , чтобы найти лучший кандидат S в 92 списке элементов в …
36 r  text-mining 


4
Что такое инструментальная переменная?
Инструментальные переменные становятся все более распространенными в прикладной экономике и статистике. Для непосвященных, можем ли мы дать некоторые нетехнические ответы на следующие вопросы: Что такое инструментальная переменная? Когда можно использовать инструментальную переменную? Как найти или выбрать инструментальную переменную?

5
Распределение вероятностей для разных вероятностей
Если бы я хотел получить вероятность 9 успехов в 16 испытаниях с вероятностью 0,6 в каждом испытании, я мог бы использовать биномиальное распределение. Что я могу использовать, если каждое из 16 испытаний имеет различную вероятность успеха?

3
Машинное обучение: должен ли я использовать категориальную кросс-энтропию или двоичную кросс-энтропийную потерю для бинарных предсказаний?
Прежде всего, я понял, что если мне нужно выполнить двоичные предсказания, я должен создать как минимум два класса, выполняя горячее кодирование. Это верно? Однако является ли двоичная кросс-энтропия только для предсказаний только с одним классом? Если бы я использовал категориальную кросс-энтропийную потерю, которая обычно встречается в большинстве библиотек (например, TensorFlow), …

5
Функция стоимости нейронной сети невыпуклая?
Функция стоимости нейронной сети равна J(W,b)J(W,b)J(W,b) , и она называется невыпуклой . Я не совсем понимаю, почему это так, поскольку, как я вижу, это очень похоже на функцию стоимости логистической регрессии, верно? Если оно невыпукло, значит, производная 2-го порядка ∂J∂W&lt;0∂J∂W&lt;0\frac{\partial J}{\partial W} < 0, верно? ОБНОВИТЬ Благодаря ответам ниже, а …


5
Почему проблемы регрессии называют проблемами «регрессии»?
Мне просто интересно, почему проблемы регрессии называют проблемами «регрессии». Какая история стоит за именем? Одно определение регрессии: «Рецидив в менее совершенное или развитое состояние».

2
Как нормализовать данные между -1 и 1?
Я видел формулу нормализации min-max, но она нормализует значения между 0 и 1. Как бы я нормализовал мои данные между -1 и 1? В моей матрице данных есть как отрицательные, так и положительные значения.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.