Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных


4
Разница между случайным лесом и чрезвычайно рандомизированными деревьями
Я понял, что Случайный Лес и Чрезвычайно Рандомизированные Деревья отличаются в том смысле, что расщепления деревьев в Случайном Лесу являются детерминированными, тогда как они случайны в случае Чрезвычайно Рандомизированных Деревьев (чтобы быть более точным, следующее разделение является лучшим разделением среди случайных равномерных расщеплений в выбранных переменных для текущего дерева). Но …

5
Оптимизированные реализации алгоритма Random Forest
Я заметил , что есть несколько реализаций случайного леса , такие как ALGLIB, вафли и некоторые R пакеты , например randomForest. Кто-нибудь может сказать мне, высоко ли оптимизированы эти библиотеки? Являются ли они в основном эквивалентными случайным лесам, как подробно описано в «Элементах статистического обучения», или добавлено много дополнительных уловок? …

4
Почему естественные изменения в журнале являются процентными изменениями? Как насчет журналов, которые делают это так?
Может кто-нибудь объяснить, как свойства журналов делают это таким образом, чтобы вы могли вести линейные регрессии, где коэффициенты интерпретируются как процентные изменения?

7
Нейронные сети ссылок (учебники, онлайн-курсы) для начинающих
Я хочу изучать нейронные сети. Я вычислительный лингвист. Я знаю подходы статистического машинного обучения и умею кодировать на Python. Я хочу начать с его концепций и знаю одну или две популярные модели, которые могут быть полезны с точки зрения компьютерной лингвистики. Я просмотрел сеть для справки и нашел несколько книг …

13
Может ли машинное обучение расшифровать хэши SHA256?
У меня есть хэш-код SHA256 из 64 символов. Я надеюсь обучить модель, которая может предсказать, будет ли открытый текст, используемый для генерации хеша, начинаться с 1 или нет. Независимо от того, является ли это «возможным», какой алгоритм будет наилучшим подходом? Мои первые мысли: Создайте большую выборку хэшей, начинающуюся с 1, …

3
Являются ли CDF более фундаментальными, чем PDF?
Мой проф проф в основном сказал, если дать один из следующих трех, вы можете найти два других: Кумулятивная функция распределения Функция генерирования момента Функция плотности вероятности Но мой профессор по эконометрике сказал, что CDF являются более фундаментальными, чем PDF, потому что есть примеры, где вы можете иметь CDF, но PDF …
43 probability  pdf  cdf  mgf 

3
Softmax слой в нейронной сети
Я пытаюсь добавить слой softmax в нейронную сеть, обученную обратному распространению, поэтому я пытаюсь вычислить его градиент. Выходные данные softmax: где - номер выходного нейрона.hj=ezj∑ezihj=ezj∑ezih_j = \frac{e^{z_j}}{\sum{e^{z_i}}}jjj Если я получу это, то я получу ∂hj∂zj=hj(1−hj)∂hj∂zj=hj(1−hj)\frac{\partial{h_j}}{\partial{z_j}}=h_j(1-h_j) Похоже на логистическую регрессию. Однако это неправильно, так как моя проверка градиента не удалась. Что …

2
Случайные лесные предположения
Я новичок в случайном лесу, поэтому я все еще борюсь с некоторыми основными понятиями. В линейной регрессии мы предполагаем независимые наблюдения, постоянную дисперсию ... Какие основные предположения / гипотезы мы делаем, когда используем случайный лес? Каковы основные различия между случайным лесом и наивным байесом с точки зрения модельных предположений?

5
Что по существу означают «эндогенность» и «экзогенность»?
Я понимаю, что основное определение эндогенности состоит в том, что не выполняется, но что это означает в смысле реального мира? Я прочитал статью в Википедии с примером спроса и предложения, пытаясь понять это, но это не помогло. Я слышал другое описание эндогенного и экзогенного, как находящегося внутри системы и находящегося …

6
Особенности классификации временных рядов
Я рассматриваю проблему (мультиклассовой) классификации на основе временных рядов переменной длины , то есть найти функцию через глобальное представление серии времени с помощью набора выбранных функций фиксированного размера зависящего от , а затем используйте стандартные методы классификации для этого набора функций. Я не заинтересован в прогнозировании, то есть в прогнозированииf …

4
Сборник методов перекрестной проверки
Мне интересно, знает ли кто-нибудь сборник методов перекрестной проверки с обсуждением различий между ними и руководством о том, когда использовать каждый из них. В Википедии есть список наиболее распространенных техник, но мне любопытно, есть ли другие техники и есть ли таксономии для них. Например, я просто наткнулся на библиотеку, которая …

5
Поддельные равномерные случайные числа: более равномерно распределены, чем истинные однородные данные
Я ищу способ генерирования случайных чисел, которые кажутся равномерно распределенными - и каждый тест покажет, что они равномерно распределены - за исключением того, что они распределены более равномерно, чем истинные однородные данные . Проблема, с которой я сталкиваюсь с «настоящими» униформами, состоит в том, что они иногда будут группироваться. Этот …

9
Крошечные (реальные) наборы данных для примеров в классе?
Преподавая уроки начального уровня, учителя, которых я знаю, склонны придумывать цифры и рассказы, чтобы проиллюстрировать метод, которому они учат. Я бы предпочел рассказать реальную историю с реальными числами. Однако эти истории должны относиться к очень крошечному набору данных, который позволяет выполнять ручные вычисления. Любые предложения по таким наборам данных будут …

3
Просмотр статистики в бумагах
Для некоторых из нас судейство документов является частью работы. При рассмотрении статей по статистической методологии, я думаю, что советы из других предметных областей довольно полезны, например, информатика и математика . Этот вопрос касается рассмотрения более прикладных статистических работ. Под этим я подразумеваю, что статья представлена ​​в нестатистическом / математическом журнале, …
43 journals  referee 

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.