Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных

17
Кулинарная книга по машинному обучению / справочная карточка / шпаргалка?
Я считаю невероятно полезными такие ресурсы, как Книга вероятностей и статистики и Справочная карта R для интеллектуального анализа данных . Они, очевидно, служат справочной информацией, но также помогают мне организовать свои мысли по теме и получить представление о земле. В: Есть ли что-то подобное этим ресурсам для методов машинного обучения? …

5
Какое маленькое количество должно быть добавлено к x, чтобы избежать взятия нуля?
Я проанализировал свои данные такими, какие они есть. Теперь я хочу посмотреть на мои анализы после регистрации всех переменных. Многие переменные содержат много нулей. Поэтому я добавляю небольшое количество, чтобы избежать взятия нулевого журнала. Пока что я добавил 10 ^ -10, без какого-либо обоснования, просто потому, что я чувствовал, что …

8
Имеет ли смысл когда-либо рассматривать категориальные данные как непрерывные?
Отвечая на этот вопрос о дискретных и непрерывных данных, я уверенно утверждал, что редко имеет смысл рассматривать категориальные данные как непрерывные. На первый взгляд это кажется само собой разумеющимся, но интуиция часто является плохим руководством для статистики, или, по крайней мере, моим. Так что теперь я задаюсь вопросом: это правда? …

2
Байесовская регрессия: как это делается по сравнению со стандартной регрессией?
У меня есть несколько вопросов о байесовской регрессии: Дана стандартная регрессия при . Если я хочу изменить это в байесовскую регрессию, нужно ли мне предварительные распределения для β 0 и β 1 (или это не работает таким образом)?Y= β0+ β1х + εy=β0+β1x+εy = \beta_0 + \beta_1 x + \varepsilonβ0β0\beta_0β1β1\beta_1 В …

3
Когда подходят логарифмические шкалы?
Я читал, что использование логарифмических масштабов при построении графиков / графиков целесообразно в определенных обстоятельствах, например, по оси Y в диаграмме временных рядов. Тем не менее, я не смог найти однозначного объяснения, почему это так, или когда это было бы уместно. Пожалуйста, имейте в виду, что я не статистик, поэтому …

3
Переменные часто корректируются (например, стандартизируются) перед созданием модели - когда это хорошая идея, а когда плохая?
В каких обстоятельствах вы хотите или не хотите масштабировать или стандартизировать переменную до подбора модели? И каковы преимущества / недостатки масштабирования переменной?

3
Почему стандартное отклонение выборки является смещенной оценкой
Согласно статье в Википедии об объективной оценке стандартного отклонения, образец SD s = 1n - 1Σя = 1N( хя- х¯¯¯)2---------------√s=1n−1∑i=1n(xi−x¯)2s = \sqrt{\frac{1}{n-1} \sum_{i=1}^n (x_i - \overline{x})^2} является предвзятой оценкой SD населения. Утверждается, что .Е( с2--√) ≠ E( с2)-----√E(s2)≠E(s2)E(\sqrt{s^2}) \neq \sqrt{E(s^2)} NB. Случайные величины являются независимыми, и каждая Икся∼ N( μ …

9
Неверно ли перефразировать слова «1 из 80 смертей вызван автомобильной аварией», поскольку «1 из 80 человек погибает в результате автомобильной аварии?»
Утверждение 1 (S1): «Один из 80 смертей вызван автомобильной аварией». Утверждение второе (S2): «Один из 80 человек погибает в результате автомобильной аварии». Теперь я лично не вижу большой разницы между этими двумя утверждениями. При написании я бы посчитал их взаимозаменяемыми для непрофессионалов. Тем не менее, сейчас мне бросили вызов два …

7
Проблемы промышленности и Kaggle. Собирать больше наблюдений и иметь доступ к большему количеству переменных важнее, чем модное моделирование?
Я надеюсь, что название говорит само за себя. В Kaggle большинство победителей используют стеки с иногда сотнями базовых моделей, чтобы выжать несколько лишних% MSE, точность ... В целом, по вашему опыту, насколько важно модное моделирование, такое как стекирование, а не просто сбор большего количества данных и больше функций для данных?


6
Регуляризация L2 эквивалентна гауссовскому приору
Я продолжаю читать это и интуитивно вижу это, но как перейти от регуляризации L2 к тому, что аналитически это - Приор Гаусса? То же самое можно сказать и о том, что L1 эквивалентен предшествующему лапласу. Любые дальнейшие ссылки будут великолепны.

1
Логистическая регрессия в R привела к идеальному разделению (феномен Хаука-Доннера). Что теперь?
Я пытаюсь предсказать бинарный результат, используя 50 непрерывных объясняющих переменных (диапазон большинства переменных до ∞ ). Мой набор данных имеет почти 24 000 строк. Когда я бегу в R, я получаю:- ∞−∞-\infty∞∞\inftyglm Warning messages: 1: glm.fit: algorithm did not converge 2: glm.fit: fitted probabilities numerically 0 or 1 occurred Я …

4
Все ли значения в пределах 95% доверительного интервала одинаково вероятны?
Я нашел противоречивую информацию по вопросу: « Если построить 95-процентный доверительный интервал (CI) разницы в средних значениях или различий в пропорциях, все ли значения в пределах CI одинаково вероятны? Или точечная оценка наиболее вероятна? с значениями вблизи "хвостов" CI менее вероятны, чем значения в середине CI? Например, если в отчете …

8
R библиотеки для глубокого изучения
Мне было интересно, есть ли хорошие библиотеки R для глубокого изучения нейронных сетей? Я знаю , что это nnet, neuralnetи RSNNS, но ни один из них не кажется , осуществить глубокие методы обучения. Меня особенно интересует неконтролируемое обучение с последующим обучением и использование отсева для предотвращения коадаптации . / edit: …

6
Является ли «гибрид» между подходами Фишера и Неймана-Пирсона к статистическому тестированию действительно «бессвязной путаницей»?
Существует определенная школа мысли, согласно которой наиболее распространенный подход к статистическому тестированию представляет собой «гибрид» между двумя подходами: подход Фишера и Неймана-Пирсона; эти два подхода, как утверждается в заявлении, являются «несовместимыми», и, следовательно, получающийся в результате «гибрид» представляет собой «несвязную путаницу». Я предоставлю библиографию и некоторые цитаты ниже, но пока …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.