Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных

16
Какие неправильно используемые статистические термины стоит исправить?
Статистика везде; однако, часто используются статистические термины, которые не всегда ясны. Термины вероятность и шансы используются взаимозаменяемо в английском языке, несмотря на их четкие и разные математические выражения. Отсутствие разделения термина « вероятность и вероятность» обычно сбивает с толку врачей, пытающихся количественно оценить вероятность рака молочной железы с учетом положительной …
104 terminology 

5
Различия между перекрестной проверкой и начальной загрузкой для оценки ошибки предсказания
Мне бы хотелось, чтобы ваши мысли о различиях между перекрестной проверкой и начальной загрузкой оценили ошибку прогноза. Работает ли лучше для небольших наборов данных или больших наборов данных?

19
Как раздражать статистического судью?
Недавно я задал вопрос об общих принципах рассмотрения статистики в документах . Теперь я хотел бы спросить, что особенно раздражает вас при просмотре статьи, то есть, как лучше всего раздражать статистического судью! Один пример за ответ, пожалуйста.

2
Удаление статистически значимого члена перехвата увеличивает в линейной модели
В простой линейной модели с одной объясняющей переменной αi=β0+β1δi+ϵiαi=β0+β1δi+ϵi\alpha_i = \beta_0 + \beta_1 \delta_i + \epsilon_i Я считаю, что удаление члена перехвата значительно улучшает соответствие (значение идет от 0,3 до 0,9). Однако термин «перехват» представляется статистически значимым.R2R2R^2 С перехватом: Call: lm(formula = alpha ~ delta, data = cf) Residuals: Min …

3
Пакетный градиентный спуск против стохастического градиентного спуска
Предположим, у нас есть некоторый обучающий набор ( х( я ), у( я ))(x(i),y(i))(x_{(i)}, y_{(i)}) для я = 1 , … , мi=1,…,mi = 1, \dots, m . Также предположим, что мы запускаем некоторый тип контролируемого алгоритма обучения на тренировочном наборе. Гипотезы представлены в виде часθ( х( я )) = …

8
ASA обсуждает ограничения
У нас уже есть несколько потоков, помеченных как p-значения, которые показывают много недоразумений о них. Десять месяцев назад мы имели нить о психологическом журнале , что «запрещено» -значенияпpp р , в настоящее время Американской статистической ассоциации (2016) говорит , что с нашим анализом мы «не должны заканчиваться с расчетом на …


14
Книги для самостоятельного изучения временных рядов?
Я начал с анализа временных рядов Гамильтона, но безнадежно потерян. Эта книга действительно слишком теоретическая, чтобы я мог учиться сам. У кого-нибудь есть рекомендации для учебника по анализу временных рядов, который подходит для самостоятельного изучения?

25
Нахождение свободно доступных образцов данных
Я работал над новым методом анализа и анализа наборов данных, чтобы идентифицировать и изолировать подгруппы населения без предварительного знания характеристик какой-либо подгруппы. Хотя этот метод достаточно хорошо работает с искусственными выборками данных (то есть наборами данных, созданными специально для идентификации и разделения подмножеств населения), я хотел бы попробовать протестировать его …

9
Это действительно, как работают p-значения? Может ли миллион научных работ в год основываться на чистой случайности?
Я очень плохо знаком со статистикой, и я только учусь понимать основы, включая . Но сейчас у меня в голове огромный вопросительный знак, и я надеюсь, что мое понимание неверно. Вот мой мыслительный процесс:пpp Разве все исследования в мире не похожи на обезьян в «теореме о бесконечной обезьяне»? Учтите, что …

4
Как интуитивно объяснить, что такое ядро?
Многие классификаторы машинного обучения (например, машины опорных векторов) позволяют указывать ядро. Что было бы интуитивно понятным способом объяснить, что такое ядро? Один из аспектов, о котором я думал, - это различие между линейным и нелинейным ядрами. Проще говоря, я мог бы говорить о «линейных решающих функциях» и «нелинейных решающих функциях». …

1
Деревья условного вывода против традиционных деревьев решений
Может ли кто-нибудь объяснить основные различия между деревьями условного вывода ( ctreeиз partyпакета в R) по сравнению с более традиционными алгоритмами дерева решений (такими как rpartв R)? Что отличает CI-деревья? Сильные и слабые стороны? Обновление: я посмотрел на статью Хортхорна и др., На которую ссылается Чи в комментариях. Я не …

9
В чем разница между линейной регрессией по y с x и x с y?
Коэффициент корреляции Пирсона для x и y одинаков, независимо от того, вычисляете ли вы Pearson (x, y) или Pearson (y, x). Это говорит о том, что выполнение линейной регрессии y с учетом x или x с учетом y должно быть таким же, но я не думаю, что это так. Может …


3
Интуитивное объяснение единичного корня
Как бы вы объяснили интуитивно, что такое единичный корень в контексте теста единичного корня? Я думаю о способах объяснения, которые я основал в этом вопросе . Случай с корневым модулем состоит в том, что я знаю (кстати, немного), что тест корневого модуля используется для проверки стационарности во временном ряду, но …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.