Статистика и большие данные

7

Т-критерий для ненормального, когда N> 50?

Давным-давно я узнал, что для использования T-критерия с двумя образцами необходимо нормальное распределение. Сегодня коллега сказала мне, что она узнала, что для N> 50 нормальное распределение не нужно. Это правда? Если это правда, это из-за центральной предельной теоремы?

77 normal-distribution t-test central-limit-theorem

26

Какую самую влиятельную книгу должен прочитать каждый статистик?

Если бы вы могли вернуться в прошлое и сказать себе, что в начале своей карьеры в качестве статистика вы прочитаете конкретную книгу, то какой это будет книга?

77 references

7

Каковы «большие проблемы» в статистике?

Математика имеет свои знаменитые проблемы тысячелетия (и, исторически, 23 Гильберта ), вопросы, которые помогли сформировать направление поля. Я, однако, мало представляю себе, какими будут гипотезы Римана и P против NP статистики. Итак, каковы общие открытые вопросы в статистике? Отредактировано, чтобы добавить: В качестве примера общего духа (если не совсем специфичности) …

77 history

9

Математик хочет, чтобы эквивалентные знания в степени качества статистики

Я знаю, что люди любят закрывать дубликаты, поэтому я не прошу ссылки для начала изучения статистики (как здесь ). У меня есть докторская степень по математике, но я никогда не изучал статистику. Каков кратчайший путь к эквивалентным знаниям в высшей степени статистики БС и как мне измерить, когда я достиг …

77 references careers

5

Перекрестная проверка на простом английском?

Как бы вы описали перекрестную проверку для кого-либо, не имеющего опыта анализа данных?

77 cross-validation

5

Каковы современные, легко используемые альтернативы ступенчатой регрессии?

У меня есть набор данных с около 30 независимыми переменными, и я хотел бы построить обобщенную линейную модель (GLM), чтобы исследовать отношения между ними и зависимой переменной. Я знаю, что метод, которому меня учили в этой ситуации, ступенчатая регрессия, теперь считается статистическим грехом . Какие современные методы выбора модели следует …

76 regression generalized-linear-model model-selection stepwise-regression

14

Что означает «Все модели неправильны, но некоторые полезны»

«По сути, все модели ошибочны, но некоторые полезны». --- Коробка, Джордж EP; Норман Р. Дрейпер (1987). Эмпирическое моделирование и ответные поверхности, с. 424, Wiley. ISBN 0471810339. В чем именно смысл этой фразы?

76 modeling

3

Выбор функции и перекрестная проверка

Недавно я много читал на этом сайте (@Aniko, @Dikran Marsupial, @Erik) и в других местах о проблеме переоснащения, возникающего при перекрестной проверке (Smialowski et al 2010, Биоинформатика, Hastie, Элементы статистического обучения). Предполагается, что любой контролируемый выбор признаков (с использованием корреляции с метками классов), выполненный вне оценки производительности модели с использованием …

76 cross-validation feature-selection

1

Помогите мне понять опорные векторные машины

Я понимаю основы цели машин опорных векторов с точки зрения классификации входного набора на несколько разных классов, но я не понимаю некоторые мелкие детали. Для начала, я немного смущен использованием Slack Variables. Какова их цель? Я занимаюсь классификационной проблемой, когда я снимал показания давления с датчиков, которые я поместил на …

76 machine-learning classification svm

6

Выбор функции для «окончательной» модели при выполнении перекрестной проверки в машинном обучении

Я немного запутался в выборе функций и машинном обучении, и мне было интересно, можете ли вы помочь мне. У меня есть набор данных микрочипов, который классифицируется на две группы и имеет 1000 функций. Моя цель - получить небольшое количество генов (мои особенности) (10-20) в сигнатуре, которую я теоретически смогу применить …

76 machine-learning classification cross-validation feature-selection genetics

3

Почему Лассо обеспечивает Выбор Переменных?

Я читал « Элементы статистического обучения» и хотел бы знать, почему Лассо обеспечивает выбор переменных, а регрессия гребней - нет. Оба метода минимизируют остаточную сумму квадратов и имеют ограничение на возможные значения параметров ββ\beta . Для Лассо ограничение ||β||1≤t||β||1≤t||\beta||_1 \le t , тогда как для гребня это ||β||2≤t||β||2≤t||\beta||_2 \le t …

76 regression feature-selection lasso regularization

3

Почему логистическая регрессия не называется логистической классификацией?

Поскольку логистическая регрессия является статистической классификационной моделью, имеющей дело с категориальными зависимыми переменными, почему она не называется логистической классификацией ? Разве имя "Регрессия" не должно быть зарезервировано для моделей, имеющих дело с непрерывными зависимыми переменными?

75 regression machine-learning logistic classification terminology

3

Лучший способ представить случайный лес в публикации?

Я использую алгоритм случайного леса в качестве надежного классификатора двух групп в исследовании микроматрицы с тысячами функций. Каков наилучший способ представить случайный лес, чтобы в нем было достаточно информации, чтобы сделать его воспроизводимым на бумаге? Есть ли в R метод заговора для фактического построения дерева, если имеется небольшое количество объектов? …

75 r machine-learning classification random-forest microarray

5

Пожалуйста, объясните парадокс ожидания

Несколько лет назад я разработал детектор излучения, который работает, измеряя интервал между событиями, а не подсчитывая их. Я предполагал, что при измерении несмежных образцов в среднем я буду измерять половину фактического интервала. Однако, когда я тестировал схему с калиброванным источником, показания были в два раза выше, что означало, что я …

75 poisson-process paradox

2

Методы передискретизации / моделирования: Монте-Карло, начальная загрузка, джекнифинг, перекрестная проверка, рандомизированные тесты и тесты перестановки

Я пытаюсь понять разницу между различными методами передискретизации (симуляция Монте-Карло, параметрическая начальная загрузка, непараметрическая начальная загрузка, джекнифинг, перекрестная проверка, рандомизационные тесты и тесты перестановок) и их реализацией в моем собственном контексте с использованием R. Скажем, у меня следующая ситуация - я хочу выполнить ANOVA с переменной Y ( Yvar) и …

75 r bootstrap resampling jackknife permutation-test