Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных

7
Т-критерий для ненормального, когда N> 50?
Давным-давно я узнал, что для использования T-критерия с двумя образцами необходимо нормальное распределение. Сегодня коллега сказала мне, что она узнала, что для N> 50 нормальное распределение не нужно. Это правда? Если это правда, это из-за центральной предельной теоремы?


7
Каковы «большие проблемы» в статистике?
Математика имеет свои знаменитые проблемы тысячелетия (и, исторически, 23 Гильберта ), вопросы, которые помогли сформировать направление поля. Я, однако, мало представляю себе, какими будут гипотезы Римана и P против NP статистики. Итак, каковы общие открытые вопросы в статистике? Отредактировано, чтобы добавить: В качестве примера общего духа (если не совсем специфичности) …
77 history 

9
Математик хочет, чтобы эквивалентные знания в степени качества статистики
Я знаю, что люди любят закрывать дубликаты, поэтому я не прошу ссылки для начала изучения статистики (как здесь ). У меня есть докторская степень по математике, но я никогда не изучал статистику. Каков кратчайший путь к эквивалентным знаниям в высшей степени статистики БС и как мне измерить, когда я достиг …


5
Каковы современные, легко используемые альтернативы ступенчатой ​​регрессии?
У меня есть набор данных с около 30 независимыми переменными, и я хотел бы построить обобщенную линейную модель (GLM), чтобы исследовать отношения между ними и зависимой переменной. Я знаю, что метод, которому меня учили в этой ситуации, ступенчатая регрессия, теперь считается статистическим грехом . Какие современные методы выбора модели следует …


3
Выбор функции и перекрестная проверка
Недавно я много читал на этом сайте (@Aniko, @Dikran Marsupial, @Erik) и в других местах о проблеме переоснащения, возникающего при перекрестной проверке (Smialowski et al 2010, Биоинформатика, Hastie, Элементы статистического обучения). Предполагается, что любой контролируемый выбор признаков (с использованием корреляции с метками классов), выполненный вне оценки производительности модели с использованием …

1
Помогите мне понять опорные векторные машины
Я понимаю основы цели машин опорных векторов с точки зрения классификации входного набора на несколько разных классов, но я не понимаю некоторые мелкие детали. Для начала, я немного смущен использованием Slack Variables. Какова их цель? Я занимаюсь классификационной проблемой, когда я снимал показания давления с датчиков, которые я поместил на …

6
Выбор функции для «окончательной» модели при выполнении перекрестной проверки в машинном обучении
Я немного запутался в выборе функций и машинном обучении, и мне было интересно, можете ли вы помочь мне. У меня есть набор данных микрочипов, который классифицируется на две группы и имеет 1000 функций. Моя цель - получить небольшое количество генов (мои особенности) (10-20) в сигнатуре, которую я теоретически смогу применить …

3
Почему Лассо обеспечивает Выбор Переменных?
Я читал « Элементы статистического обучения» и хотел бы знать, почему Лассо обеспечивает выбор переменных, а регрессия гребней - нет. Оба метода минимизируют остаточную сумму квадратов и имеют ограничение на возможные значения параметров ββ\beta . Для Лассо ограничение ||β||1≤t||β||1≤t||\beta||_1 \le t , тогда как для гребня это ||β||2≤t||β||2≤t||\beta||_2 \le t …

3
Почему логистическая регрессия не называется логистической классификацией?
Поскольку логистическая регрессия является статистической классификационной моделью, имеющей дело с категориальными зависимыми переменными, почему она не называется логистической классификацией ? Разве имя "Регрессия" не должно быть зарезервировано для моделей, имеющих дело с непрерывными зависимыми переменными?

3
Лучший способ представить случайный лес в публикации?
Я использую алгоритм случайного леса в качестве надежного классификатора двух групп в исследовании микроматрицы с тысячами функций. Каков наилучший способ представить случайный лес, чтобы в нем было достаточно информации, чтобы сделать его воспроизводимым на бумаге? Есть ли в R метод заговора для фактического построения дерева, если имеется небольшое количество объектов? …

5
Пожалуйста, объясните парадокс ожидания
Несколько лет назад я разработал детектор излучения, который работает, измеряя интервал между событиями, а не подсчитывая их. Я предполагал, что при измерении несмежных образцов в среднем я буду измерять половину фактического интервала. Однако, когда я тестировал схему с калиброванным источником, показания были в два раза выше, что означало, что я …

2
Методы передискретизации / моделирования: Монте-Карло, начальная загрузка, джекнифинг, перекрестная проверка, рандомизированные тесты и тесты перестановки
Я пытаюсь понять разницу между различными методами передискретизации (симуляция Монте-Карло, параметрическая начальная загрузка, непараметрическая начальная загрузка, джекнифинг, перекрестная проверка, рандомизационные тесты и тесты перестановок) и их реализацией в моем собственном контексте с использованием R. Скажем, у меня следующая ситуация - я хочу выполнить ANOVA с переменной Y ( Yvar) и …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.