Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных

1
Должен ли я нормализовать векторы слов word2vec перед их использованием?
После обучения векторов слов с помощью word2vec, лучше ли их нормализовать, прежде чем использовать их для некоторых последующих приложений? Т.е. каковы плюсы / минусы их нормализации?

5
Изменит ли факт, что мой итальянский сын пойдет в начальную школу, ожидаемое количество итальянских детей, которые будут присутствовать в его классе?
Это вопрос, проистекающий из реальной ситуации, для которой я был искренне озадачен ее ответом. Мой сын должен начать начальную школу в Лондоне. Поскольку мы итальянцы, мне было любопытно узнать, сколько итальянских детей уже посещают школу. Я попросил об этом сотрудника приемной комиссии при подаче заявления, и она сказала мне, что …

3
Сравнение SVM и логистической регрессии
Может кто-нибудь подсказать, когда выбрать SVM или LR? Я хочу понять интуицию, лежащую в основе различий между критериями оптимизации изучения гиперплоскости двух, где соответствующие цели заключаются в следующем: SVM: попытаться максимизировать разницу между ближайшими векторами поддержки LR: максимизировать апостериорную вероятность класса Давайте рассмотрим линейное пространство признаков как для SVM, так …

2
Интервал прогнозирования для модели смешанных эффектов lmer () в R
Я хочу получить интервал прогнозирования вокруг прогноза из модели lmer (). Я нашел некоторое обсуждение по этому поводу: http://rstudio-pubs-static.s3.amazonaws.com/24365_2803ab8299934e888a60e7b16113f619.html http://glmm.wikidot.com/faq но они, похоже, не учитывают неопределенность случайных эффектов. Вот конкретный пример. Я гоняю золотую рыбку. У меня есть данные о последних 100 гонках. Я хочу предсказать 101-й, принимая во внимание …

1
Почему glmer не достигает максимальной вероятности (что подтверждается применением дополнительной общей оптимизации)?
Численно получить MLE из GLMM сложно, и на практике, я знаю, мы не должны использовать оптимизацию методом грубой силы (например, используя optimпростой способ). Но для моих собственных образовательных целей я хочу попробовать, чтобы убедиться, что я правильно понимаю модель (см. Код ниже). Я обнаружил, что всегда получаю противоречивые результаты glmer(). …

8
Когда следует включать переменную в регрессию, несмотря на то, что она не является статистически значимой?
Я студент-экономист с некоторым опытом работы с эконометрикой и R. Я хотел бы знать, есть ли когда-нибудь ситуация, когда мы должны включить переменную в регрессию, несмотря на то, что она не является статистически значимой?

6
Проверьте, являются ли два биномиальных распределения статистически отличными друг от друга
У меня есть три группы данных, каждая с биномиальным распределением (то есть каждая группа имеет элементы, которые являются либо успехом, либо неудачей). У меня нет прогнозируемой вероятности успеха, но вместо этого я могу полагаться только на показатель успешности каждого из них в качестве приблизительного значения для истинного уровня успеха. Я …

3
SVM, переоснащение, проклятие размерности
Мой набор данных небольшой (120 выборок), однако количество объектов велико и варьируется от (1000-200 000). Хотя я делаю выбор функции, чтобы выбрать подмножество функций, она все равно может быть перегружена. Мой первый вопрос: как SVM справляется с перегрузкой? Во-вторых, поскольку я больше изучаю переобучение в случае классификации, я пришел к …

6
Улучшение классификации со многими категориальными переменными
Я работаю над набором данных с 200 000+ выборок и примерно 50 объектами на выборку: 10 непрерывных переменных, а остальные ~ 40 являются категориальными переменными (страны, языки, научные области и т. Д.). Для этих категориальных переменных у вас есть, например, 150 разных стран, 50 языков, 50 научных областей и т. …

4
Является ли сильный фон в математике общим требованием для ML?
Я начинаю хотеть развивать свой собственный набор навыков, и я всегда был очарован машинным обучением. Однако шесть лет назад вместо того, чтобы заниматься этим, я решил получить совершенно иную степень в области компьютерных наук. Я занимаюсь разработкой программного обеспечения и приложений уже около 8-10 лет, так что у меня есть …

3
Дисперсия кратных оценок перекрестной проверки как : какова роль «устойчивости»?
TL, DR: кажется, что, вопреки часто повторяемым советам, перекрестная проверка «один-один-один» (LOO-CV), то естькратное CV, где(количество сгибов) равно(число обучающих наблюдений) - дает оценки ошибки обобщения, которые являются наименьшей переменной для любого, а не самой переменной, предполагая определенноеусловие устойчивости либо для модели / алгоритма, либо для набора данных, либо для обоих …

6
Размер эффекта как гипотеза для проверки значимости
Сегодня в клубе Cross Validated Journal (почему вас там не было?) @Mbq спросил: Как вы думаете, мы (современные исследователи данных) знаем, что означает значение? И как это связано с нашей уверенностью в наших результатах? @Michelle ответил так, как обычно делают некоторые (включая меня): Я нахожу концепцию значимости (основанную на p-значениях) …

2
Как найти подходящую для полусинусоидальной модели модель R?
Я хочу предположить, что температура поверхности моря в Балтийском море один и тот же год за годом, а затем описать это с помощью функции / линейной модели. У меня была идея просто ввести год в виде десятичного числа (или num_months / 12) и узнать, какой должна быть температура в это …
37 r  regression  time-series  lm 

5
Как мне проверить нелинейную связь?
Для графика 1 я могу проверить связь между x и y, выполнив простую корреляцию. Для графика 2, где взаимосвязь нелинейная, но существует четкая связь между x и y, как я могу проверить связь и обозначить ее природу?

2
Вероятностные неравенства
Я ищу некоторые вероятностные неравенства для сумм неограниченных случайных величин. Я был бы очень признателен, если кто-нибудь может дать мне некоторые мысли. Моя задача состоит в том, чтобы найти экспоненциальную верхнюю границу вероятности того, что сумма неограниченных случайных величин iid, которые на самом деле являются умножением двух iid Gaussian, превышает …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.