Статистика и большие данные python

2

У меня есть набор данных с в основном финансовыми переменными (120 функций, 4k примеров), которые в основном сильно коррелированы и очень шумные (например, технические индикаторы), поэтому я хотел бы выбрать около 20-30 максимум для последующего использования с обучением модели (бинарная классификация) - увеличение уменьшение). Я думал об использовании случайных лесов …

16 feature-selection random-forest python

3

Коллинеарные переменные в обучении LDA Multiclass

Я тренирую многоклассный классификатор LDA с 8 классами данных. Во время обучения я получаю предупреждение: « Переменные коллинеарны » Я получаю точность обучения более 90% . Я использую библиотеку scikits-learn в Python, обучаю и проверяю данные мультикласса . Я также получаю приличную точность тестирования (около 85% -95% ). Я не …

16 machine-learning classification python scikit-learn discriminant-analysis

2

Показывать среднее вместо медианного в боксплоте [закрыто]

Закрыто. Этот вопрос не по теме . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто 4 месяца назад . При построении коробочного графика с помощью python matplotblib линии на половине графика являются медианой распределения. Есть ли возможность вместо …

15 data-visualization python matplotlib boxplot

3

Логистическая регрессия: Scikit Learn против glmnet

Я пытаюсь продублировать результаты из sklearnбиблиотеки логистической регрессии, используя glmnetпакет в R. Из sklearnрегрессионной логистической документации , она пытается свести к минимуму функцию стоимости при l2 казни minw,c12wTw+C∑i=1Nlog(exp(−yi(XTiw+c))+1)minw,c12wTw+C∑i=1Nlog⁡(exp⁡(−yi(XiTw+c))+1)\min_{w,c} \frac12 w^Tw + C\sum_{i=1}^N \log(\exp(-y_i(X_i^Tw+c)) + 1) Из виньеток из glmnetего реализация минимизирует несколько иной стоимость функции минβ, β0- [ 1NΣя = …

15 r logistic python scikit-learn glmnet

1

Как интерпретировать ковариационную матрицу из подбора кривой?

Я не слишком хорош в статистике, поэтому извиняюсь, если это упрощенный вопрос. Я подгоняю кривую к некоторым данным, и иногда мои данные лучше всего соответствуют отрицательной экспоненте в виде , а иногда подгонка ближе к a ∗ e ( - b ∗ x 2 ) + с . Однако иногда …

15 variance model-selection python curve-fitting covariance-matrix

3

Как построить вывод данных кластеризации?

Я попытался кластеризовать набор данных (набор меток) и получил 2 кластера. Я хотел бы представить это графически. Немного запутался в представлении, так как у меня нет координат (x, y). Также ищем функцию MATLAB / Python для этого. РЕДАКТИРОВАТЬ Я думаю, что размещение данных делает вопрос более ясным. У меня есть …

15 clustering data-visualization python

1

Какой метод множественного сравнения использовать для модели lmer: lsmeans или glht?

Я анализирую набор данных, используя модель смешанных эффектов с одним фиксированным эффектом (условием) и двумя случайными эффектами (участник из-за дизайна объекта и пары). Модель была сгенерирована с lme4пакетом: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). Затем я выполнил тест отношения правдоподобия этой модели по сравнению с моделью без фиксированного эффекта (условия) и получил значительную разницу. В …

15 r repeated-measures multiple-comparisons post-hoc lsmeans bayesian posterior marginal integral anova time-series regularization machine-learning pca computational-statistics references inference regression cross-validation python random-forest chi-squared spearman-rho r machine-learning confidence-interval bagging clustering feature-selection model-selection bic hypothesis-testing kurtosis r regression residuals terminology

3

Проверьте, совпадают ли многомерные распределения

Допустим, у меня есть две или более выборочных совокупностей n-мерных непрерывнозначных векторов. Есть ли непараметрический способ проверить, относятся ли эти образцы к одному и тому же распределению? Если это так, есть ли функция в R или Python для этого?

15 r distributions nonparametric python

2

Разница между выбором признаков на основе «F-регрессии» и на основе значений

Использует ли сравнение элементов F-regressionто же самое, что и сопоставление элементов с меткой по отдельности и соблюдение значения ?р2R2R^2 Я часто видел, как мои коллеги использовали F regressionдля выбора функций в своем конвейере машинного обучения из sklearn: sklearn.feature_selection.SelectKBest(score_func=sklearn.feature_selection.f_regression...)` Некоторые, пожалуйста, скажите мне - почему это дает те же результаты, что …

15 feature-selection python scikit-learn r-squared f-test

2

Выборка из дистрибутива фон Мизеса-Фишера в Python?

Я ищу простой способ выбрать из многомерного дистрибутива фон Мизеса-Фишера в Python. Я просмотрел модуль stats в scipy и numpy module, но нашел только одномерное распределение фон Мизеса. Есть ли код? Я еще не нашел. Очевидно, Вуд (1994) разработал алгоритм для выборки из распределения vMF по этой ссылке , но …

14 distributions sampling python

1

Бета-дистрибуция в Scipy

Согласно Википедии распределение бета-вероятности имеет два параметра формы: и β .αα\alphaββ\beta Когда я звоню scipy.stats.beta.fit(x)в Python, где xнаходится ряд чисел в диапазоне , возвращаются 4 значения. Это кажется мне странным.[0,1][0,1][0,1] После поиска в Google я обнаружил, что одно из возвращаемых значений должно быть 'location', поскольку третья переменная равна 0, если …

14 python scipy beta-distribution

3

Разница между statsmodel OLS и scikit линейной регрессии

У меня есть вопрос о двух разных методах из разных библиотек, которые, кажется, выполняют одну и ту же работу. Я пытаюсь сделать модель линейной регрессии. Вот код, который я использовал с помощью библиотеки statsmodel с OLS: X_train, X_test, y_train, y_test = cross_validation.train_test_split(x, y, test_size=0.3, random_state=1) x_train = sm.add_constant(X_train) model = …

14 regression python scikit-learn statsmodels

1

Анализ чувствительности в глубоких нейронных сетях

После вопроса, на который уже дан ответ ( Извлечение важности веса из одноуровневой сети прямой связи ), я ищу вывод об актуальности входных данных в нейронных сетях. Рассматривая глубокую сеть, где восстановление важности ввода путем перехода назад через слои от интересующего выходного узла может быть трудным или длительным, мне было …

14 neural-networks python feature-selection sensitivity-analysis

1

Использование iloc для установки значений [закрыто]

Закрыто. Этот вопрос не по теме . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто 2 года назад . Эта строка возвращает первые 4 строки в кадре данных combinedдляfeature_a combined.iloc[0:4]["feature_a"] Как и ожидалось, следующая строка возвращает 2-ю, 4-ю …

13 python pandas

2

Когда регистрировать / расширять ваши переменные при использовании моделей с произвольным лесом?

Я делаю регрессию, используя случайные леса для прогнозирования цен на основе нескольких атрибутов. Код написан на Python с использованием Scikit-learn. Как вы решаете, должны ли вы преобразовывать свои переменные, используя exp/ logперед тем, как использовать их для соответствия регрессионной модели? Обязательно ли это при использовании ансамблевого подхода, такого как Random …

13 regression machine-learning predictive-models python random-forest

Вопросы с тегом «python»