Вопросы с тегом «python»

Python - это язык программирования, обычно используемый для машинного обучения. Используйте этот тег для любого * по теме * вопроса, который (a) включает `Python` в качестве критической части вопроса или ожидаемого ответа, и (b) не * просто * о том, как использовать` Python`.

2
Выбор объектов со случайными лесами
У меня есть набор данных с в основном финансовыми переменными (120 функций, 4k примеров), которые в основном сильно коррелированы и очень шумные (например, технические индикаторы), поэтому я хотел бы выбрать около 20-30 максимум для последующего использования с обучением модели (бинарная классификация) - увеличение уменьшение). Я думал об использовании случайных лесов …

3
Коллинеарные переменные в обучении LDA Multiclass
Я тренирую многоклассный классификатор LDA с 8 классами данных. Во время обучения я получаю предупреждение: « Переменные коллинеарны » Я получаю точность обучения более 90% . Я использую библиотеку scikits-learn в Python, обучаю и проверяю данные мультикласса . Я также получаю приличную точность тестирования (около 85% -95% ). Я не …

2
Показывать среднее вместо медианного в боксплоте [закрыто]
Закрыто. Этот вопрос не по теме . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто 4 месяца назад . При построении коробочного графика с помощью python matplotblib линии на половине графика являются медианой распределения. Есть ли возможность вместо …

3
Логистическая регрессия: Scikit Learn против glmnet
Я пытаюсь продублировать результаты из sklearnбиблиотеки логистической регрессии, используя glmnetпакет в R. Из sklearnрегрессионной логистической документации , она пытается свести к минимуму функцию стоимости при l2 казни minw,c12wTw+C∑i=1Nlog(exp(−yi(XTiw+c))+1)minw,c12wTw+C∑i=1Nlog⁡(exp⁡(−yi(XiTw+c))+1)\min_{w,c} \frac12 w^Tw + C\sum_{i=1}^N \log(\exp(-y_i(X_i^Tw+c)) + 1) Из виньеток из glmnetего реализация минимизирует несколько иной стоимость функции минβ, β0- [ 1NΣя = …

1
Как интерпретировать ковариационную матрицу из подбора кривой?
Я не слишком хорош в статистике, поэтому извиняюсь, если это упрощенный вопрос. Я подгоняю кривую к некоторым данным, и иногда мои данные лучше всего соответствуют отрицательной экспоненте в виде , а иногда подгонка ближе к a ∗ e ( - b ∗ x 2 ) + с . Однако иногда …

3
Как построить вывод данных кластеризации?
Я попытался кластеризовать набор данных (набор меток) и получил 2 кластера. Я хотел бы представить это графически. Немного запутался в представлении, так как у меня нет координат (x, y). Также ищем функцию MATLAB / Python для этого. РЕДАКТИРОВАТЬ Я думаю, что размещение данных делает вопрос более ясным. У меня есть …

1
Какой метод множественного сравнения использовать для модели lmer: lsmeans или glht?
Я анализирую набор данных, используя модель смешанных эффектов с одним фиксированным эффектом (условием) и двумя случайными эффектами (участник из-за дизайна объекта и пары). Модель была сгенерирована с lme4пакетом: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). Затем я выполнил тест отношения правдоподобия этой модели по сравнению с моделью без фиксированного эффекта (условия) и получил значительную разницу. В …

3
Проверьте, совпадают ли многомерные распределения
Допустим, у меня есть две или более выборочных совокупностей n-мерных непрерывнозначных векторов. Есть ли непараметрический способ проверить, относятся ли эти образцы к одному и тому же распределению? Если это так, есть ли функция в R или Python для этого?

2
Разница между выбором признаков на основе «F-регрессии» и на основе значений
Использует ли сравнение элементов F-regressionто же самое, что и сопоставление элементов с меткой по отдельности и соблюдение значения ?р2R2R^2 Я часто видел, как мои коллеги использовали F regressionдля выбора функций в своем конвейере машинного обучения из sklearn: sklearn.feature_selection.SelectKBest(score_func=sklearn.feature_selection.f_regression...)` Некоторые, пожалуйста, скажите мне - почему это дает те же результаты, что …

2
Выборка из дистрибутива фон Мизеса-Фишера в Python?
Я ищу простой способ выбрать из многомерного дистрибутива фон Мизеса-Фишера в Python. Я просмотрел модуль stats в scipy и numpy module, но нашел только одномерное распределение фон Мизеса. Есть ли код? Я еще не нашел. Очевидно, Вуд (1994) разработал алгоритм для выборки из распределения vMF по этой ссылке , но …

1
Бета-дистрибуция в Scipy
Согласно Википедии распределение бета-вероятности имеет два параметра формы: и β .αα\alphaββ\beta Когда я звоню scipy.stats.beta.fit(x)в Python, где xнаходится ряд чисел в диапазоне , возвращаются 4 значения. Это кажется мне странным.[0,1][0,1][0,1] После поиска в Google я обнаружил, что одно из возвращаемых значений должно быть 'location', поскольку третья переменная равна 0, если …

3
Разница между statsmodel OLS и scikit линейной регрессии
У меня есть вопрос о двух разных методах из разных библиотек, которые, кажется, выполняют одну и ту же работу. Я пытаюсь сделать модель линейной регрессии. Вот код, который я использовал с помощью библиотеки statsmodel с OLS: X_train, X_test, y_train, y_test = cross_validation.train_test_split(x, y, test_size=0.3, random_state=1) x_train = sm.add_constant(X_train) model = …

1
Анализ чувствительности в глубоких нейронных сетях
После вопроса, на который уже дан ответ ( Извлечение важности веса из одноуровневой сети прямой связи ), я ищу вывод об актуальности входных данных в нейронных сетях. Рассматривая глубокую сеть, где восстановление важности ввода путем перехода назад через слои от интересующего выходного узла может быть трудным или длительным, мне было …

1
Использование iloc для установки значений [закрыто]
Закрыто. Этот вопрос не по теме . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто 2 года назад . Эта строка возвращает первые 4 строки в кадре данных combinedдляfeature_a combined.iloc[0:4]["feature_a"] Как и ожидалось, следующая строка возвращает 2-ю, 4-ю …
13 python  pandas 

2
Когда регистрировать / расширять ваши переменные при использовании моделей с произвольным лесом?
Я делаю регрессию, используя случайные леса для прогнозирования цен на основе нескольких атрибутов. Код написан на Python с использованием Scikit-learn. Как вы решаете, должны ли вы преобразовывать свои переменные, используя exp/ logперед тем, как использовать их для соответствия регрессионной модели? Обязательно ли это при использовании ансамблевого подхода, такого как Random …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.