Вопросы с тегом «python»

Используйте для данных науки вопросы, связанные с языком программирования Python. Не предназначен для общих вопросов кодирования (-> stackoverflow).


8
Разница между fit и fit_transform в моделях scikit_learn?
Я новичок в науке данных , и я не понимаю разницу между fitи fit_transformметоды в scikit-учиться. Кто-нибудь может просто объяснить, почему нам может понадобиться преобразовать данные? Что означает подгонка модели к тренировочным данным и преобразование в тестовые данные? Означает ли это, например, преобразование категориальных переменных в числа в поезде и …

15
Python vs R для машинного обучения
Я только начинаю разрабатывать приложение машинного обучения для академических целей. В настоящее время я использую R и тренируюсь в этом. Тем не менее, во многих местах я видел людей, использующих Python . Что люди используют в научных кругах и промышленности, и какова рекомендация?

11
SVM с использованием scikit learn работает бесконечно и никогда не завершает выполнение
Я пытаюсь запустить SVR, используя scikit learn (python) для обучающего набора данных, имеющего 595605 строк и 5 столбцов (функций), и тестового набора данных, имеющего 397070 строк. Данные были предварительно обработаны и упорядочены. Я могу успешно запустить тестовые примеры, но, выполнив мой набор данных и оставив его работать более часа, я …

1
Разница между isna () и isnull () в пандах
Я уже давно пользуюсь пандами. Но я не понял, в чем разница между isna()и isnull()в пандах. И, что более важно, какой из них использовать для определения пропущенных значений в кадре данных. Какова основная разница в том, как значение определяется как naили null?

6
строки как объекты в дереве решений / случайном лесу
Я делаю некоторые проблемы с применением дерева решений / случайного леса. Я пытаюсь приспособить проблему, в которой в качестве функций есть цифры, а также строки (например, название страны). Теперь библиотека scikit-learn принимает только числа в качестве параметров, но я хочу ввести строки, так как они несут значительный объем знаний. Как …

2
Обучение RNN с примерами различной длины в Керасе
Я пытаюсь начать изучать RNN и использую Keras. Я понимаю основную предпосылку ванильных слоев RNN и LSTM, но у меня возникают проблемы с пониманием определенного технического аспекта обучения. В документации keras говорится, что входные данные для слоя RNN должны иметь форму (batch_size, timesteps, input_dim). Это говорит о том, что все …
64 python  keras  rnn  training 

8
Обнаружение аномалий с открытым исходным кодом в Python
Проблема: я работаю над проектом, в котором используются файлы журналов, аналогичные тем, которые находятся в пространстве мониторинга ИТ (насколько я понимаю, пространство ИТ). Эти файлы журнала представляют собой данные временных рядов, организованные в сотни / тысячи строк с различными параметрами. Каждый параметр является числовым (с плавающей запятой), и для каждого …

8
Кластеризация координат географического местоположения (широта, длинные пары)
Каков правильный подход и алгоритм кластеризации для геолокации? Я использую следующий код для кластеризации координат геолокации: import numpy as np import matplotlib.pyplot as plt from scipy.cluster.vq import kmeans2, whiten coordinates= np.array([ [lat, long], [lat, long], ... [lat, long] ]) x, y = kmeans2(whiten(coordinates), 3, iter = 20) plt.scatter(coordinates[:,0], coordinates[:,1], c=y); …

9
Инструменты и протокол для воспроизводимых данных науки с использованием Python
Я работаю над проектом данных науки с использованием Python. Проект имеет несколько этапов. Каждый этап состоит из взятия набора данных, использования скриптов Python, вспомогательных данных, конфигурации и параметров и создания другого набора данных. Я храню код в git, так что эта часть покрыта. Я хотел бы услышать о: Инструменты для …

5
Нейронные сети: какую функцию стоимости использовать?
Я использую TensorFlow для экспериментов в основном с нейронными сетями. Хотя я провел довольно много экспериментов (XOR-Problem, MNIST, некоторые вещи регрессии, ...), я борюсь с выбором «правильной» функции стоимости для конкретных задач, потому что в целом я мог бы считаться новичком. До прихода в TensorFlow я самостоятельно кодировал некоторые полностью …

9
ValueError: Входные данные содержат NaN, бесконечность или значение, слишком большое для dtype ('float32')
Я получил ValueError при прогнозировании тестовых данных с использованием модели RandomForest. Мой код: clf = RandomForestClassifier(n_estimators=10, max_depth=6, n_jobs=1, verbose=2) clf.fit(X_fit, y_fit) df_test.fillna(df_test.mean()) X_test = df_test.values y_pred = clf.predict(X_test) Ошибка: ValueError: Input contains NaN, infinity or a value too large for dtype('float32'). Как найти неверные значения в тестовом наборе данных? Кроме …

3
Расчет и визуализация корреляционной матрицы с пандами
У меня есть фрейм данных Pandas с несколькими записями, и я хочу рассчитать корреляцию между доходами магазинов определенного типа. Есть ряд магазинов с данными о доходах, классификацией области деятельности (театр, магазины одежды, продукты питания ...) и другими данными. Я попытался создать новый фрейм данных и вставить столбец с доходами всех …

3
Multi GPU в керасе
Как вы можете программировать в библиотеке keras (или тензорном потоке), чтобы разделить обучение на несколько графических процессоров? Допустим, вы находитесь в экземпляре Amazon ec2 с 8 графическими процессорами, и вы хотели бы использовать их все для ускорения обучения, но ваш код предназначен только для одного процессора или графического процессора.

5
Открытие 20ГБ файла для анализа с пандами
В настоящее время я пытаюсь открыть файл с пандами и python для целей машинного обучения, для меня было бы идеально, чтобы они все были в DataFrame. Теперь размер файла составляет 18 ГБ, а объем оперативной памяти - 32 ГБ, но я получаю ошибки памяти. Из вашего опыта это возможно? Если …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.