Наука о данных

Вопросы и ответы для специалистов по науке о данных, специалистов по машинному обучению и тех, кто хочет больше узнать об этой области


11
SVM с использованием scikit learn работает бесконечно и никогда не завершает выполнение
Я пытаюсь запустить SVR, используя scikit learn (python) для обучающего набора данных, имеющего 595605 строк и 5 столбцов (функций), и тестового набора данных, имеющего 397070 строк. Данные были предварительно обработаны и упорядочены. Я могу успешно запустить тестовые примеры, но, выполнив мой набор данных и оставив его работать более часа, я …

5
Почему функции стоимости используют квадратную ошибку?
Я только начинаю с машинного обучения, и до сих пор я имел дело с линейной регрессией по одной переменной. Я узнал, что существует гипотеза: часθ( х ) = θ0+ θ1Иксhθ(x)=θ0+θ1xh_\theta(x)=\theta_0+\theta_1x Чтобы найти хорошие значения для параметров и мы хотим минимизировать разницу между вычисленным результатом и фактическим результатом наших тестовых данных. …

1
Разница между isna () и isnull () в пандах
Я уже давно пользуюсь пандами. Но я не понял, в чем разница между isna()и isnull()в пандах. И, что более важно, какой из них использовать для определения пропущенных значений в кадре данных. Какова основная разница в том, как значение определяется как naили null?

11
Почему люди предпочитают панды SQL?
Я использую SQL с 1996 года, поэтому я могу быть предвзятым. Я широко использовал MySQL и SQLite 3, но также использовал Microsoft SQL Server и Oracle. Подавляющее большинство операций, которые я видел в Pandas, можно сделать проще с помощью SQL. Это включает в себя фильтрацию набора данных, выбор определенных столбцов …
69 pandas  sql 

8
Когда я должен использовать Gini Impurity, а не Gain?
Может ли кто-нибудь практически объяснить обоснованность примеси Джини против получения информации (на основе энтропии)? Какой показатель лучше использовать в различных сценариях при использовании деревьев решений?

8
Специалист по данным против инженера машинного обучения
Каковы различия, если таковые имеются, между «ученым данных» и «инженером машинного обучения»? За прошедший год или около того «инженер машинного обучения» стал часто появляться на вакансиях. Это особенно заметно в Сан-Франциско, где, возможно, и возник термин «ученый данных». В какой-то момент «ученый данных» обогнал «статистика», и мне интересно, медленно ли …

5
Прогнозирование временных рядов с использованием ARIMA против LSTM
Проблема, с которой я имею дело, заключается в прогнозировании значений временных рядов. Я смотрю на один временной ряд за раз и на основе, например, 15% входных данных, я хотел бы предсказать его будущие значения. До сих пор я сталкивался с двумя моделями: LSTM (долговременная кратковременная память; класс рекуррентных нейронных сетей) …

3
Преимущества AUC по сравнению со стандартной точностью
Я начал изучать область под кривой (AUC) и немного запутался в ее полезности. Когда мне впервые объяснили, AUC показался отличным показателем производительности, но в моем исследовании я обнаружил, что некоторые утверждают, что его преимущество в основном незначительно, так как он лучше всего подходит для ловли «счастливых» моделей с высокой стандартной …

6
строки как объекты в дереве решений / случайном лесу
Я делаю некоторые проблемы с применением дерева решений / случайного леса. Я пытаюсь приспособить проблему, в которой в качестве функций есть цифры, а также строки (например, название страны). Теперь библиотека scikit-learn принимает только числа в качестве параметров, но я хочу ввести строки, так как они несут значительный объем знаний. Как …

2
Обучение RNN с примерами различной длины в Керасе
Я пытаюсь начать изучать RNN и использую Keras. Я понимаю основную предпосылку ванильных слоев RNN и LSTM, но у меня возникают проблемы с пониманием определенного технического аспекта обучения. В документации keras говорится, что входные данные для слоя RNN должны иметь форму (batch_size, timesteps, input_dim). Это говорит о том, что все …
64 python  keras  rnn  training 

1
Как получить корреляцию между двумя категориальными переменными и категориальными переменными и непрерывными переменными?
Я строю регрессионную модель, и мне нужно вычислить ниже, чтобы проверить корреляции Корреляция между 2 многоуровневыми категориальными переменными Корреляция между многоуровневой категориальной переменной и непрерывной переменной VIF (коэффициент инфляции дисперсии) для многоуровневых категориальных переменных Я считаю, что неправильно использовать коэффициент корреляции Пирсона для вышеупомянутых сценариев, потому что Пирсон работает только …

3
Backprop через слои максимального пула?
Это небольшой концептуальный вопрос, который мучил меня некоторое время: как мы можем распространяться обратно через слой максимального пула в нейронной сети? Я наткнулся на слои с максимальным объединением, проходя этот урок для библиотеки nn в Torch 7. Библиотека абстрагирует вычисление градиента и прямые проходы для каждого слоя глубокой сети. Я …

8
Обнаружение аномалий с открытым исходным кодом в Python
Проблема: я работаю над проектом, в котором используются файлы журналов, аналогичные тем, которые находятся в пространстве мониторинга ИТ (насколько я понимаю, пространство ИТ). Эти файлы журнала представляют собой данные временных рядов, организованные в сотни / тысячи строк с различными параметрами. Каждый параметр является числовым (с плавающей запятой), и для каждого …

11
Что такое уменьшение размерности? В чем разница между выбором объектов и извлечением?
Из википедии, Уменьшение размерности или уменьшение размерности - это процесс уменьшения количества рассматриваемых случайных величин, который можно разделить на выбор и извлечение признаков. В чем разница между выбором и извлечением объектов? Что является примером уменьшения размерности в задаче обработки естественного языка?

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.