Наука о данных

Вопросы и ответы для специалистов по науке о данных, специалистов по машинному обучению и тех, кто хочет больше узнать об этой области

10
Могут ли алгоритмы машинного обучения предсказать спортивные результаты или результаты?
У меня есть множество наборов данных НФЛ, которые, я думаю, могли бы стать хорошим побочным проектом, но я пока ничего с ними не сделал. Приход на этот сайт заставил меня задуматься об алгоритмах машинного обучения, и мне стало интересно, насколько они хороши в прогнозировании результатов футбольных игр или даже следующей …

11
Наука о данных в C (или C ++)
Я Rпрограммист по языку. Я также вхожу в группу людей, которые считаются специалистами по данным, но приходят из академических дисциплин, отличных от CS. Это хорошо работает в моей роли Data Scientist, однако, начав свою карьеру Rи имея только базовые знания других скриптовых / веб-языков, я чувствовал себя несколько неадекватно в …

3
Когда что использовать - Машинное обучение [закрыто]
Недавно в классе машинного обучения профессора Ориола Пухоля в UPC / Барселона он описал наиболее распространенные алгоритмы, принципы и концепции, которые можно использовать для решения широкого круга задач, связанных с машинным обучением. Здесь я делюсь ими с вами и спрашиваю вас: Существует ли какая-либо всеобъемлющая структура, сопоставляющая задачи с подходами …

3
Влияет ли batch_size в Keras на качество результатов?
Я собираюсь обучить большую сеть LSTM с 2-3 миллионами статей и борюсь с ошибками памяти (я использую AWS EC2 g2x2large). Я обнаружил, что одним из решений является снижение batch_size. Однако я не уверен, относится ли этот параметр только к проблемам эффективности памяти или повлияет ли он на мои результаты. На …


3
В чем разница между «эквивалентным переводу» и «инвариантным переводом»
У меня проблемы с пониманием разницы между эквивариантным переводом и инвариантным переводом . В книге Глубокое обучение . MIT Press, 2016 (И. Гудфеллоу, А. Курвилл и Ю. Бенжио), можно найти в сверточных сетях: [...] особая форма совместного использования параметров приводит к тому, что уровень имеет свойство, называемое эквивалентностью переводу [...] …

11
Используют ли ученые данных Excel?
Я бы назвал себя специалистом по данным для подмастерья. Как и большинство (я думаю), я сделал свои первые диаграммы и свои первые агрегаты в средней школе и колледже, используя Excel. Пройдя колледж, аспирантуру и ~ 7 лет опыта работы, я быстро освоил то, что я считаю более продвинутыми инструментами, такими …
37 tools  career  excel 

2
Как интерпретировать вывод значения XGBoost?
Я запустил модель xgboost. Я точно не знаю, как интерпретировать вывод xgb.importance. В чем смысл усиления, покрытия и частоты и как мы их интерпретируем? Кроме того, что означает Split, RealCover и RealCover%? У меня есть некоторые дополнительные параметры здесь Есть ли другие параметры, которые могут рассказать мне больше о важности …

5
Есть ли у scikit-learn алгоритм прямого выбора / ступенчатой ​​регрессии?
Я работаю над проблемой со слишком многими функциями, и обучение моих моделей занимает слишком много времени. Я реализовал алгоритм прямого выбора для выбора функций. Однако мне было интересно, есть ли у scikit-learn алгоритм прямого выбора / пошаговой регрессии?

3
Расчет и визуализация корреляционной матрицы с пандами
У меня есть фрейм данных Pandas с несколькими записями, и я хочу рассчитать корреляцию между доходами магазинов определенного типа. Есть ряд магазинов с данными о доходах, классификацией области деятельности (театр, магазины одежды, продукты питания ...) и другими данными. Я попытался создать новый фрейм данных и вставить столбец с доходами всех …

13
Смешные цитаты, связанные с наукой о данных
Пользователи различных сообществ обычно цитируют забавные вещи об их полях. Может быть интересно поделиться своими забавными вещами о машинном обучении, углубленном обучении, науке о данных и вещах, с которыми вы сталкиваетесь ежедневно

13
Что вы думаете о сертификатах Data Science?
Теперь я видел две программы сертификации в области науки о данных - одну из программ Джона Хопкинса, доступную на Coursera, и одну из Cloudera . Я уверен, что есть и другие. Набор классов Джона Хопкинса сфокусирован на R как на наборе инструментов, но охватывает ряд тем: R Программирование очистка и …
35 education 

6
В контролируемом обучении, почему плохо иметь взаимосвязанные функции?
Я где-то читал, что если у нас есть функции, которые слишком коррелируют, мы должны удалить их, так как это может ухудшить модель. Понятно, что коррелированные признаки означают, что они приносят одну и ту же информацию, поэтому логично удалить один из них. Но я не могу понять, почему это может ухудшить …

6
Объяснение потери энтропии
Предположим, я строю NN для классификации. Последний слой является плотным слоем с активацией softmax. У меня есть пять разных классов для классификации. Предположим , что для одного примера обучения, true labelявляется в [1 0 0 0 0]то время как прогнозы будут [0.1 0.5 0.1 0.1 0.2]. Как бы я рассчитал …

1
Разница между `Dense` и` TimeDistributedDense` `Keras`
Я до сих пор путаю о разнице между Denseи TimeDistributedDenseиз Kerasхотя есть уже задавали некоторые подобные вопросы здесь и здесь . Люди много обсуждают, но нет общих согласованных выводов. И даже здесь @fchollet заявил, что: TimeDistributedDenseприменяет одну и ту же Dense(полностью подключенную) операцию к каждому временному шагу трехмерного тензора. Мне …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.