Наука о данных

Вопросы и ответы для специалистов по науке о данных, специалистов по машинному обучению и тех, кто хочет больше узнать об этой области

7
Организованные процессы для очистки данных
Из моего ограниченного увлечения наукой данных с использованием R я понял, что очистка плохих данных является очень важной частью подготовки данных для анализа. Существуют ли передовые практики или процессы для очистки данных перед их обработкой? Если да, существуют ли какие-либо автоматизированные или полуавтоматические инструменты, которые реализуют некоторые из этих передовых …
34 r  data-cleaning 

5
Каковы некоторые стандартные способы вычисления расстояния между документами?
Когда я говорю «документ», я имею в виду веб-страницы, такие как статьи Википедии и новости. Я предпочитаю ответы, дающие либо ванильные лексические метрики расстояния, либо современные семантические метрики расстояния, с большим предпочтением к последним.

3
Multi GPU в керасе
Как вы можете программировать в библиотеке keras (или тензорном потоке), чтобы разделить обучение на несколько графических процессоров? Допустим, вы находитесь в экземпляре Amazon ec2 с 8 графическими процессорами, и вы хотели бы использовать их все для ускорения обучения, но ваш код предназначен только для одного процессора или графического процессора.

5
Открытие 20ГБ файла для анализа с пандами
В настоящее время я пытаюсь открыть файл с пандами и python для целей машинного обучения, для меня было бы идеально, чтобы они все были в DataFrame. Теперь размер файла составляет 18 ГБ, а объем оперативной памяти - 32 ГБ, но я получаю ошибки памяти. Из вашего опыта это возможно? Если …

4
Интуитивно понятное объяснение потери шумовой контрастной оценки (NCE)?
Я читал о NCE (форма выборки кандидатов) из этих двух источников: Тензор потока записи Оригинальная бумага Может ли кто-нибудь помочь мне со следующим: Простое объяснение того, как работает NCE (я обнаружил, что вышеизложенное трудно разобрать и понять, поэтому что-то интуитивное, что приводит к представленной здесь математике, было бы здорово) После …

5
Преобразование списка списков в кадр данных Pandas
Я пытаюсь преобразовать список списков, который выглядит следующим образом в Pandas Dataframe [['New York Yankees ', '"Acevedo Juan" ', 900000, ' Pitcher\n'], ['New York Yankees ', '"Anderson Jason"', 300000, ' Pitcher\n'], ['New York Yankees ', '"Clemens Roger" ', 10100000, ' Pitcher\n'], ['New York Yankees ', '"Contreras Jose"', 5500000, ' Pitcher\n']] …
31 pandas 

5
Каковы варианты использования Apache Spark против Hadoop
С Hadoop 2.0 и YARN Hadoop, по-видимому, больше не привязан только к решениям для сокращения карт. С этим продвижением, каковы варианты использования для Apache Spark против Hadoop, учитывая оба варианта HDFS? Я прочитал вводную документацию по Spark, но мне любопытно, сталкивался ли кто-нибудь с проблемой, которая была бы более эффективной …

1
Статья. В чем разница между нормализацией слоев, периодической нормализацией партии (2016 г.) и нормализованной партией RNN (2015 г.)?
Итак, недавно появилась статья о нормализации слоя . Есть также реализация этого на Керасе. Но я помню, что есть статьи под названием Рекуррентная пакетная нормализация (Cooijmans, 2016) и Пакетная нормализованная рекуррентная нейронная сеть (Laurent, 2015). В чем разница между этими тремя? Есть раздел «Связанные работы», который я не понимаю: Пакетная …

1
Какая модель Keras лучше всего подходит для мультиклассовой классификации?
Я работаю на исследования, где необходимо классифицировать один из WINNER три события = ( win, draw, lose) WINNER LEAGUE HOME AWAY MATCH_HOME MATCH_DRAW MATCH_AWAY MATCH_U2_50 MATCH_O2_50 3 13 550 571 1.86 3.34 4.23 1.66 2.11 3 7 322 334 7.55 4.1 1.4 2.17 1.61 Моя текущая модель: def build_model(input_dim, output_classes): …

5
Глубокое обучение против повышения градиента: когда и что использовать?
У меня проблема с большими данными с большим набором данных (например, 50 миллионов строк и 200 столбцов). Набор данных состоит из около 100 числовых столбцов и 100 категориальных столбцов и столбца ответов, представляющего проблему двоичного класса. Мощность каждого из категориальных столбцов составляет менее 50. Я хочу знать априори, должен ли …

3
В классификаторе softmax зачем использовать функцию exp для нормализации?
Зачем использовать softmax вместо стандартной нормализации? В области комментариев верхнего ответа на этот вопрос @Kilian Batzner поднял 2 вопроса, которые также очень меня смущают. Кажется, никто не дает объяснения, кроме численных преимуществ. Я понимаю причины использования Cross-Entropy Loss, но как это связано с softmax? Вы сказали, что «функция softmax может …

5
Что такое функция Q и что такое функция V в обучении подкреплению?
Мне кажется, что функция может быть легко выражена функцией и, таким образом, функция кажется мне излишней. Тем не менее, я новичок в изучении подкрепления, так что, я думаю, я ошибсяVVVQQQVVV Определения Q- и V-обучение находятся в контексте Марковских процессов принятия решений . MDP представляет собой 5-кортеж с(S,A,P,R,γ)(S,A,P,R,γ)(S, A, P, R, …

7
Почему данные должны быть перетасованы для задач машинного обучения
В задачах машинного обучения обычно перетасовывать данные и нормализовать их. Цель нормализации ясна (для того же диапазона значений признаков). Но после долгих попыток я не нашел какой-либо ценной причины для перетасовки данных. Я прочитал этот пост здесь, обсуждая, когда мы должны перетасовать данные, но не очевидно, почему мы должны перетасовывать …

2
Что такое наземная истина
В контексте машинного обучения я часто видел термин « Основополагающая истина» . Я много искал и нашел следующее определение в Википедии : В машинном обучении термин «наземная истина» относится к точности классификации учебного набора для контролируемых методов обучения. Это используется в статистических моделях для подтверждения или опровержения гипотез исследования. Термин …

1
Почему xgboost намного быстрее, чем sklearn GradientBoostingClassifier?
Я пытаюсь обучить модели повышения градиента более чем на 50 тыс. Примеров с 100 числовыми функциями. XGBClassifierобрабатывает 500 деревьев в течение 43 секунд на моей машине, в то время как GradientBoostingClassifierобрабатывает только 10 деревьев (!) за 1 минуту и ​​2 секунды :( Я не стал пытаться вырастить 500 деревьев, так …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.