Наука о данных

Вопросы и ответы для специалистов по науке о данных, специалистов по машинному обучению и тех, кто хочет больше узнать об этой области

3
Что такое вес и уклон в глубоком обучении?
Я начинаю изучать машинное обучение с сайта Tensorflow. Я разработал очень элементарное понимание процесса, которому следует программа глубокого обучения (этот метод заставляет меня учиться быстрее, чем читать книги и большие статьи). Есть несколько запутанных вещей, с которыми я столкнулся, 2 из них: предвзятость Вес В учебном пособии MNIST на веб-сайте …

5
Сверточное нейросетевое переоснащение. Выпадение не помогает
Я немного играю с конвеетами. В частности, я использую набор данных kaggle cats-vs-dogs, который состоит из 25000 изображений, помеченных как кошки или собаки (по 12500 изображений). Мне удалось достичь около 85% точности классификации на моем тестовом наборе, однако я поставил цель добиться точности 90%. Моя главная проблема - переоснащение. Каким-то …

2
НЛП - Gazetteer обмануть?
В НЛП есть понятие, Gazetteerкоторое может быть весьма полезным для создания аннотаций. Насколько я понимаю: Газетир состоит из набора списков, содержащих имена объектов, таких как города, организации, дни недели и т. Д. Эти списки используются для поиска вхождений этих имен в тексте, например, для задачи распознавания именованных объектов. Так что …

2
Какие задачи обучения подходят для машин опорных векторов?
Какие отличительные признаки или свойства указывают на то, что определенная проблема обучения может быть решена с использованием машин опорных векторов? Другими словами, что, когда вы видите проблему обучения, заставляет вас говорить: «О, я определенно должен использовать SVM для этого», а не нейронные сети, деревья решений или что-то еще?

3
Как самостоятельно изучить науку о данных? [закрыто]
Закрыто . Этот вопрос должен быть более сфокусированным . В настоящее время не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он был сосредоточен только на одной проблеме, отредактировав этот пост . Закрыто 4 года назад . Я веб-разработчик-самоучка и заинтересован в обучении науке о данных, но не знаю, …

2
Извлечение наиболее информативных частей текста из документов
Есть ли какие-либо статьи или дискуссии по поводу извлечения части текста, которая содержит большую часть информации о текущем документе. Например, у меня большой корпус документов из того же домена. Есть части текста, которые содержат ключевую информацию, о которой говорит отдельный документ. Я хочу извлечь некоторые из этих частей и использовать …
16 nlp  text-mining 

6
Data Science Подкасты?
Какие подкасты связаны с наукой о данных? Этот вопрос похож на вопрос запроса ссылки на CrossValidated . Подробности / правила: Подкасты (тема и эпизоды) должны быть связаны с наукой о данных. (Например: подкаст, посвященный какой-то другой области, с эпизодом, рассказывающим о науке данных в этой области, не является хорошей ссылкой …

2
Рекомендовать фильмы с дополнительными функциями, используя совместную фильтрацию
Я пытаюсь построить систему рекомендаций, используя совместную фильтрацию. У меня есть обычная [user, movie, rating]информация. Я хотел бы включить дополнительную функцию, такую ​​как «язык» или «продолжительность фильма». Я не уверен, какие методы я мог бы использовать для такой проблемы. Пожалуйста, предложите ссылки или пакеты в Python / R.



2
Как повысить точность классификаторов?
Я использую пример OpenCV letter_recog.cpp для экспериментов со случайными деревьями и другими классификаторами. Этот пример имеет реализации шести классификаторов - случайных деревьев, бустинга, MLP, kNN, наивных байесовских и SVM. Используется набор данных для распознавания букв UCI с 20000 экземплярами и 16 функциями, которые я разделил пополам для обучения и тестирования. …

2
Как выбрать функции для нейронной сети?
Я знаю, что нет четкого ответа на этот вопрос, но давайте предположим, что у меня огромная нейронная сеть с большим количеством данных, и я хочу добавить новую функцию ввода. «Лучший» способ - проверить сеть с помощью новой функции и увидеть результаты, но есть ли способ проверить, полезна ли эта функция …

3
Одноклассная дискриминационная классификация с несбалансированным, гетерогенным отрицательным фоном?
Я работаю над улучшением существующего контролируемого классификатора, чтобы классифицировать последовательности {белка} как принадлежащие к определенному классу (предшественники нейропептидных гормонов) или нет. Существует около 1150 известных «позитивов» на фоне около 13 миллионов белковых последовательностей («Неизвестный / плохо аннотированный фон») или около 100 000 проверенных релевантных белков, аннотированных различными свойствами (но очень …

6
В чем причина лог-преобразования нескольких непрерывных переменных?
Я занимался проблемой классификации, и я читал код и учебные пособия многих людей. Одна вещь, которую я заметил, это то, что многие люди принимают np.logили logнепрерывные переменные, такие как loan_amountили applicant_incomeт. Я просто хочу понять причину этого. Помогает ли это улучшить точность прогнозирования нашей модели? Это обязательно? или есть какая-то …

5
сделать морскую карту тепла больше
Я создаю corr()DF из оригинального DF. corr()ДФ вышел 70 X 70 и невозможно представить себе Heatmap ... sns.heatmap(df). Если я попытаюсь отобразить corr = df.corr(), таблица не умещается на экране, и я вижу все корреляции. Это способ печати всего, dfнезависимо от его размера, или контроля размера тепловой карты?
16 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.