Наука о данных

3

Что такое вес и уклон в глубоком обучении?

Я начинаю изучать машинное обучение с сайта Tensorflow. Я разработал очень элементарное понимание процесса, которому следует программа глубокого обучения (этот метод заставляет меня учиться быстрее, чем читать книги и большие статьи). Есть несколько запутанных вещей, с которыми я столкнулся, 2 из них: предвзятость Вес В учебном пособии MNIST на веб-сайте …

16 machine-learning deep-learning tensorflow

5

Сверточное нейросетевое переоснащение. Выпадение не помогает

Я немного играю с конвеетами. В частности, я использую набор данных kaggle cats-vs-dogs, который состоит из 25000 изображений, помеченных как кошки или собаки (по 12500 изображений). Мне удалось достичь около 85% точности классификации на моем тестовом наборе, однако я поставил цель добиться точности 90%. Моя главная проблема - переоснащение. Каким-то …

16 neural-network deep-learning convnet image-recognition dropout

2

НЛП - Gazetteer обмануть?

В НЛП есть понятие, Gazetteerкоторое может быть весьма полезным для создания аннотаций. Насколько я понимаю: Газетир состоит из набора списков, содержащих имена объектов, таких как города, организации, дни недели и т. Д. Эти списки используются для поиска вхождений этих имен в тексте, например, для задачи распознавания именованных объектов. Так что …

16 nlp named-entity-recognition

2

Какие задачи обучения подходят для машин опорных векторов?

Какие отличительные признаки или свойства указывают на то, что определенная проблема обучения может быть решена с использованием машин опорных векторов? Другими словами, что, когда вы видите проблему обучения, заставляет вас говорить: «О, я определенно должен использовать SVM для этого», а не нейронные сети, деревья решений или что-то еще?

16 machine-learning svm supervised-learning unsupervised-learning

3

Как самостоятельно изучить науку о данных? [закрыто]

Закрыто . Этот вопрос должен быть более сфокусированным . В настоящее время не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он был сосредоточен только на одной проблеме, отредактировав этот пост . Закрыто 4 года назад . Я веб-разработчик-самоучка и заинтересован в обучении науке о данных, но не знаю, …

16 beginner self-study

2

Извлечение наиболее информативных частей текста из документов

Есть ли какие-либо статьи или дискуссии по поводу извлечения части текста, которая содержит большую часть информации о текущем документе. Например, у меня большой корпус документов из того же домена. Есть части текста, которые содержат ключевую информацию, о которой говорит отдельный документ. Я хочу извлечь некоторые из этих частей и использовать …

16 nlp text-mining

6

Data Science Подкасты?

Какие подкасты связаны с наукой о данных? Этот вопрос похож на вопрос запроса ссылки на CrossValidated . Подробности / правила: Подкасты (тема и эпизоды) должны быть связаны с наукой о данных. (Например: подкаст, посвященный какой-то другой области, с эпизодом, рассказывающим о науке данных в этой области, не является хорошей ссылкой …

16 reference-request

2

Я пытаюсь построить систему рекомендаций, используя совместную фильтрацию. У меня есть обычная [user, movie, rating]информация. Я хотел бы включить дополнительную функцию, такую как «язык» или «продолжительность фильма». Я не уверен, какие методы я мог бы использовать для такой проблемы. Пожалуйста, предложите ссылки или пакеты в Python / R.

16 python r recommender-system

4

Библиотека Python для сегментированной регрессии (она же кусочно-регрессионная)

Я ищу библиотеку Python, которая может выполнять сегментированную регрессию (так называемая кусочная регрессия) . Пример :

16 python linear-regression library software-recommendation

3

Использование базы данных NoSQL в науке о данных

Как базы данных NoSQL, такие как MongoDB, можно использовать для анализа данных? Какие функции в них могут сделать анализ данных быстрее и эффективнее?

16 bigdata nosql mongodb

2

Как повысить точность классификаторов?

Я использую пример OpenCV letter_recog.cpp для экспериментов со случайными деревьями и другими классификаторами. Этот пример имеет реализации шести классификаторов - случайных деревьев, бустинга, MLP, kNN, наивных байесовских и SVM. Используется набор данных для распознавания букв UCI с 20000 экземплярами и 16 функциями, которые я разделил пополам для обучения и тестирования. …

16 machine-learning classification svm accuracy random-forest

2

Как выбрать функции для нейронной сети?

Я знаю, что нет четкого ответа на этот вопрос, но давайте предположим, что у меня огромная нейронная сеть с большим количеством данных, и я хочу добавить новую функцию ввода. «Лучший» способ - проверить сеть с помощью новой функции и увидеть результаты, но есть ли способ проверить, полезна ли эта функция …

16 machine-learning neural-network feature-selection feature-extraction

3

Одноклассная дискриминационная классификация с несбалансированным, гетерогенным отрицательным фоном?

Я работаю над улучшением существующего контролируемого классификатора, чтобы классифицировать последовательности {белка} как принадлежащие к определенному классу (предшественники нейропептидных гормонов) или нет. Существует около 1150 известных «позитивов» на фоне около 13 миллионов белковых последовательностей («Неизвестный / плохо аннотированный фон») или около 100 000 проверенных релевантных белков, аннотированных различными свойствами (но очень …

16 machine-learning data-mining python classification

6

В чем причина лог-преобразования нескольких непрерывных переменных?

Я занимался проблемой классификации, и я читал код и учебные пособия многих людей. Одна вещь, которую я заметил, это то, что многие люди принимают np.logили logнепрерывные переменные, такие как loan_amountили applicant_incomeт. Я просто хочу понять причину этого. Помогает ли это улучшить точность прогнозирования нашей модели? Это обязательно? или есть какая-то …

16 machine-learning python classification scikit-learn

5

сделать морскую карту тепла больше

Я создаю corr()DF из оригинального DF. corr()ДФ вышел 70 X 70 и невозможно представить себе Heatmap ... sns.heatmap(df). Если я попытаюсь отобразить corr = df.corr(), таблица не умещается на экране, и я вижу все корреляции. Это способ печати всего, dfнезависимо от его размера, или контроля размера тепловой карты?

16 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn