Вопросы с тегом «data-mining»

Деятельность, которая ищет шаблоны в больших, сложных наборах данных. Обычно в нем делается акцент на алгоритмических методах, но может также использоваться любой набор связанных навыков, приложений или методологий с этой целью.

2
Сколько данных достаточно для обучения моей модели машинного обучения?
Я некоторое время работал над машинным обучением и биоинформатикой, и сегодня у меня был разговор с коллегой по основным общим вопросам интеллектуального анализа данных. Мой коллега (который является экспертом по машинному обучению) сказал, что, по его мнению, возможно, наиболее важный практический аспект машинного обучения заключается в том, как понять, собрали …

4
Как избежать переобучения в случайном лесу?
Я хочу избежать переобучения в случайном лесу. В связи с этим я намерен использовать mtry, nodeize, maxnodes и т. Д. Не могли бы вы помочь мне выбрать значения для этих параметров? Я использую R. Также, если возможно, скажите, пожалуйста, как я могу использовать перекрестную проверку в k-кратном порядке для случайного …

7
LinkedIn веб-соскоб
Недавно я обнаружил новый пакет R для подключения к LinkedIn API. К сожалению, API LinkedIn кажется довольно ограниченным для начала; Например, вы можете получить только базовые данные о компаниях, а это отдельно от данных о физических лицах. Я хотел бы получить данные обо всех сотрудниках данной компании, что вы можете …

3
Отношения между KS, AUROC и Gini
Общая статистика валидации модели, такая как критерий Колмогорова – Смирнова (KS), AUROC и коэффициент Джини , все функционально связаны. Однако мой вопрос касается доказательства того, как все это связано. Мне любопытно, если кто-нибудь может помочь мне доказать эти отношения. Я не смог ничего найти в Интернете, но мне просто искренне …

4
Работа с кластерами HPC
В моем университете у нас есть вычислительный кластер HPC. Я использую кластер для обучения классификаторов и так далее. Поэтому, обычно для отправки задания в кластер (например, сценарий python scikit-learn) мне нужно написать сценарий Bash, который содержит (среди прочего) такую ​​команду qsub script.py. Тем не менее, я нахожу этот процесс очень …

2
Как я могу соответствовать категориальным типам данных для классификации случайных лесов?
Мне нужно найти точность набора обучающих данных, применяя алгоритм случайного леса. Но мой тип набора данных - как категориальный, так и числовой. Когда я пытался уместить эти данные, я получаю сообщение об ошибке. 'Вход содержит NaN, бесконечность или значение, слишком большое для dtype (' float32 ')'. Может быть проблема в …

3
Лучшие языки для научных вычислений [закрыто]
Закрыто . Этот вопрос должен быть более сфокусированным . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он был сосредоточен только на одной проблеме, отредактировав этот пост . Закрыто 5 лет назад . Похоже, что большинство языков имеют некоторое количество доступных библиотек научных вычислений. …
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

4
Визуализация предметов, часто покупаемых вместе
У меня есть набор данных в следующей структуре, вставленной в файл CSV: Banana Water Rice Rice Water Bread Banana Juice Каждая строка указывает коллекцию предметов, которые были куплены вместе. Например, первая строка обозначает, что элементыBanana , Waterи Riceбыли приобретены вместе. Я хочу создать визуализацию следующим образом: Это в основном сеточная …

3
Что быстрее: PostgreSQL против MongoDB на больших наборах данных JSON?
У меня есть большой набор данных с 9-метровыми объектами JSON по ~ 300 байт каждый. Это сообщения из агрегатора ссылок: в основном ссылки (URL, заголовок и идентификатор автора) и комментарии (текст и идентификатор автора) + метаданные. Они вполне могут быть реляционными записями в таблице, за исключением того факта, что у …

4
Как почистить IMDB веб-страницу?
Я пытаюсь самостоятельно изучить работу с использованием Python как часть усилий по изучению анализа данных. Я пытаюсь очистить веб-страницу imdb, URL которой следующий: http://www.imdb.com/search/title?sort=num_votes,desc&start=1&title_type=feature&year=1950,2012 Я использую модуль BeautifulSoup. Ниже приведен код, который я использую: r = requests.get(url) # where url is the above url bs = BeautifulSoup(r.text) for movie in …

2
Масштабируемый выброс / обнаружение аномалий
Я пытаюсь настроить инфраструктуру больших данных, используя Hadoop, Hive, Elastic Search (среди прочих), и я хотел бы запустить некоторые алгоритмы для определенных наборов данных. Мне бы хотелось, чтобы сами алгоритмы были масштабируемыми, поэтому это исключает использование таких инструментов, как Weka, R или даже RHadoop. Библиотека Apache Mahout , по-видимому, является …

4
Почему несколько типов моделей могут давать почти одинаковые результаты?
Я анализировал набор данных из ~ 400 тыс. Записей и 9 переменных. Зависимая переменная является двоичной. Я установил логистическую регрессию, дерево регрессии, случайный лес и дерево с градиентным повышением. Все они дают виртуально идентичные данные соответствия, когда я проверяю их на другом наборе данных. Почему это так? Я предполагаю, что …

4
Какие начальные шаги я должен использовать, чтобы понять большие наборы данных, и какие инструменты я должен использовать?
Предостережение: я начинающий, когда дело доходит до машинного обучения, но хочу учиться. У меня большой набор данных, и я пытаюсь найти в нем закономерность. Может быть / не быть корреляции между данными, либо с известными переменными, либо с переменными, которые содержатся в данных, но которые я еще не осознал, на …

1
Пользователь-продукт положительный (нажмите данные) доступны. Как генерировать негатив (данные без кликов)?
Рекомендуется, чтобы у нас были данные о пользовательских продуктах, которые помечены, например, как «клик». Чтобы узнать модель, мне нужны данные по кликам и без кликов. Простейший подход к генерации - это взять пары продуктов пользователя, которые не найдены в данных о кликах. Однако это может вводить в заблуждение. Пример: user1, …

1
Как рассчитать дельта-член сверточного слоя, учитывая дельта-члены и веса предыдущего сверточного слоя?
Я пытаюсь обучить искусственную нейронную сеть с двумя сверточными слоями (с1, с2) и двумя скрытыми слоями (с1, с2). Я использую стандартный подход обратного распространения. При обратном проходе я вычисляю член ошибки слоя (дельта) на основе ошибки предыдущего слоя, весов предыдущего слоя и градиента активации относительно функции активации текущего слоя. Более …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.