Наука о данных

Вопросы и ответы для специалистов по науке о данных, специалистов по машинному обучению и тех, кто хочет больше узнать об этой области

1
Можно ли считать более близкие точки более похожими в визуализации T-SNE?
Из статьи Хинтона я понимаю, что T-SNE хорошо справляется с сохранением локального сходства и достойной работой по сохранению глобальной структуры (кластеризация). Однако я не уверен, можно ли считать точки, появляющиеся ближе в 2D-визуализации t-sne, «более похожими» точками данных. Я использую данные с 25 функциями. В качестве примера, наблюдая за изображением …

4
Как сделать нечеткое совпадение почтовых адресов?
Я хотел бы знать, как сопоставить почтовые адреса, когда их формат отличается или когда один из них введен неправильно. Пока я нашел разные решения, но думаю, что они довольно старые и не очень эффективные. Я уверен, что существуют лучшие методы, так что если у вас есть ссылки для чтения, я …

2
Быстрый k-означает, как алгоритм для 10 ^ 10 баллов?
Я хочу сделать кластеризацию k-средних на множестве 10-мерных точек. Подвох: 10 ^ 10 баллов . Я ищу только центр и размер самых больших кластеров (скажем, от 10 до 100 кластеров); Меня не волнует, в каком кластере заканчивается каждая точка. Использование k-средних определенно не важно; Я просто ищу подобный эффект, любой …

4
Дерево решений или логистическая регрессия?
Я работаю над проблемой классификации. У меня есть набор данных, содержащий равное количество категориальных переменных и непрерывных переменных. Как я узнаю, какую технику использовать? между деревом решений и логистической регрессией? Правильно ли предположить, что логистическая регрессия будет более подходящей для непрерывной переменной, а дерево решений будет более подходящим для непрерывной …

2
Использование атрибутов для классификации / кластеризации пользовательских профилей
У меня есть набор данных пользователей, покупающих продукты с веб-сайта. У меня есть следующие атрибуты: идентификатор пользователя, регион (штат) пользователя, идентификатор категории продукта, идентификатор ключевых слов продукта, идентификатор ключевых слов веб-сайта и объем продаж продукта. Цель состоит в том, чтобы использовать информацию о продукте и веб-сайте, чтобы идентифицировать пользователей, таких …

1
Библиотеки машинного обучения для Ruby
Существуют ли какие-либо библиотеки машинного обучения для Ruby, которые являются относительно полными (включая широкий спектр алгоритмов для обучения под наблюдением и без надзора), надежно протестированы и хорошо документированы? Я люблю Scikit-Learn Python за его невероятную документацию, но клиент предпочел бы писать код на Ruby, поскольку он знаком с этим. В …

2
Модель двоичной классификации для несбалансированных данных
У меня есть набор данных со следующими спецификациями: Учебный набор данных с 193 176 пробами с 2821 положительным результатом Тестовый набор данных с 82 887 образцами с 673 положительными Есть 10 функций. Я хочу выполнить двоичную классификацию (0 или 1). Проблема, с которой я сталкиваюсь, заключается в том, что данные …

4
Каковы последствия для обучения ансамбля дерева с сильно смещенными наборами данных?
У меня есть сильно смещенный набор двоичных данных - у меня в 1000 раз больше примеров отрицательного класса, чем положительного. Я хотел бы обучить ансамбль дерева (например, дополнительные случайные деревья или случайный лес) на этих данных, но сложно создать обучающие наборы данных, которые содержат достаточно примеров положительного класса. Каковы будут …

4
Нужны, например, инфраструктурные стеки / рабочие процессы / конвейеры
Я пытаюсь понять, как все компоненты «больших данных» играют вместе в реальном случае, например, hadoop, monogodb / nosql, storm, kafka, ... Я знаю, что это довольно широкий спектр инструментов, используемых для разные типы, но я хотел бы узнать больше об их взаимодействии в приложениях, например, мышление, машинное обучение для приложения, …

1
Могут ли деревья с градиентным усилением соответствовать любой функции?
Для нейронных сетей мы имеем универсальную теорему аппроксимации, которая утверждает, что нейронные сети могут аппроксимировать любую непрерывную функцию на компактном подмножестве .рNрNR^n Есть ли аналогичный результат для деревьев с градиентным усилением? Это кажется разумным, так как вы можете продолжать добавлять больше веток, но я не могу найти никакого официального обсуждения …

1
Как добавить функции не-изображения вдоль боковых изображений в качестве входных данных CNN
Я тренирую сверточную нейронную сеть для классификации изображений в условиях тумана (3 класса). Однако для каждого из 150 000 изображений у меня также есть четыре метеорологические переменные, которые могут помочь в прогнозировании классов изображений. Мне было интересно, как я могу добавить метеорологические переменные (например, температуру, скорость ветра) к существующей структуре …

3
Есть ли в ImageNet класс человека? Есть ли классы, связанные с людьми?
Если я смотрю на одном из многочисленных источников для классов Imagenet по Интернету я не могу найти ни одного класса , связанного с людьми (и нет, сенокосец не тот , кто собирает, но это то , что я знал , как папа Longlegs, своего рода паук :-). Как это возможно? …

1
Как выбрать точку разделения для непрерывных переменных в деревьях решений?
У меня есть два вопроса, связанных с деревьями решений: Если у нас есть непрерывный атрибут, как мы выбираем значение разделения? Пример: возраст = (20,29,50,40 ....) Представьте себе , что мы имеем непрерывный атрибут , которые имеют значение в . Как я могу написать алгоритм, который находит точку разделения , чтобы …

1
RNN с использованием нескольких временных рядов
Я пытаюсь создать нейронную сеть, используя временные ряды в качестве входных данных, чтобы обучать ее на основе типа каждой серии. Я читал, что, используя RNN, вы можете разделить входные данные на пакеты и использовать каждую точку временного ряда в отдельных нейронах и, в конечном итоге, обучить сеть. Однако я пытаюсь …
14 time-series  rnn 

5
Начинающие математические книги для машинного обучения
Я инженер по компьютерным наукам, не обладаю знаниями в области статистики или математики. Я изучаю книгу « Машинное обучение Python» Рашки и Миржалили, но когда я попытался понять математику машинного обучения, я не смог понять замечательную книгу, которую мой друг предлагает мне «Элементы статистического обучения» . Знаете ли вы какие-нибудь …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.