Наука о данных

3

Учитывает ли частота кликов релевантность?

При построении рейтинга, скажем, для поисковой системы или системы рекомендаций, допустимо ли полагаться на частоту кликов для определения релевантности записи?

17 recommender-system information-retrieval

1

Почему ReLU лучше, чем другие функции активации

Здесь ответ относится к исчезающему и взрывному градиенту, который был sigmoidпохож на функции активации, но, я думаю, Reluимеет недостаток, и это его ожидаемое значение. нет ограничений на вывод Reluи поэтому его ожидаемое значение не равно нулю. Я помню время , прежде чем популярность , Reluчто tanhбыл самым популярным среди машинного …

17 machine-learning neural-network deep-learning gradient-descent activation-function

3

Что означает нотация mAP @ [. 5: .95]?

Для обнаружения общий способ определить, было ли одно предложение объекта правильным, является Пересечением по Объединению (IoU, IU). Он берет набор предложенных пикселей объекта и набор истинных пикселей B объекта и вычисляет:AAAВВB IoU(A,B)=A∩BA∪BIoU(A,B)=A∩BA∪BIoU(A, B) = \frac{A \cap B}{A \cup B} Обычно IoU> 0.5 означает, что это был удар, иначе это был …

17 computer-vision

2

Doc2Vec - Как пометить абзацы (gensim)

Мне интересно, как пометить (пометить) предложения / абзацы / документы с помощью doc2vec в gensim - с практической точки зрения. Вам нужно иметь каждое предложение / абзац / документ со своей уникальной меткой (например, «Sent_123»)? Это кажется полезным, если вы хотите сказать «какие слова или предложения больше всего похожи на …

17 machine-learning text-mining word-embeddings word2vec

3

Bagging vs Dropout в глубоких нейронных сетях

Пакетирование - это создание нескольких предикторов, которые работают так же, как и один предиктор. Dropout - это метод, который обучает нейронные сети усреднять все возможные подсети. Глядя на наиболее важные соревнования Kaggle, кажется, что эти две техники используются вместе очень часто. Я не вижу никакой теоретической разницы, кроме фактической реализации. …

17 machine-learning neural-network deep-learning

4

K-means: Какие есть хорошие способы выбрать эффективный набор начальных центроидов?

Когда используется случайная инициализация центроидов, разные прогоны K-средних дают разные общие SSE. И это имеет решающее значение в производительности алгоритма. Каковы некоторые эффективные подходы к решению этой проблемы? Недавние подходы приветствуются.

17 data-mining clustering k-means

1

Алгоритмы для кластеризации текста

У меня проблема с кластеризацией огромного количества предложений по группам по смыслу. Это похоже на проблему, когда у вас много предложений и вы хотите сгруппировать их по значению. Какие алгоритмы предлагаются для этого? Я не знаю количество кластеров заранее (и по мере поступления новых данных кластеры также могут меняться), какие …

17 clustering text-mining algorithms scikit-learn

3

Ближайшие соседи ищут данные очень большого размера

У меня есть большая разреженная матрица пользователей и элементов, которые им нравятся (порядка 1М пользователей и 100 тыс. Элементов с очень низким уровнем разреженности). Я исследую способы, которыми я мог бы выполнить поиск kNN на нем. Учитывая размер моего набора данных и некоторые начальные тесты, которые я выполнил, я предполагаю, …

17 machine-learning distributed map-reduce dimensionality-reduction

2

Как этика должна применяться в науке о данных

Недавно произошел фурор с Facebook, который экспериментировал со своими пользователями, чтобы узнать, смогут ли они изменить эмоции пользователя, и теперь они взволнованы . Хотя я не профессиональный специалист по данным, я читал об этике науки о данных из книги Кэти О'Нил «Ведение данных» и хотел бы знать, чему это преподают …

17 social-network-analysis

4

Дополнительный выходной слой в нейронной сети (от десятичного до двоичного)

Я работаю над вопросом из онлайн-книги: http://neuralnetworksanddeeplearning.com/chap1.html Я могу понять, что если дополнительный выходной слой состоит из 5 выходных нейронов, я мог бы, вероятно, установить смещение в 0,5 и вес 0,5 для каждого предыдущего слоя. Но теперь возникает вопрос о новом слое из четырех выходных нейронов - этого более чем …

17 neural-network

6

Что вы используете для создания панели инструментов в R?

Мне нужно создавать периодические (ежедневные, ежемесячные) отчеты панели инструментов веб-аналитики. Они будут статичными и не требуют взаимодействия, поэтому представьте файл PDF в качестве конечного результата. В отчетах будут смешаны таблицы и диаграммы (в основном, спарклайн и маркеры, созданные с помощью ggplot2). Подумайте об инструментальных панелях в стиле Стивена Мало / …

17 r visualization

7

Визуализация графа с миллионом вершин

Какой лучший инструмент для визуализации (рисования вершин и ребер) графа с 1000000 вершинами? На графике около 50000 ребер. И я могу вычислить расположение отдельных вершин и ребер. Я думаю о написании программы для генерации SVG. Любые другие предложения?

17 visualization graphs

2

Используйте liblinear на больших данных для семантического анализа

Я использую Libsvm для обучения данных и прогнозирования классификации по проблеме семантического анализа . Но он имеет производительность вопрос о крупномасштабных данных, поскольку касается семантического анализа п-размерности задачи. В прошлом году был выпущен Liblinear , и он может решить проблемы с производительностью. Но это стоило слишком много памяти . Является …

17 machine-learning bigdata libsvm

5

Данные в нашей реляционной СУБД становятся большими, не пора ли перейти на NoSQL?

Мы создали приложение социальной сети для целей электронного обучения. Это экспериментальный проект, который мы исследуем в нашей лаборатории. Некоторое время он использовался в некоторых примерах, и данные в нашей реляционной СУБД (SQL Server 2008) становятся большими. Теперь это несколько гигабайт, и таблицы тесно связаны друг с другом. Производительность все еще …

17 nosql relational-dbms

5

Обнаружение кошек визуально с помощью обнаружения аномалий

У меня есть хобби-проект, который я собираюсь посвятить как способ увеличить свой пока ограниченный опыт машинного обучения. Я взял и закончил Coursera MOOC по этой теме. Мой вопрос касается осуществимости проекта. Задача следующая: Соседние кошки время от времени посещают мой сад, что мне не нравится, поскольку они имеют тенденцию испражняться …

17 machine-learning