Наука о данных

Вопросы и ответы для специалистов по науке о данных, специалистов по машинному обучению и тех, кто хочет больше узнать об этой области


1
Почему ReLU лучше, чем другие функции активации
Здесь ответ относится к исчезающему и взрывному градиенту, который был sigmoidпохож на функции активации, но, я думаю, Reluимеет недостаток, и это его ожидаемое значение. нет ограничений на вывод Reluи поэтому его ожидаемое значение не равно нулю. Я помню время , прежде чем популярность , Reluчто tanhбыл самым популярным среди машинного …

3
Что означает нотация mAP @ [. 5: .95]?
Для обнаружения общий способ определить, было ли одно предложение объекта правильным, является Пересечением по Объединению (IoU, IU). Он берет набор предложенных пикселей объекта и набор истинных пикселей B объекта и вычисляет:AAAВВB IoU(A,B)=A∩BA∪BIoU(A,B)=A∩BA∪BIoU(A, B) = \frac{A \cap B}{A \cup B} Обычно IoU> 0.5 означает, что это был удар, иначе это был …

2
Doc2Vec - Как пометить абзацы (gensim)
Мне интересно, как пометить (пометить) предложения / абзацы / документы с помощью doc2vec в gensim - с практической точки зрения. Вам нужно иметь каждое предложение / абзац / документ со своей уникальной меткой (например, «Sent_123»)? Это кажется полезным, если вы хотите сказать «какие слова или предложения больше всего похожи на …

3
Bagging vs Dropout в глубоких нейронных сетях
Пакетирование - это создание нескольких предикторов, которые работают так же, как и один предиктор. Dropout - это метод, который обучает нейронные сети усреднять все возможные подсети. Глядя на наиболее важные соревнования Kaggle, кажется, что эти две техники используются вместе очень часто. Я не вижу никакой теоретической разницы, кроме фактической реализации. …

4
K-means: Какие есть хорошие способы выбрать эффективный набор начальных центроидов?
Когда используется случайная инициализация центроидов, разные прогоны K-средних дают разные общие SSE. И это имеет решающее значение в производительности алгоритма. Каковы некоторые эффективные подходы к решению этой проблемы? Недавние подходы приветствуются.

1
Алгоритмы для кластеризации текста
У меня проблема с кластеризацией огромного количества предложений по группам по смыслу. Это похоже на проблему, когда у вас много предложений и вы хотите сгруппировать их по значению. Какие алгоритмы предлагаются для этого? Я не знаю количество кластеров заранее (и по мере поступления новых данных кластеры также могут меняться), какие …

3
Ближайшие соседи ищут данные очень большого размера
У меня есть большая разреженная матрица пользователей и элементов, которые им нравятся (порядка 1М пользователей и 100 тыс. Элементов с очень низким уровнем разреженности). Я исследую способы, которыми я мог бы выполнить поиск kNN на нем. Учитывая размер моего набора данных и некоторые начальные тесты, которые я выполнил, я предполагаю, …

2
Как этика должна применяться в науке о данных
Недавно произошел фурор с Facebook, который экспериментировал со своими пользователями, чтобы узнать, смогут ли они изменить эмоции пользователя, и теперь они взволнованы . Хотя я не профессиональный специалист по данным, я читал об этике науки о данных из книги Кэти О'Нил «Ведение данных» и хотел бы знать, чему это преподают …

4
Дополнительный выходной слой в нейронной сети (от десятичного до двоичного)
Я работаю над вопросом из онлайн-книги: http://neuralnetworksanddeeplearning.com/chap1.html Я могу понять, что если дополнительный выходной слой состоит из 5 выходных нейронов, я мог бы, вероятно, установить смещение в 0,5 и вес 0,5 для каждого предыдущего слоя. Но теперь возникает вопрос о новом слое из четырех выходных нейронов - этого более чем …

6
Что вы используете для создания панели инструментов в R?
Мне нужно создавать периодические (ежедневные, ежемесячные) отчеты панели инструментов веб-аналитики. Они будут статичными и не требуют взаимодействия, поэтому представьте файл PDF в качестве конечного результата. В отчетах будут смешаны таблицы и диаграммы (в основном, спарклайн и маркеры, созданные с помощью ggplot2). Подумайте об инструментальных панелях в стиле Стивена Мало / …
17 r  visualization 

7
Визуализация графа с миллионом вершин
Какой лучший инструмент для визуализации (рисования вершин и ребер) графа с 1000000 вершинами? На графике около 50000 ребер. И я могу вычислить расположение отдельных вершин и ребер. Я думаю о написании программы для генерации SVG. Любые другие предложения?

2
Используйте liblinear на больших данных для семантического анализа
Я использую Libsvm для обучения данных и прогнозирования классификации по проблеме семантического анализа . Но он имеет производительность вопрос о крупномасштабных данных, поскольку касается семантического анализа п-размерности задачи. В прошлом году был выпущен Liblinear , и он может решить проблемы с производительностью. Но это стоило слишком много памяти . Является …

5
Данные в нашей реляционной СУБД становятся большими, не пора ли перейти на NoSQL?
Мы создали приложение социальной сети для целей электронного обучения. Это экспериментальный проект, который мы исследуем в нашей лаборатории. Некоторое время он использовался в некоторых примерах, и данные в нашей реляционной СУБД (SQL Server 2008) становятся большими. Теперь это несколько гигабайт, и таблицы тесно связаны друг с другом. Производительность все еще …

5
Обнаружение кошек визуально с помощью обнаружения аномалий
У меня есть хобби-проект, который я собираюсь посвятить как способ увеличить свой пока ограниченный опыт машинного обучения. Я взял и закончил Coursera MOOC по этой теме. Мой вопрос касается осуществимости проекта. Задача следующая: Соседние кошки время от времени посещают мой сад, что мне не нравится, поскольку они имеют тенденцию испражняться …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.