Наука о данных

Вопросы и ответы для специалистов по науке о данных, специалистов по машинному обучению и тех, кто хочет больше узнать об этой области

5
Разница между политикой сети AlphaGo и сетью ценностей
Я читал обзор высокого уровня об AlphaGo от Google ( http://googleresearch.blogspot.co.uk/2016/01/alphago-mastering-ancient-game-of-go.html ), и я столкнулся с условиями "политика" сеть "и" сеть ценностей ". На высоком уровне я понимаю, что сеть политик используется для предложения шагов, а сеть ценностей используется для «уменьшения глубины дерева поиска [и оценки] победителя в каждой позиции …

4
Word2Vec для распознавания именованных объектов
Я собираюсь использовать реализацию word2vec от Google для создания системы распознавания именованных сущностей. Я слышал, что рекурсивные нейронные сети с обратным распространением через структуру хорошо подходят для задач распознавания именованных сущностей, но я не смог найти достойную реализацию или подходящее руководство для этого типа модели. Поскольку я работаю с нетипичным …

3
Коэффициент Джини против примеси Джини - деревья решений
Проблема касается построения деревьев решений. Согласно Википедии « коэффициент Джини » не следует путать с « примесью Джини ». Однако обе меры можно использовать при построении дерева решений - они могут поддержать наш выбор при разделении набора элементов. 1) «примесь Джини» - это стандартная метрика разбиения дерева решений (см. Ссылку …

3
Зачем нам XGBoost и Random Forest?
Я не был ясен в паре концепций: XGBoost превращает слабых учеников в сильных учеников. В чем преимущество этого? Объединить много слабых учеников вместо одного дерева? Random Forest использует различные образцы из дерева для создания дерева. В чем преимущество этого метода вместо использования единственного дерева?

5
Образ VM для проектов по науке о данных
Поскольку существует множество инструментов, доступных для задач по науке о данных, и неудобно устанавливать все и создавать идеальную систему. Существует ли образ Linux / Mac OS с установленными и доступными для немедленного использования людьми Python, R и другими открытыми инструментами для анализа данных? Идеально подойдет Ubuntu или легковесная ОС с …
24 python  r  tools 

4
Scikit-learn: получение SGDClassifier для прогнозирования, а также логистическая регрессия
Способ обучения Логистической регрессии - использование стохастического градиентного спуска, к которому Scikit-Learn предлагает интерфейс. То , что я хотел бы сделать , это принять scikit-Learn - х SGDClassifier и он забьет такой же , как логистическая регрессия здесь . Тем не менее, мне не хватает некоторых улучшений машинного обучения, так …

4
Есть ли случайный лес наряд?
Я читал вокруг о случайных лесах, но я не могу найти окончательного ответа о проблеме переоснащения. Согласно оригинальной статье Бреймана, они не должны переодеваться при увеличении количества деревьев в лесу, но, похоже, по этому поводу нет единого мнения. Это создает мне некоторую путаницу по этому вопросу. Может быть, кто-то более …

9
Любая консоль Online R?
Я ищу онлайн-консоль для языка R. Как будто я пишу код, и сервер должен выполнить и предоставить мне вывод. Похоже на сайт Datacamp.
24 r  statistics 

3
Почему сообщества НЛП и машинного обучения заинтересованы в глубоком обучении?
Я надеюсь, что вы можете мне помочь, так как у меня есть несколько вопросов на эту тему. Я новичок в области глубокого обучения, и хотя я сделал несколько уроков, я не могу связать или отличить понятия друг от друга.

3
Лучшие практики для хранения моделей машинного обучения Python
Каковы лучшие практики для сохранения, хранения и обмена моделями машинного обучения? В Python мы обычно храним двоичное представление модели, используя pickle или joblib. Модели, в моем случае, могут быть размером ~ 100Mo. Кроме того, joblib может сохранять одну модель в нескольких файлах, если вы не укажете compress=1( /programming/33497314/sklearn-dumping-model-using-joblib-dumps-multiple-files-which-one-is-the- кор ). …

4
Значение скрытых черт?
Я изучаю матричную факторизацию для рекомендательных систем и вижу, что этот термин latent featuresвстречается слишком часто, но я не могу понять, что он означает. Я знаю, что такое функция, но я не понимаю идею скрытых функций. Не могли бы вы объяснить это? Или, по крайней мере, указать мне бумагу / …

4
Всегда ли лучше использовать весь набор данных для обучения окончательной модели?
Обычная техника после обучения, проверки и тестирования предпочтительной модели машинного обучения заключается в использовании полного набора данных, включая подмножество тестирования, для обучения окончательной модели для ее развертывания , например, в продукте. Мой вопрос: всегда ли это лучше? Что, если производительность действительно ухудшается? Например, давайте предположим случай, когда модель получает около …

3
В чем разница между градиентным спуском и стохастическим градиентным спуском?
В чем разница между градиентным спуском и стохастическим градиентным спуском? Я не очень знаком с ними, можете ли вы описать разницу с помощью короткого примера?

3
Идеи проекта Data Science [закрыто]
Закрыто . Этот вопрос основан на мнении . В настоящее время не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы ответить на него фактами и цитатами, отредактировав этот пост . Закрыто 5 лет назад . Я не знаю, является ли это правильным местом для того, чтобы задать этот вопрос, …


Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.