Наука о данных

Вопросы и ответы для специалистов по науке о данных, специалистов по машинному обучению и тех, кто хочет больше узнать об этой области

3
Требуется ли перекрестная проверка для моделирования со случайными лесами?
Насколько я видел, мнения об этом, как правило, расходятся. Лучшая практика, безусловно, диктует использование перекрестной проверки (особенно если сравнивать RF с другими алгоритмами в одном и том же наборе данных). С другой стороны, исходный источник утверждает, что факт ошибки OOB, вычисляемый во время обучения модели, является достаточным показателем эффективности тестового …

4
Нужно ли стандартизировать ваши данные перед кластеризацией?
Нужно ли стандартизировать ваши данные перед кластером? В примере scikit learnо DBSCAN, здесь они делают это в строке: X = StandardScaler().fit_transform(X) Но я не понимаю, зачем это нужно. В конце концов, кластеризация не предполагает какого-либо конкретного распределения данных - это неконтролируемый метод обучения, поэтому его целью является изучение данных. Зачем …

3
K-означает некогерентное поведение, выбирая K с помощью метода Elbow, BIC, объяснение дисперсии и силуэт
Я пытаюсь сгруппировать некоторые векторы с 90 функциями с помощью K-средних. Поскольку этот алгоритм запрашивает у меня количество кластеров, я хочу подтвердить свой выбор с помощью хорошей математики. Я ожидаю иметь от 8 до 10 кластеров. Функции масштабируются по Z-шкале. Метод локтя и дисперсия объяснены from scipy.spatial.distance import cdist, pdist …

7
Цель визуализации данных больших размеров?
Существует много методов визуализации наборов данных высокой размерности, таких как T-SNE, isomap, PCA, контролируемая PCA и т. Д. И мы проходим процессы проецирования данных вниз в 2D или 3D-пространство, поэтому у нас есть «красивые картинки». ». Некоторые из этих методов вложения (многократного обучения) описаны здесь . Но действительно ли эта …


6
Функции кодирования, такие как месяц и час, как категориальные или числовые?
Лучше ли кодировать функции, такие как месяц и час, как фактор или число в модели машинного обучения? С одной стороны, я считаю, что числовое кодирование может быть разумным, поскольку время - это прогрессирующий процесс (за пятым месяцем следует шестой), но с другой стороны, я думаю, что категориальное кодирование может быть …

4
XGBoost сам обрабатывает мультиколлинеарность?
В настоящее время я использую XGBoost для набора данных с 21 функцией (выбранной из списка из 150 функций), а затем горячо закодировал их, чтобы получить ~ 98 функций. Некоторые из этих 98 функций несколько избыточны, например: переменная (функция) также отображается как и .AAAВAВA\frac{B}{A}СAСA\frac{C}{A} Мои вопросы: Как ( если? ) Деревья …

2
Как использовать вывод GridSearch?
В настоящее время я работаю с Python и Scikit для целей классификации, и немного изучаю GridSearch. Я подумал, что это отличный способ оптимизировать параметры моей оценки, чтобы получить наилучшие результаты. Моя методология такая: Разделить мои данные на обучение / тестирование. Используйте GridSearch с 5Fold Cross валидацией для обучения и проверки …

2
Что именно является начальной загрузкой в ​​обучении подкреплению?
По-видимому, в обучении с подкреплением метод временной разности (TD) является методом начальной загрузки. С другой стороны, методы Монте-Карло не являются методами начальной загрузки. Что именно является начальной загрузкой в ​​RL? Что такое метод начальной загрузки в RL?

3
Что такое позиционное кодирование в модели трансформатора?
Я новичок в ML, и это мой первый вопрос здесь, так что извините, если мой вопрос глупый. Я пытаюсь прочитать и понять статью. Внимание - это все, что вам нужно, и в нем есть картинка: Я не знаю, что такое позиционное кодирование . Слушая некоторые видеоролики на YouTube, я обнаружил, …


6
Совместное использование ноутбуков Jupyter в команде
Я хотел бы настроить сервер, который мог бы поддерживать команду по науке данных следующим образом: быть центральным пунктом для хранения, управления версиями, совместного использования и, возможно, также выполнять записные книжки Jupyter. Некоторые желаемые свойства: Различные пользователи могут получать доступ к серверу, открывать и выполнять записные книжки, которые были сохранены ими …

3
Преобразование объектов на входных данных
Я читал о решении этой проблемы OTTO Kaggle, и первое решение, кажется, использует несколько преобразований для входных данных X, например, Log (X + 1), sqrt (X + 3/8) и т. Д. Есть ли общее руководство о том, когда применять какие виды преобразований к различным классификаторам? Я понимаю понятия нормализации среднего …


3
Что является лучшим входом для Word2Vec?
Это больше похоже на общий вопрос НЛП. Что является подходящим входом для обучения встраивания слова, а именно Word2Vec? Должны ли все предложения, принадлежащие статье, быть отдельным документом в корпусе? Или каждая статья должна быть документом в указанном корпусе? Это просто пример использования Python и Gensim. Корпус разделить по предложению: SentenceCorpus …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.