Наука о данных

Вопросы и ответы для специалистов по науке о данных, специалистов по машинному обучению и тех, кто хочет больше узнать об этой области

6
Почему сверточные нейронные сети работают?
Я часто слышал, как люди говорили, почему сверточные нейронные сети все еще плохо поняты. Известно ли, почему сверточные нейронные сети всегда заканчивают тем, что изучают все более сложные функции, когда мы поднимаемся по уровням? Что заставило их создать такой набор функций, и будет ли это также верно для других типов …

5
Расчет расхождения KL в Python
Я довольно новичок в этом и не могу сказать, что у меня есть полное понимание теоретических концепций этого. Я пытаюсь вычислить расхождение KL между несколькими списками точек в Python. Я использую http://scikit-learn.org/stable/modules/generated/sklearn.metrics.mutual_info_score.html, чтобы попытаться это сделать. Проблема, с которой я сталкиваюсь, состоит в том, что возвращаемое значение одинаково для любых …

4
Является ли Data Science таким же, как Data Mining?
Я уверен, что наука о данных, как будет обсуждаться на этом форуме, имеет несколько синонимов или, по крайней мере, смежные области, где анализируются большие данные. Мой конкретный вопрос касается Data Mining. Я взял аспирантуру в Data Mining несколько лет назад. Каковы различия между Data Science и Data Mining и, в …

3
Как вы управляете ожиданиями на работе?
Несмотря на все шумихи вокруг науки о данных, машинного обучения и истории успеха, существует много как оправданных, так и завышенных ожиданий от ученых-исследователей и их прогностических моделей. Мой вопрос к практикующим статистикам, специалистам по машинному обучению и специалистам по данным - как вы управляете ожиданиями деловых людей в вашей компании, …

2
Как бороться с временными рядами, которые изменяют сезонность или другие закономерности?
Задний план Я работаю над набором данных временных рядов показаний счетчиков энергии. Длина ряда варьируется в зависимости от метра - у некоторых у меня есть несколько лет, у других - всего несколько месяцев и т. Д. Многие демонстрируют значительную сезонность, а часто и несколько слоев - в течение дня, недели …


2
Как рассчитать mAP для задачи обнаружения для PASCAL VOC Challenge?
Как рассчитать mAP (среднее значение точности) для задачи обнаружения для таблиц лидеров Vascal Pascal? http://host.robots.ox.ac.uk:8080/leaderboard/displaylb.php?challengeid=11&compid=4 Там сказано - на странице 11 : http://homepages.inf.ed.ac.uk/ckiw/postscript/ijcv_voc09.pdf Средняя точность (AP). Для задачи VOC2007 интерполированная средняя точность (Salton and Mcgill 1986) использовалась для оценки как классификации, так и обнаружения. Для заданной задачи и класса кривая …


3
Объединение нескольких фреймов данных построчно в PySpark
У меня есть 10 фреймов данных pyspark.sql.dataframe.DataFrame, полученных randomSplitкак. (td1, td2, td3, td4, td5, td6, td7, td8, td9, td10) = td.randomSplit([.1, .1, .1, .1, .1, .1, .1, .1, .1, .1], seed = 100)Теперь я хочу объединить 9 tdфреймов в один фрейм данных, как мне это сделать? Я уже пробовал с …

3
Каков хороший способ преобразовать циклические порядковые атрибуты?
У меня есть поле «час» в качестве моего атрибута, но оно принимает циклические значения. Как я мог преобразовать функцию, чтобы сохранить информацию, как '23' и '0' час близки. Один способ, которым я мог бы подумать, - это сделать преобразование: min(h, 23-h) Input: [0 1 2 3 4 5 6 7 …

1
Существуют ли правила выбора размера мини-партии?
При обучении нейронных сетей одним гиперпараметром является размер мини-пакета. Обычный выбор - 32, 64 и 128 элементов в каждой партии. Существуют ли какие-либо правила / рекомендации, какими большими должны быть мини-партии? Какие-нибудь публикации, которые исследуют влияние на обучение?

3
Как загрузить предварительно подготовленную модель FastText с помощью Gensim?
Я попытался загрузить предварительно обученную модель fastText отсюда модель Fasttext . Я использую wiki.simple.en from gensim.models.keyedvectors import KeyedVectors word_vectors = KeyedVectors.load_word2vec_format('wiki.simple.bin', binary=True) Но он показывает следующие ошибки Traceback (most recent call last): File "nltk_check.py", line 28, in <module> word_vectors = KeyedVectors.load_word2vec_format('wiki.simple.bin', binary=True) File "P:\major_project\venv\lib\sitepackages\gensim\models\keyedvectors.py",line 206, in load_word2vec_format header = utils.to_unicode(fin.readline(), …
21 nlp  gensim 

3
Нейронная сеть для множественной выходной регрессии
У меня есть набор данных, содержащий 34 входных столбца и 8 выходных столбцов. Один из способов решения этой проблемы - взять 34 входа и построить индивидуальную модель регрессии для каждого выходного столбца. Мне интересно, если эта проблема может быть решена с помощью только одной модели, особенно с помощью нейронной сети. …

5
Являются ли алгоритмы дерева решений линейными или нелинейными
Недавно моего друга спросили, являются ли алгоритмы дерева решений линейными или нелинейными алгоритмами в интервью. Я пытался найти ответы на этот вопрос, но не смог найти удовлетворительного объяснения. Может кто-нибудь ответить и объяснить решение этого вопроса? Кроме того, каковы некоторые другие примеры нелинейных алгоритмов машинного обучения?

2
train_test_split () ошибка: найдены входные переменные с непоследовательным количеством сэмплов
Довольно плохо знаком с Python, но строю свою первую модель RF на основе некоторых классификационных данных. Я преобразовал все метки в числовые данные int64 и загрузил их в X и Y в виде пустого массива, но у меня возникает ошибка, когда я пытаюсь обучить модели. Вот как выглядят мои массивы: …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.