Вопросы с тегом «large-data»

«Большие данные» относятся к ситуациям, когда количество наблюдений (точек данных) настолько велико, что требует изменений в том, как аналитик данных думает или проводит анализ. (Не путать с «высокой размерностью».)

1
Как рассчитать меру точности на основе RMSE? Мой большой набор данных нормально распределен?
У меня есть несколько наборов данных порядка тысяч точек. Значения в каждом наборе данных: X, Y, Z, относящиеся к координате в пространстве. Z-значение представляет собой разницу высот в координатной паре (x, y). Как правило, в моей области ГИС ошибка превышения указывается в RMSE путем вычитания точки истинности относительно точки измерения …

3
Как быстро выбрать важные переменные из очень большого набора данных?
У меня есть набор данных с около 2000 двоичных переменных / 200 000 строк, и я пытаюсь предсказать одну двоичную зависимую переменную. Моя главная цель на данном этапе - не получить точность прогноза, а скорее определить, какие из этих переменных являются важными предикторами. Я хотел бы уменьшить количество переменных в …

3
Компактная кластеризация
Большинство алгоритмов кластеризации, которые я видел, начинаются с создания расстояний между каждым из всех точек, что становится проблематичным для больших наборов данных. Есть тот, кто этого не делает? Или это какой-то частичный / приблизительный / ступенчатый подход? Какой алгоритм / реализация кластеризации занимает меньше O (n ^ 2) места? Есть …

1
Могу ли я подвыбор большого набора данных на каждой итерации MCMC?
Проблема: я хочу выполнить выборку Гиббса, чтобы вывести некоторую апостериорную часть по большому набору данных. К сожалению, моя модель не очень проста, поэтому выборка слишком медленная. Я бы рассмотрел вариационные или параллельные подходы, но прежде чем идти так далеко ... Вопрос: Я хотел бы знать, мог ли бы я случайно …
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.