Статистика и большие данные dataset

3

Должен ли выбор функций выполняться только для данных обучения (или всех данных)?

Должен ли выбор функций выполняться только для данных обучения (или всех данных)? Я прошел через некоторые обсуждения и документы, такие как Guyon (2003) и Singhi and Liu (2006) , но все еще не был уверен в правильном ответе. Моя экспериментальная установка выглядит следующим образом: Набор данных: 50 здоровых контрольных пациентов …

10 dataset cross-validation experiment-design feature-selection

3

Каков наиболее эффективный способ тренировки данных с наименьшим объемом памяти?

Это мои тренировочные данные: 200 000 примеров х 10 000 функций. Итак, моя матрица тренировочных данных - 200 000 x 10 000. Мне удалось сохранить это в плоском файле без проблем с памятью, сохраняя каждый набор данных один за другим (один пример за другим), поскольку я генерировал функции для каждого …

10 machine-learning dataset algorithms python

3

Детское статистическое образование в разных странах?

Мне интересно знать, какой уровень статистики дети изучают в разных странах мира. Не могли бы вы предложить данные / ссылки, которые проливают свет на то, что происходит в этом отношении? Я начну. Израиль: студенты, изучающие углубленную математику, изучают более или менее - среднее значение, стандартное отклонение, гистограмма, нормальное распределение, очень …

10 dataset teaching

3

Использование регрессии для проецирования за пределы диапазона данных, хорошо? никогда не хорошо? иногда хорошо?

Что вы думаете об использовании регрессии для проецирования за пределы диапазона данных? Если мы уверены, что она соответствует форме линейной или мощной модели, не может ли модель быть полезной за пределами диапазона данных? Например, у меня объем зависит от цены. Мы должны быть в состоянии прогнозировать цены вне диапазона данных, …

10 regression dataset linear-model

2

Что такое бакетизация?

Я собирался найти четкое объяснение "сгибания" в машинном обучении без удачи. Что я понимаю до сих пор, так это то, что бекетирование аналогично квантованию в цифровой обработке сигналов, когда диапазон непрерывных значений заменяется одним дискретным значением. Это правильно? Каковы плюсы и минусы (помимо очевидного влияния потери информации) применения букетизации? Существуют …

10 machine-learning dataset data-preprocessing

2

Максимальный и закрытый частый - ответ включен

1 : , В , С , Е 2 : , С , Д , Е 3 : В , С , Е 4 : , С , Д , Е 5 : С , Д , E 6 : A , D , EMy dataset:My dataset:My \ \ dataset: …

10 data-mining dataset association-rules

2

Обучение на реляционных данных

Настройки Многие алгоритмы работают с одним отношением или таблицей, в то время как многие реальные базы данных хранят информацию в нескольких таблицах (Domingos, 2003). Вопрос: Какие типы алгоритмов хорошо усваиваются из нескольких (реляционных) таблиц. В частности, меня интересуют алгоритмы, применимые к задачам регрессии и классификации (не ориентированные на сетевой анализ, …

9 regression machine-learning classification dataset

1

Как сравнить наблюдаемые и ожидаемые события?

Предположим, у меня есть одна выборка частот из 4 возможных событий: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 и у меня есть ожидаемые вероятности того, что мои события произойдут: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 С суммой наблюдаемых частот …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

2

Где я могу найти наборы данных, полезные для тестирования моих собственных реализаций машинного обучения? [закрыто]

Закрыто. Этот вопрос не по теме . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто 6 лет назад . В настоящее время я пытаюсь реализовать некоторые алгоритмы машинного обучения самостоятельно. Многие из них обладают неприятным свойством трудной отладки, …

9 dataset

1

Как количественно оценить статистическую незначимость?

Я относительно новичок в статистике и понимаю, что мой вопрос может быть полностью неверным. Я проверяю свой алгоритм против другого. Хотя результаты не идентичны, я хочу показать, что различия «статистически незначимы». Как я могу измерить это, чтобы выразить свою точку зрения?

9 correlation statistical-significance dataset

4

Как бороться с пробелами / NaN в данных временных рядов при использовании Matlab для автокорреляции и нейронных сетей?

У меня есть временной ряд измерений (высота-одномерный ряд). В период наблюдения процесс измерения замедлился на несколько моментов времени. Таким образом, полученные данные представляют собой вектор с NaN, где в данных были пробелы. Используя MATLAB, это вызывает у меня проблему при вычислении автокорреляции ( autocorr) и применении нейронных сетей ( nnstart). …

9 time-series dataset matlab autocorrelation missing-data

7

Поиск 2D искусственных данных для демонстрации свойств алгоритмов кластеризации

Я ищу наборы данных 2-мерных точек данных (каждый пункт данных является вектором двух значений (x, y)) следующих разных распределений и форм. Код для генерации таких данных также будет полезен. Я хочу использовать их для построения / визуализации работы некоторых алгоритмов кластеризации. Вот некоторые примеры: звездные облачные данные четыре кластера, один …

9 distributions data-visualization clustering dataset

7

Наборы данных для примеров визуализации данных, обучения и исследований

Я ищу существующие наборы данных, которые мы можем использовать для тестирования нескольких методов данных, которые мы исследуем. Я знаю несколько ресурсов, подобных тем, которые включены в R (попробуйте plot(Orange)или посмотрите здесь ). Но я бы хотел сделать шаг вперед: Каковы лучшие наборы данных для тестирования инструмента визуализации? Какие наборы данных …

9 data-visualization dataset teaching

2

Рассчитать кривую ROC для данных

Итак, у меня есть 16 испытаний, в которых я пытаюсь идентифицировать человека по биометрической характеристике, используя расстояние Хэмминга. Мой порог установлен на 3,5. Мои данные ниже, и только пробная версия 1 является истинным положительным результатом: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 …

9 mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

Вопросы с тегом «dataset»