Вопросы с тегом «validation»

Процесс оценки вероятности того, что результаты анализа будут проводиться за пределами исходных условий исследования. НЕ ИСПОЛЬЗУЙТЕ этот тег для обсуждения «достоверности» измерения или инструмента (например, для измерения того, к чему он относится), вместо этого используйте тег [validity].

2
Scikit правильный способ калибровки классификаторов с CalibratedClassifierCV
Scikit имеет CalibratedClassifierCV , который позволяет нам калибровать наши модели по определенной паре X, Y. В нем также четко указано, чтоdata for fitting the classifier and for calibrating it must be disjoint. Если они должны быть непересекающимися, законно ли обучать классификатор следующим? model = CalibratedClassifierCV(my_classifier) model.fit(X_train, y_train) Я боюсь, что, …

1
При построении регрессионной модели с использованием отдельных наборов моделирования / валидации уместно ли «рециркулировать» данные валидации?
Предположим, у меня есть 80/20 раскол между наблюдениями моделирования / валидации. Я приспособил модель к набору данных моделирования, и меня устраивает ошибка, которую я вижу в наборе данных проверки. Прежде чем развернуть мою модель для оценки будущих наблюдений, уместно ли объединить валидацию с данными моделирования, чтобы получить обновленные оценки параметров …

3
Почему в классической статистике не используется метод удержания (разделение данных на обучение и тестирование)?
В моей классной работе по извлечению данных был предложен метод удержания для оценки производительности модели. Однако, когда я взял свой первый класс по линейным моделям, это не было введено как средство проверки или оценки модели. Мои онлайн-исследования также не показывают какого-либо пересечения. Почему метод удержания не используется в классической статистике?

1
Наименование средней абсолютной ошибки, аналогичной шкале Бриера?
Вчерашний вопрос « Определить точность модели, которая оценивает вероятность события» , заинтересовал меня оценкой вероятности. Оценка Бриера - это мера среднего квадрата ошибки. Показывает ли аналогичная средняя абсолютная погрешность показатели эффективности есть имя тоже?11NΣя = 1N( Р г е дя с т я о пя- р е фe r e …

3
Разделение данных временного ряда на наборы Train / Test / Validation
Каков наилучший способ разбить данные временного ряда на наборы поезд / тест / проверка, где набор проверки будет использоваться для настройки гиперпараметра? У нас есть данные о ежедневных продажах за 3 года, и мы планируем использовать 2015-2016 гг. В качестве данных обучения, затем случайным образом выбрать 10 недель из данных …

2
Является ли коэффициент ошибок выпуклой функцией лямбда-параметра регуляризации?
При выборе параметра регуляризации лямбда в Ridge или Lasso рекомендуется использовать разные значения лямбды, измерить ошибку в наборе валидации и, наконец, выбрать то значение лямбды, которое возвращает наименьшую ошибку. Мне не понятно, если функция f (лямбда) = error является выпуклой. Может ли быть так? Т.е. эта кривая может иметь более …

1
Какова интуиция в изменении метрики информации (VI) для проверки кластера?
Для таких статистиков, как я, очень трудно уловить идею VIметрики (вариации информации) даже после прочтения соответствующей статьи Марины Мелиа « Сравнение кластеризаций - расстояние, основанное на информации » (Journal of Multivariate Analysis, 2007). На самом деле, я не знаком со многими терминами кластеризации. Ниже приведен MWE, и я хотел бы …

1
Метрика оценки прогноза для панельных / продольных данных
Я хотел бы оценить несколько различных моделей, которые обеспечивают предсказания поведения на ежемесячном уровне. Данные сбалансированы, и 100 000 и T = 12. В результате посещение концерта происходит в определенном месяце, поэтому оно равно нулю для ~ 80% людей в любом месяце, но есть длинный правый хвост для активных пользователей. …

3
Что такое проверка согласованности?
Мне был задан такой вопрос, как «Проводили ли вы проверку согласованности в своей повседневной работе?» во время телефонного интервью на должность биостатиста. Я не знаю что ответить. Любая информация приветствуется.
11 validation 

2
Как сделать репрезентативную выборку из большого общего набора данных?
Каковы статистические методы для создания выборочного набора, который является репрезентативным для всего населения (с известным уровнем достоверности)? Также, Как проверить, соответствует ли образец общему набору данных? Возможно ли это без разбора всего набора данных (который может быть миллиардами записей)?

2
Смещение оптимизма - оценки ошибки прогноза
В книге «Элементы статистического обучения» (доступно в формате PDF онлайн) обсуждается предвзятость (7.21, стр. 229). В нем говорится, что смещение оптимизма - это разница между ошибкой обучения и ошибкой в ​​выборке (ошибка наблюдается, если мы выбираем новые значения результатов в каждой из исходных точек обучения) (см. Ниже). Далее он заявляет, …

4
Расчет соотношения выборочных данных, используемых для подбора модели / обучения и проверки
Предоставил размер выборки «N», который я планирую использовать для прогнозирования данных. Каковы некоторые из способов подразделить данные так, чтобы я использовал некоторые из них для установления модели, а остальные данные для проверки модели? Я знаю, что нет черно-белого ответа на этот вопрос, но было бы интересно узнать некоторые «практические правила» …
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.