Вопросы с тегом «out-of-sample»

Относится к практике оценки производительности модели на некотором «тестовом», «удерживающем» или «вневыборочном» наборе данных, который не использовался для построения модели.

8
Как я могу гарантировать, что данные тестирования не попадут в данные обучения?
Предположим, у нас есть кто-то, строящий прогностическую модель, но он не обязательно хорошо разбирается в надлежащих статистических или машинных принципах обучения. Может быть, мы помогаем этому человеку, когда он учится, или, возможно, этот человек использует какой-то пакет программного обеспечения, который требует минимальных знаний для использования. Теперь этот человек вполне может …

4
Поддержал ли журнал Science анализ анализов в Саду Форка?
Идея адаптивного анализа данных заключается в том, что вы меняете свой план анализа данных, когда узнаете о них больше. В случае исследовательского анализа данных (EDA) это, как правило, хорошая идея (вы часто ищете непредвиденные закономерности в данных), но для подтверждающего исследования это широко признается как очень некорректный метод анализа (если …

5
Новый революционный способ добычи данных?
Следующий отрывок взят из интервью Швагера «Рынок хедж-фондов Wizzards» (май 2012 года) с постоянно успешным менеджером хедж-фонда Джаффреем Вудриффом: На вопрос: «Каковы некоторые из худших ошибок, которые люди допускают при извлечении данных?»: Многие люди думают, что они в порядке, потому что они используют данные в выборке для обучения и данные …

3
Нужен ли нам набор тестов при использовании перекрестной проверки в k-кратном порядке?
Я читал о проверке K-Fold, и я хочу убедиться, что я понимаю, как это работает. Я знаю, что для метода удержания данные делятся на три набора, и набор тестов используется только в самом конце для оценки производительности модели, в то время как набор проверки используется для настройки гиперпараметров и т. …

1
Является ли личная таблица лидеров Kaggle хорошим предиктором непревзойденной производительности победившей модели?
Хотя результаты частного тестового набора не могут быть использованы для дальнейшего уточнения модели, не является ли выбор модели из огромного числа моделей, выполняемых на основе результатов частного тестового набора? Не могли бы вы, в результате одного этого процесса, в конечном итоге перейти на частный тестовый набор? Согласно «Псевдоматематике и финансовому …

4
Прогнозирующие модели: статистика не может превзойти машинное обучение? [закрыто]
Закрыто . Этот вопрос должен быть более сфокусированным . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он был сосредоточен только на одной проблеме, отредактировав этот пост . Закрыто 2 года назад . В настоящее время я слежу за магистерской программой, ориентированной на статистику …

3
Почему в классической статистике не используется метод удержания (разделение данных на обучение и тестирование)?
В моей классной работе по извлечению данных был предложен метод удержания для оценки производительности модели. Однако, когда я взял свой первый класс по линейным моделям, это не было введено как средство проверки или оценки модели. Мои онлайн-исследования также не показывают какого-либо пересечения. Почему метод удержания не используется в классической статистике?


4
Что является более подходящим способом создания выносного набора: удалить некоторые предметы или удалить некоторые наблюдения от каждого предмета?
У меня есть набор данных с 26 функциями и 31000 строк. Это набор данных из 38 предметов. Это для биометрической системы. Поэтому я хочу иметь возможность определять предметы. Чтобы иметь набор для тестирования, я знаю, что должен удалить некоторые значения. Так что лучше делать и почему? (а) оставить 30 предметов …

1
Требуется ли перекрестная проверка для моделирования со случайными лесами?
Насколько я видел, мнения об этом, как правило, расходятся. Лучшая практика, безусловно, диктует использование перекрестной проверки (особенно если сравнивать RF с другими алгоритмами в одном наборе данных). С другой стороны, первоначальный источник утверждает, что факт ошибки OOB, рассчитанный во время обучения модели, является достаточным показателем эффективности тестового набора. Даже Тревор …

2
«Значимая переменная», которая не улучшает прогнозирование вне выборки - как интерпретировать?
У меня есть вопрос, который, я думаю, будет довольно простым для многих пользователей. Я использую модели линейной регрессии для (i) исследования взаимосвязи нескольких объясняющих переменных и моей переменной отклика и (ii) прогнозирования моей переменной отклика с использованием объяснительных переменных. Одна конкретная объясняющая переменная X, по-видимому, существенно влияет на мою переменную …

1
Как рассчитать из выборки R в квадрате?
Я знаю, что это, вероятно, обсуждалось где-то еще, но я не смог найти четкого ответа. Я пытаюсь использовать формулу для расчета вне выборки R 2 модели линейной регрессии, где S S R - это сумма квадратов невязок, а S S T - это общая сумма квадратов. Для тренировочного набора ясно, …
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.