Вопросы с тегом «dataset»

Запросы на наборы данных не по теме на этом сайте. Используйте этот тег для вопросов, касающихся создания, обработки или обслуживания наборов данных.

10
Наборы данных социальных сетей
Locked . Этот вопрос и его ответы заблокированы, потому что вопрос не по теме, но имеет историческое значение. В настоящее время он не принимает новые ответы или взаимодействия. Я ищу наборы данных социальных сетей (Twitter, FriendFeed, Facebook, LastFM и т. Д.) Для задач классификации, предпочтительно в формате ARFF. Мои поиски …

2
Классификация тестирования данных с избыточным дискретизацией
Я работаю над сильно несбалансированными данными. В литературе для перебалансировки данных используется несколько методов с использованием повторной выборки (избыточной или недостаточной выборки). Два хороших подхода: SMOTE: Синтетическая техника пересчёта меньшинств ( SMOTE ) ADASYN: Адаптивный синтетический подход к выборке для несбалансированного обучения ( ADASYN ) Я реализовал ADASYN, потому что …

2
Вычисление 95-го процентиля: сравнение нормального распределения, подходов R-квантиль и Excel
Я пытался вычислить 95-й процентиль для следующего набора данных. Я наткнулся на несколько онлайн-ссылок на это. Подход 1: на основе выборочных данных Первый один говорит мне , для получения TOP 95 Percentнабора данных , а затем выберите MINили AVGиз результирующего набора. Это дает мне следующий набор данных: AVG: 29162 MIN: …
17 r  dataset  quantiles  sql 

6
Где найти большой текстовый корпус? [закрыто]
Закрыто. Этот вопрос не по теме . В настоящее время не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто 6 лет назад . Я ищу большой (> 1000) текстовый корпус для загрузки. Желательно с мировыми новостями или какими-то репортажами . Я нашел только …
16 dataset 

5
Как влияет увеличение данных обучения на общую точность системы?
Может ли кто-то резюмировать для меня возможные примеры, в каких ситуациях увеличение обучающих данных улучшает общую систему? Когда мы обнаружим, что добавление большего количества данных для обучения может привести к переопределению данных и не дать точных данных теста? Это очень неспецифичный вопрос, но если вы хотите ответить на него конкретно …

4
Что такое хорошие наборы данных для иллюстрации отдельных аспектов статистического анализа?
Я понимаю, что это субъективно, но я подумал, что было бы неплохо поговорить о наших любимых наборах данных и о том, что, по нашему мнению, делает их интересными. Существует огромное количество данных, и что со всеми API (например, Datamob ) вместе с классическими наборами данных (например, данные R ), я …
16 dataset 

5
Лучше ли проводить анализ разведочных данных только на наборе обучающих данных?
Я делаю предварительный анализ данных (EDA) на наборе данных. Затем я выберу некоторые функции для прогнозирования зависимой переменной. Вопрос в том, должен ли я делать EDA только для своего набора данных для обучения? Или я должен объединить учебные и тестовые наборы данных, а затем выполнить EDA для них обоих и …

4
Бесплатный хостинг данных общественного интереса? [закрыто]
Закрыто. Этот вопрос не по теме . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто 4 года назад . У меня есть почасовые и ежедневные отчеты о температуре для многих станций на http://data.barrycarter.info/ Я призываю людей загрузить его, …
14 dataset 

3
Как сделать увеличение данных и разделить проверку достоверности?
Я делаю классификацию изображений с использованием машинного обучения. Предположим, у меня есть некоторые тренировочные данные (изображения), и я разделю эти данные на обучающие и проверочные наборы. И я также хочу дополнить данные (создать новые изображения из оригинальных) путем случайных поворотов и введения шума. Увеличение сделано в автономном режиме. Какой правильный …

6
Быстрые способы в R получить первую строку фрейма данных, сгруппированного по идентификатору [закрыто]
Закрыто. Этот вопрос не по теме . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто 2 года назад . Иногда мне нужно получить только первую строку набора данных, сгруппированную по идентификатору, как при получении возраста и пола, когда …
14 r  dataset  aggregation  plyr 

2
Как k-кратная перекрестная проверка подходит в контексте наборов обучения / проверки / тестирования?
Мой главный вопрос касается попыток понять, как k-кратная перекрестная проверка подходит в контексте наличия наборов обучения / проверки / тестирования (если это вообще подходит в таком контексте). Обычно люди говорят о разделении данных на набор для обучения, валидации и тестирования, скажем, с соотношением 60/20/20 на курс Эндрю Нга, посредством чего …

4
Где найти необработанные данные о клинических испытаниях? [закрыто]
Закрыто. Этот вопрос не по теме . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто 2 года назад . Я хочу использовать необработанные данные о клинических испытаниях для сдачи экзаменов в магистратуру на конец года. Эти данные могут …


4
Отделение двух популяций от образца
Я пытаюсь отделить две группы значений из одного набора данных. Я могу предположить, что одна из популяций обычно распределена и составляет не менее половины размера выборки. Значения второго значения ниже или выше значений первого (распределение неизвестно). То, что я пытаюсь сделать, - это найти верхний и нижний пределы, которые бы …

4
Лучшие способы агрегирования и анализа данных
Совсем недавно начав учить себя машинному обучению и анализу данных, я сталкиваюсь с необходимостью создавать и запрашивать большие наборы данных. Я хотел бы взять данные, которые я собирал в своей профессиональной и личной жизни, и проанализировать их, но я не уверен, как лучше сделать следующее: Как я должен хранить эти …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.