Вопросы с тегом «data-cleaning»

4
Очистка данных несовместимого формата в R?
Я часто имею дело с грязными данными опросов, которые требуют большой очистки, прежде чем можно будет сделать какую-либо статистику. Я делал это вручную в Excel, иногда используя формулы Excel, а иногда проверял записи по одному. Я начал выполнять все больше и больше этих задач, написав сценарии для их выполнения на …
16 r  data-cleaning 

1
Современное состояние дедупликации
Каковы современные методы дедупликации записей? Дедупликацию также иногда называют: связывание записи, разрешение объекта, разрешение идентификатора, объединение / очистка. Я знаю, например, о CBLOCK [1]. Я был бы признателен, если бы ответы также включали ссылки на существующее программное обеспечение, реализующее методы. Я знаю, например, что Mahout реализует кластеризацию навеса . Также …

3
Каков наилучший способ изменить / реструктурировать данные?
Я научный сотрудник лаборатории (волонтер). Мне и небольшой группе было поручено провести анализ данных для набора данных, извлеченных из большого исследования. К сожалению, данные были собраны с помощью какого-то онлайн-приложения, и оно не было запрограммировано на вывод данных в наиболее удобной форме. Картинки ниже иллюстрируют основную проблему. Мне сказали, что …
12 r  excel  data-cleaning 

3
Автоматическая очистка данных
Общей проблемой является ML низкого качества данных: ошибки в значениях признаков, неправильно классифицированные экземпляры и т. Д. Один из способов решения этой проблемы - вручную просмотреть данные и проверить, но есть ли другие способы? (Бьюсь об заклад, есть!) Какие из них лучше и почему?

2
Создание «демо» данных из реальных данных: маскировка без уродства
(Я понятия не имею, с чем это пометить, потому что я не статистик и не знаю, к какому полю это относится. Не стесняйтесь добавлять более подходящие теги.) Я работаю в компании, которая производит программное обеспечение для анализа данных, и нам нужен приличный набор данных для тестирования и демонстрации нашего последнего …
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.