Я знаю кого-то, кто работает над проектом, который включает в себя прием файлов данных без учета столбцов или типов данных. Задача состоит в том, чтобы взять файл с любым количеством столбцов и различных типов данных и вывести сводную статистику по числовым данным.
Однако он не уверен в том, как динамически назначать типы данных для определенных числовых данных. Например:
CITY
Albuquerque
Boston
Chicago
Это, очевидно, не числовые данные и будут сохранены в виде текста. Однако,
ZIP
80221
60653
25525
не четко обозначены как категориальные. Его программное обеспечение будет назначать почтовый индекс в качестве числовой и выводить сводную статистику для него, что не имеет смысла для такого рода данных.
У нас была пара идей:
- Если столбец состоит из целых чисел, пометьте его как категориальный. Это явно не сработает, но это была идея.
- Если столбец имеет менее n уникальных значений и является числовым, пометьте его категориальным. Это может быть ближе, но могут все еще быть проблемы с проваливанием числовых данных.
- Вести список распространенных числовых данных, которые на самом деле должны быть категориальными, и сравнить заголовки столбцов с этим списком на совпадения. Например, все, что содержит «ZIP», будет категоричным.
Моя интуиция говорит мне, что нет никакого способа точно назначить числовые данные категориальным или числовым, но надеялся на предложение. Любое понимание, которое вы имеете, очень ценится.