Совсем недавно начав учить себя машинному обучению и анализу данных, я сталкиваюсь с необходимостью создавать и запрашивать большие наборы данных. Я хотел бы взять данные, которые я собирал в своей профессиональной и личной жизни, и проанализировать их, но я не уверен, как лучше сделать следующее:
Как я должен хранить эти данные? Excel? SQL? ??
Какой хороший способ начать анализировать эти данные для новичка? Я профессиональный программист, поэтому сложность заключается не в написании программ, а в более или менее специфической области анализа данных.
РЕДАКТИРОВАТЬ: Извинения за мою расплывчатость, когда вы впервые начинаете узнавать о чем-то трудно понять, что вы не знаете, понимаете? ;)
Сказав это, моя цель состоит в том, чтобы применить это к двум основным темам:
Метрики команды разработчиков программного обеспечения (скорость Agile, количественная оценка риска, вероятность успешного завершения итерации с учетом количества баллов)
Машинное обучение (например, системные исключения произошли в данном наборе модулей). Какова вероятность того, что модуль сгенерирует исключение в поле, сколько это будет стоить, что данные могут сказать мне о ключевых модулях, которые можно улучшить, которые получат мне лучший результат, предугадать, какую часть системы пользователь захочет использовать дальше, чтобы начать загрузку данных и т. д.).