Я постараюсь ответить на ваши вопросы, но прежде чем я хотел бы отметить, что использование термина «большой набор данных» вводит в заблуждение, поскольку «большой» является относительным понятием. Вы должны предоставить более подробную информацию. Если вы имеете дело с данными ставок , то этот факт, скорее всего, повлияет на выбор предпочтительных инструментов , подходов и алгоритмов для анализа ваших данных . Я надеюсь, что следующие мои мысли об анализе данных касаются ваших подвопросов. Обратите внимание, что нумерация моих баллов не соответствует нумерации ваших подвопросов. Тем не менее, я считаю, что он лучше отражает общий процесс анализа данных , по крайней мере, насколько я понимаю.
1) Во-первых, я думаю, что вам нужно иметь в виду хотя бы какую-то концептуальную модель (или, лучше, на бумаге). Эта модель должна направлять вас в анализе поисковых данных (EDA) . Наличие зависимой переменной (DV) в модели означает, что на этапе вашего машинного обучения (ML) на более позднем этапе анализа вы будете иметь дело с так называемой контролируемой ML, в отличие от неконтролируемой ML в отсутствие идентифицированного DV.
2) Во-вторых, EDA является важной частью. ИМХО, EDA должно включать в себя несколько итераций для создания описательной статистики и визуализации данных , поскольку вы улучшаете свое понимание данных. Не только этот этап даст вам ценную информацию о ваших наборах данных, но он обеспечит ваш следующий важный этап - очистка и преобразование данных . Простое добавление необработанных данных в статистический программный пакет не даст много - для любого достоверного статистического анализа данные должны быть чистыми, правильными и согласованными . Часто это самая трудоемкая, но абсолютно необходимая часть. Для более подробной информации по этой теме, прочитайте эти хорошие статьи:http://vita.had.co.nz/papers/tidy-data.pdf (Хедли Уикхем) и http://cran.r-project.org/doc/contrib/de_Jonge+van_der_Loo-Introduction_to_data_cleaning_with_R.pdf (автор: Эдвин де Йонге и Марк ван дер Лоо).
3) Теперь, когда, как мы надеемся, вы завершили работу с EDA, а также очисткой и преобразованием данных, вы готовы начать еще несколько этапов, связанных со статистикой. Одним из таких этапов является исследовательский факторный анализ (EFA) , который позволит вам извлечь основную структуру ваших данных. Для наборов данных с большим количеством переменных положительным побочным эффектом EFA является уменьшение размерности . И хотя в этом смысле ОДВ аналогичен анализу основных компонентов (PCA)и другие подходы к уменьшению размерности, я думаю, что ОДВ является более важным, поскольку оно позволяет уточнить вашу концептуальную модель явлений, которые «описывают» ваши данные, таким образом, имея смысл ваших наборов данных. Конечно, в дополнение к EFA, вы можете / должны выполнять регрессионный анализ, а также применять методы машинного обучения , основываясь на ваших выводах на предыдущих этапах.
Наконец, заметка о программных инструментах . На мой взгляд, текущее состояние статистических программных пакетов находится на таком уровне, что практически любые крупные программные пакеты имеют сопоставимые предложения по функциональности. Если вы учитесь или работаете в организации, у которой есть определенные политики и предпочтения в отношении программных инструментов, то вы ограничены ими. Однако, если это не так, я бы искренне рекомендовал статистическое программное обеспечение с открытым исходным кодом, основываясь на вашем удобстве с его конкретным языком программирования , кривой обучения и вашей карьерной перспективой . Моя текущая платформа выбора - R Project, которая предлагает зрелое, мощное, гибкое, обширное и открытое статистическое программное обеспечение, а также удивительную экосистему пакетов, экспертов и энтузиастов. Другие хорошие варианты включают Python , Julia и специальное программное обеспечение с открытым исходным кодом для обработки больших данных , такое как Hadoop , Spark , базы данных NoSQL , WEKA . Дополнительные примеры программного обеспечения с открытым исходным кодом для интеллектуального анализа данных , которое включает в себя общее и специальное статистическое и ML-программное обеспечение, см. В этом разделе страницы Википедии: http://en.wikipedia.org/wiki/Data_mining#Free_open-source_data_mining_software_and_applications .
ОБНОВЛЕНИЕ: забыл упомянуть Rattle ( http://rattle.togaware.com ), который также является очень популярным R-ориентированным программным обеспечением с открытым исходным кодом для графического анализа данных.