Учитывая другие критерии, я думаю, что в некоторых случаях использование Python может быть намного лучше, чем R для больших данных. Я знаю широко распространенное использование R в учебных материалах по науке о данных и хорошие библиотеки анализа данных, доступные для него, но иногда это зависит только от команды.
По моему опыту, для людей, уже знакомых с программированием, использование Python обеспечивает гораздо большую гибкость и повышение производительности по сравнению с таким языком, как R, который не так хорошо разработан и мощен по сравнению с Python с точки зрения языка программирования. Как доказательство, на курсе по интеллектуальному анализу данных в моем университете лучший финальный проект был написан на Python, хотя у остальных есть доступ к богатой библиотеке анализа данных R. То есть иногда общая производительность (с учетом учебных материалов, документации и т. Д.) Для Python может быть выше, чем у R, даже при отсутствии специализированных библиотек анализа данных для Python. Кроме того, есть несколько хороших статей, объясняющих быстрые темпы Python в науке о данных: Python Displacing R и Rich Scientific Data Structures в Python что может вскоре заполнить пробел в доступных библиотеках для R.
Другая важная причина, по которой не используется R, заключается в том, что при работе с реальными проблемами больших данных, вопреки академическим проблемам, существует большая потребность в других инструментах и методах, таких как анализ данных, очистка, визуализация, удаление из Интернета и многие другие, которые гораздо проще, используя язык программирования общего назначения. Это может быть причиной того, что языком по умолчанию, используемым во многих курсах Hadoop (включая онлайн-курс Udacity ), является Python.
Редактировать:
Недавно DARPA также инвестировала 3 миллиона долларов, чтобы помочь финансировать возможности обработки и визуализации данных Python для работы с большими данными, что является явным признаком будущего Python в области больших данных. ( подробности )