Достаточно ли Excel для науки о данных?


10

Я готовлюсь к вводному курсу по науке о данных с использованием языка программирования R. Моя аудитория - студенты, специализирующиеся на бизнес-дисциплинах. У типичного бизнес-старшекурсника нет опыта программирования, но он прошел несколько классов, в которых используется Excel.

Лично мне очень нравится R (или другие языки программирования), потому что я специализировался в области компьютерных наук. Тем не менее, у меня есть ощущение, что многие из моих учеников будут опасаться изучать язык программирования, потому что им это может показаться трудным.

Я немного знаком с Excel, и я считаю, что хотя Excel может быть полезен для простой науки о данных, студентам необходимо выучить серьезный язык программирования для науки о данных (например, R или Python). Как я могу убедить себя и студентов, что Excel недостаточно для серьезного бизнес-студента, изучающего науку о данных, и что им необходимо научиться программированию?

Отредактировано в ответ на комментарий

Вот некоторые из тем, которые я буду освещать:

  • Обработка данных и очистка данных
  • Как манипулировать таблицей данных, например, выбрать подмножество строк (фильтр), добавить новые переменные (мутировать), отсортировать строки по столбцам
  • SQL присоединяется с использованием пакета dplyr
  • Как рисовать графики (точечные, гистограммы и т. Д.) С помощью пакета ggplot2
  • Как оценивать и интерпретировать статистические модели, такие как линейная регрессия, логистическая регрессия, деревья классификации и k-ближайшие соседи

Поскольку я не очень хорошо знаю Excel, я не знаю, можно ли легко выполнить все эти задачи в Excel.


Не зная, что находится в вашей программе, на этот вопрос невозможно ответить. Сказав это, вы должны взглянуть на Power Pivot / Data Model в Excel. Вы можете легко обрабатывать наборы данных объемом в несколько гигабайт с миллионами строк в Excel в наши дни, и это быстро.
Гай

@Gaius Я добавил некоторые детали того, что я хочу преподавать в курсе
мне нравится код

Ваши пункты 1-4 хорошо поддерживаются моделью данных support.office.com/en-us/article/… - для пункта 5 я бы предложил бесплатный уровень AzureML studio.azureml.net
Гай

AzureML также работает с R кстати
Гай

4
О вашем последнем замечании - взгляните на книгу Джона Формана «Умные данные» - amazon.com/Data-Smart-Science-Transform-Information/dp/…
Григорий Демин,

Ответы:


8

Прежде всего, проверьте этот пост . У этого есть много причин, почему Excel уступает другим решениям, касающимся задач науки о данных. Excel также не может обрабатывать большие наборы данных (сотни тысяч записей, не говоря уже о больших данных ), изображения и звуковые данные.

Excel хорош для простых задач, связанных с электронными таблицами; он делает больший упор на представление и простоту использования , при этом имея минимальную поддержку для фактического анализа данных. Если все, что вы хотите сделать, это вычислить простые статистические показатели (среднее, среднее и т. Д.) Или построить очень простую модель (например, линейную регрессию), Excel неэффективен. Тем не менее, 99% работы, которую компания имеет дело с данными, достаточно просты, чтобы ими можно было управлять через Excel.

Однако Data Science в основном имеет дело с регрессией, классификацией и сложными моделями, с которыми Excel не может справиться! Если ваши студенты хотят взглянуть на науку о данных, вы должны научить их инструменту, который будет им полезен (R, python и т. Д.). На этих языках также есть библиотеки с множеством встроенных моделей, с которыми можно «поиграть».

Еще одна очень важная причина, по которой я бы выбрал последние варианты - это то, что они имеют открытый исходный код . Я лично считаю, что программное обеспечение с открытым исходным кодом должно быть предпочтительнее с точки зрения образования, чем проприетарные решения (именно поэтому я предлагаю Python и R над Matlab)!


Я согласен со всем вышеперечисленным, но он сказал, что они бизнес-майоры. Почему бы не научить R, а также продемонстрировать плагин R / Excel?
CalZ

1
«Excel также не может обрабатывать большие наборы данных (сотни тысяч записей» <- да, может, легко. И он может выступать в качестве клиента для серьезных серверных частей, таких как AzureML и PowerBI. Я не фанат Excel » «так много, но я смущаюсь, что якобы« управляемые данными »люди, которые даже не знают основных инструментов.
Гай,

1
Что если это набор данных с миллионами строк и тысячами столбцов на одной и той же «базовой» машине (16 ГБ оперативной памяти, i7 ecc), какое решение откроет его быстрее? Я не пытаюсь очернить Excel, просто честное любопытство. Я тоже не могу открыть такой набор данных в Excel. RStudio читает это без проблем на том же ПК.
RLave

7

Я только что закончил с мастерами бизнес-аналитики и столкнулся с той же проблемой, которую вы описываете. К счастью, я технический специалист и смог научить себя R и Python, но я застрял, преподавая остальной части класса, как использовать R и Python. Занятия, которые я использовал с использованием R / Python, были затруднены из-за отсутствия технического понимания у студентов, и поэтому было потрачено слишком много времени на то, как открыть R / Python. Занятия, которые шли другим путем, были неутешительными и не очень практичными. Я хотел сделать для классного проекта то, что в Excel оказалось невозможным из-за его ограничений, но учитель не принял бы никаких других инструментов.

Это может быть не то, что вы можете сделать прямо сейчас, но я настоятельно рекомендую вам попытаться заставить департамент требовать курс программирования до начала курса. Data Science и бизнес-аналитика ИМХО должны быть междисциплинарными путями, которые требуют хороших знаний в области компьютерных наук, но пока программы не станут зрелыми и система университетов не станет лучше, это может не произойти какое-то время.


Вы упомянули, что «хотели сделать для проекта класса что-то, что оказалось невозможным в Excel из-за его ограничений». Что вы пытались сделать, чего нельзя было сделать в Excel?
Мне нравится

3

Я думаю, что вам нужно учить их популярному языку Data Science, например Python или R. Excel не поможет им в реальной работе и не практичен для целей науки данных. Я бы, вероятно, сказал, что Python будет наиболее ценным для них в долгосрочной перспективе, и с помощью таких пакетов, как scikit-learn, ваши регрессии и классификации могут быть продемонстрированы в очень небольшом количестве строк кода, которые они могут легче читать и понимать. Не всегда легко понять, что делает R, просто читая его.

Еще один совет: не тратьте время на то, чтобы заставить своих студентов настроить IDE и загрузить необходимые пакеты, если вы используете python, создайте для них виртуальную среду со всеми необходимыми пакетами и установите IDE, например, pycharm (они могут получите эту и большинство других IDE по студенческой / академической лицензии), где затем сможете разрабатывать и запускать свой код с помощью пользовательского интерфейса, а не консоли, что может показаться пугающим и запутанным. Если вы идете по маршруту R, убедитесь, что для них настроена IDE, такая как RStudio, и убедитесь, что все включенные и установленные пакеты включены либо в ваш пример кода, либо полностью описаны.


«Excel не поможет им в реальной работе», это, конечно, если это то, что используют все их коллеги. Какие реальные рабочие места в вашем опыте не используют Excel?
Гай

3
Любая роль Data Science, работающая с большими объемами данных, включая мою. Как вы думаете, какие задания DS будут использовать Excel в качестве основного инструмента?
Дэн Картер

Я вижу из вашего профиля, что вы студент? Ой. Это бизнес-студенты, проходящие курс DS. В своей работе они обязательно будут использовать Excel в качестве основного инструмента.
Гай

1
Несомненно, вы правы, они, скорее всего, будут использовать Excel в роли бизнес-типа, однако, как выразился OP: они уже прошли курсы, которые охватывают Excel. Соедините это с тем фактом, что Excel не подходит для отрасли или академической науки о данных, и ясно, что преподавание им «Excel для обработки данных», как я уже сказал, не поможет им в реальной работе. Вы не можете научить мужчину (или женщину) ловить рыбу, научив их говорить по-французски.
Дэн Картер

Так что, если они уже прошли курсы по Excel? Не относитесь как к дуракам, неспособным к обучению R. Мы не говорим здесь о Хаскеле или LISP!
Эмре

2

Как мне убедить себя и студентов, что Excel недостаточно для серьезного бизнес-студента, изучающего науку о данных

Создайте в R огромный data.frame (пара миллионов строк и сотни столбцов), сохраните его как .xlsx.

Покажите им разницу во времени при загрузке с помощью R и в Excel на одном компьютере. Сравните основные статистические операции между двумя в одном наборе данных, даже на графиках.

Точка № 2-4 в списке yout можно сделать и в Excel, просто НАМНОГО более болезненно, покажите им пару примеров того, насколько простая (и более быстрая) фильтрация с dplyr, по сравнению с базовым Excel, снова на огромном наборе данных, который выделил бы различия.

Бонус, если вы можете создать набор данных, который может привести к сбою вашего компьютера в Excel.

Кроме того, я бы преобразовал «бесплатную» часть R (или Python). Например, по сравнению с SAS, если вы просто хотите попробовать одно решение (например, какой-то кластер), вы загружаете библиотеку и пробуете ее, не нужно платить больше, просто за попытку.

Для меня в этом вся прелесть, вы можете бесплатно попробовать все, что вам нужно, и часто это ключ к DS, представьте, если вам придется платить за каждую установленную вами библиотеку.


1

Excel и Data Science - звучит очень странно для меня. Может быть, Excel и «Анализ данных».

В любом случае, я думаю, что хороший компромисс между Excel и R: KNIME ( http://www.knime.org/knime-analytics-platform ). Это бесплатно на рабочем столе и гораздо проще начать. Вы можете импортировать / экспортировать в Excel, но также использовать R, Python или Java, если узлам ~ 1.000 не хватает некоторых необходимых вам функций. Поскольку рабочие процессы создаются визуально, гораздо проще показать их тем, кто не знает языков программирования, что является довольно большим преимуществом в некоторых компаниях.


0

Я думаю, что проблема в том, что вы пытаетесь убедить своих учеников в том, что, посещая ваш класс, они могут заниматься наукой о данных, аналогичной уровню современной науки о данных, то есть такими модными вещами, как обработка изображений, распознавание лиц. Вы слышите, как говорят в большинстве случаев: «Принимая этот класс, вы будете…». Вам нужно научить их любви к данным и смелости просматривать кучу данных, возиться с ними, чтобы, надеюсь, сделать какой-то смысл из них. В тот момент, когда они могут это сделать, вы можете называть их специалистами по данным, и вы должны гордиться тем, что у вас есть новое поколение специалистов по данным. После этого, если они очень серьезно относятся к науке о данных, они могут продолжать посещать другие интенсивные курсы по математике, статистике и информатике (опыт программирования, как вы сказали). Я был в ситуации, похожей на ваших учеников. У меня не было опыта в CS, но я хотел проникнуть в науку о данных и ИИ, взяв несколько онлайн-классов с необычными обещаниями. В итоге я потратил кучу денег, но все же испытал огромное разочарование (о, мне нужно взять этот класс, чтобы узнать этот алгоритм, о, сейчас они говорят о нейронных сетях, поэтому я должен записаться на другой класс и т. Д.) TL ; ДР. Инструменты просто составляют 1% от вашей проблемы. Если у вас есть опыт работы, у вас не должно возникнуть проблем с определением вышеуказанных задач в Excel за неделю. о, они сейчас говорят о нейронных сетях, поэтому я должен записаться на другой класс и т. д.) TL; DR. Инструменты просто составляют 1% от вашей проблемы. Если у вас есть опыт работы, у вас не должно возникнуть проблем с определением вышеуказанных задач в Excel за неделю. о, они сейчас говорят о нейронных сетях, поэтому я должен записаться на другой класс и т. д.) TL; DR. Инструменты просто составляют 1% от вашей проблемы. Если у вас есть опыт работы, у вас не должно возникнуть проблем с определением вышеуказанных задач в Excel за неделю.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.