Наука Данных против Исследования Операций


11

Общий вопрос, как следует из названия:

  • В чем разница между DS и OR / оптимизацией.

На концептуальном уровне я понимаю, что DS пытается извлечь знания из имеющихся данных и использует в основном статистические методы машинного обучения. С другой стороны, OR использует данные для принятия решений на основе данных, например, путем оптимизации некоторой целевой функции (критерия) над данными (входными данными).

Интересно, как соотносятся эти две парадигмы?

  • Является ли одно подмножество другого?
  • Они рассматривают дополнительные поля?
  • Есть ли примеры того, что одно поле дополняет другое или они используются в сочетании?

В частности, меня интересует следующее:

Есть ли пример, где OR методы используются для решения научных данных вопрос / проблема?


3
Я не уверен, что это действительно вопрос о компьютерных науках, но я думаю, что это достаточно близко. Я отредактировал часть о том, что люди с одной стороны думают о другой, так как это, кажется, полностью вопрос мнения.
Дэвид Ричерби

@DavidRicherby спасибо. Я согласен с вами , что это может быть вопрос мнения. Традиционно обе дисциплины преподаются и появляются из сообщества CS, так что, я полагаю, это правильное место, чтобы спросить.
PsySp


@DW спасибо. Я прочитал статьи и, честно говоря, я не вижу дискуссий о совпадении и / или различиях между двумя упомянутыми областями. В частности, как один дополняет другой.
PsySp

1
Наука о данных - это в основном работа по поиску информации с помощью данных. Исследование операций в основном сводится к выполнению работы по улучшению принятия решений. Вы можете часто рассматривать ИЛИ как использование методов, чтобы найти оптимальную политику для использования при принятии решений. Некоторые методы, используемые в OR, могут быть классифицированы как методы обучения подкреплению в сообществе CS, хотя не все проблемы OR относятся к этому типу.
спектр

Ответы:


9

Хотя и исследования операций, и наука данных охватывают большое количество тем и областей, я постараюсь изложить свою точку зрения на то, что я считаю наиболее представительными и основными частями каждой из них.

Как уже отмечали другие, основная часть исследований операций связана главным образом с принятием решений . Хотя существует много разных способов определения того, как принимать решения, большинство основных частей OR (на мой взгляд) сосредоточены на моделировании решений проблем в рамках математического программирования. В подобных средах у вас обычно есть набор переменных решения, ограничения на эти переменные и целевая функция, зависящая от переменных решения, которые вы пытаетесь минимизировать или максимизировать. Когда переменные решения могут принимать значения в , ограничения представляют собой линейные неравенства над переменными решения, а целевая функция является линейной функцией переменных решения, тогда у вас есть линейная программаR- главная рабочая лошадка ИЛИ за последние шестьдесят лет. Если у вас есть другие виды целевых функций или ограничений, вы попадаете в область целочисленного программирования , квадратичного программирования , полуопределенного программирования и т. Д.

Data Science, с другой стороны, в основном занимается выводом, Здесь вы, как правило, начинаете с большой стопки данных, и вы хотели бы сделать вывод о данных, которых вы еще не видели в своей большой стопке. Типичные вещи, которые вы видите здесь: 1) большая куча данных представляет прошлые результаты двух разных вариантов, и вы хотели бы знать, какой вариант даст лучшие результаты, 2) большая куча данных представляет время серии, и вы хотели бы знать, как этот временной ряд будет распространяться в будущем, 3) большая куча данных представляет собой помеченный набор наблюдений, и вы хотите сделать выводы для новых, немаркированных наблюдений. Первые два примера относятся непосредственно к классическим статистическим областям (проверка гипотез и прогнозирование временных рядов соответственно), в то время как третий пример, я думаю, более тесно связан с современными темами машинного обучения (классификация).

Поэтому, на мой взгляд, исследование операций и наука о данных - это в основном ортогональные дисциплины, хотя есть некоторые совпадения. В частности, я думаю, что прогнозирование временных рядов появляется в нетривиальной степени в OR; это одна из наиболее значительных нематематических программных частей OR. Исследование операций - это то, куда вы обращаетесь, если у вас есть известная связь между входами и выходами; Data Science - это то место, куда вы обращаетесь, если пытаетесь определить эту взаимосвязь (для некоторого определения входных и выходных данных).


Спасибо за четкий ответ. Мне было интересно, если, например, можно ли использовать любые методы ИЛИ для решения проблем DS. Я был бы заинтересован в таком примере, но, из вашего ответа, я сомневаюсь, что есть.
PsySp

@ PSyp А, может быть? Я не могу думать ни о чем вне моей головы, но это далеко не окончательно.
mhum

1
Я не думаю, что разделение между OR и DS является строгим, как вы думаете, но это может быть потому, что я рассматриваю темы как машинное обучение и анализ данных как части DS вместо того, чтобы рассматривать DS как синоним статистики. (К сожалению, поскольку DS - модное слово, насколько я знаю, оно не имеет общепринятого определения). Однако задачи дескрипции и вывода не должны быть взаимоисключающими. Машинное обучение - это как раз та область, в которой объединяются оба: иногда для принятия достойных выводов должны приниматься умные решения, в других случаях для принятия правильных решений используются умные выводы.
Дискретная ящерица

@Discretelizard Конечно, я согласен в некоторой степени. Я представляю довольно резкое разделение (возможно, почти карикатуру?) И концентрируюсь на основных частях каждого поля, чтобы подчеркнуть различия в типах проблем, для которых обычно настраивается каждое поле. Края обоих полей могут быть довольно размытыми (особенно в DS, который намного новее), и там, вероятно, больше совпадений. Кроме того, я согласен с тем, что большая часть DS включает в себя ML, но я не был уверен, насколько точно DS отделена от ML.
mhum

4

Это не полный ответ, так как mhum довольно хорошо противопоставляет различные цели OR против DS.

Скорее, я хочу ответить на ваш комментарий:

Мне было интересно, если, например, можно ли использовать любые методы ИЛИ для решения проблем DS.

Ответ - да. Самым ярким примером, который приходит на ум, являются машины опорных векторов (SVM) .

Чтобы «подогнать» модель SVM к некоторым данным (что необходимо сделать, прежде чем вы сможете использовать ее для вывода прогнозов), необходимо решить следующую задачу оптимизации:

Максимизировать двойственное,

g(a)=i=1mαi12i=1mj=1mαiαjyiyjxiTxj,

с учетом ограничений

0αiC,i=1nyiαi=0

Это ограниченная задача оптимизации, как и многие в области ИЛИ, и она решается с помощью методов квадратичного программирования или методов внутренней точки. Они обычно связаны с областью OR, а не с DS, но это пример их более широкого применения.

В более общем смысле, оптимизация является ключевой для многих статистических и машинных моделей обучения, используемых в области DS, поскольку процесс обучения этих моделей обычно можно сформулировать как проблему минимизации, включающую функцию потери / сожаления - из скромной многовековой давности модель линейной регрессии до самой последней нейронной сети глубокого обучения.

Хорошей ссылкой на SVM является епископ .


2

Как стратег, у меня была возможность работать с обеими сторонами дисциплины. В попытке объяснить, что такое OR и DS для качественного руководителя MBA, мое (чрезмерно) упрощенное введение в одну строку для каждого

ИЛИ: экономисты, которые умеют кодировать
DS: статистики, которые умеют кодировать.

С практической точки зрения, как две группы обычно собираются вместе: сторона ИЛИ разрабатывает модель принятия решения, а сторона DS выясняет подходящую реализацию данных для обеспечения модели.

Каждый сам по себе будет опираться на теоретические традиции своих дисциплин - вместе они проводят эксперименты для структурирования данных и уточнения модели, чтобы получить истинную информацию, необходимую для принятия оптимальных решений. Когда каждый знакомится с другим, его мышление и язык обычно сходятся.


1
Я понимаю практическое описание DS как «статистика, которая кодирует», но описание OR кажется мне немного странным. ИЛИ включает логистику и связанные с ней проблемы маршрутизации. Для меня это не похоже на естественное место для экономиста. Возможно, вы могли бы уточнить, почему ИЛИ делают экономисты на практике?
Дискретная ящерица

1
@Discretelizard Я не сомневаюсь, что экономисты делают ИЛИ, но, как вы говорите, есть чертовски много ИЛИ, которые не имеют ничего общего с экономикой и выполняются учеными-компьютерщиками, математиками и другими.
Дэвид Ричерби

0

Наука данных является широким полемкотороедело с данными в целом. Если это звучит расплывчато это нормальнопотому что этосамом деле. Это было гудение словотечение довольно несколько лет. По сути, он пытается найти способ использовать данные: что я могу сделать с моими данными (какую информацию я могу получить из этого?).

Исследование операций - это наука математической оптимизации: вы моделируете задачу в «уравнения», решаете эту математическую модель и переводите решения обратно в исходную постановку задачи. Это инструмент, помогающий принимать решения: что я должен / могу сделать, чтобы получить то или иное.

Многие проблемы бизнеса можно рассматривать как проблему оптимизации. Учитывая, что я пытаюсь максимизировать свой доход, учитывая нехватку ресурсов, как именно я буду вести свой бизнес, какие значения я должен установить для переменных моего решения. Такие проблемы, как планирование, планирование объектов, управление цепочками поставок ... и т. Д. - все это использует методы оптимизации.

Оптимизация портфеля также является классическим примером использования оптимизации. Предположим, что я могу инвестировать в несколько разных активов в моем портфеле, каждый из которых имеет недетерминированную доходность, как мне сбалансировать свой портфель, чтобы минимизировать риск всего моего портфеля при сохранении уровня денежной доходности. В этой постановке целевая функция часто становится риск / дисперсия портфеля, а также ограничения являются требуемая норма прибыли на инвестиции, а также сумма денег, которую вы имеете.


3
Вы только перечислите краткие резюме обоих полей. В этом ответе не рассматриваются различия и / или сходства между DS и OR, для которых конкретно задан вопрос. Вы можете улучшить свой ответ, сосредоточившись на этой части
Дискретная ящерица

-1

Если вы считаете, что ML и AI управляются ML как часть Data Science (что некоторые люди делают, а некоторые нет в соответствии с моим опытом, например, профессиональная программа Microsoft по ИИ содержит ключевые аспекты Data Science + Machine learning (как с DL, так и с RL). В то время как Высшая школа экономики представляет практически те же самые продвинутые части Microsoft cuuriculum, что и Advanced Machine Learning, в математике есть много общего, что используется в обеих областях. Например: Нелинейное программирование (множители Лагранжа, условия KKT ...) -> используется для выведения машин опорных векторов ... Эконометрика, которая в основном основана на регрессиях ---> Регрессии являются ключевой частью как Data Scinece в целом, так и более конкретно, контролируемое обучение ... Статистика (обычно находится в учебном плане ИЛИ) ---> ключ для науки о данных и машинного обучения, а также ... Стохастические процессы ---> очень важные в обучении с подкреплением ... Динамическое программирование ---> снова обнаруживаются в обучении с подкреплением ... Итак, я бы сказал, что есть некоторые сходства с наукой о данных в целом и сходства с ML. Конечно, цели этих дисциплин разные, но в математике, которая используется в этих дисциплинах, есть много общего.


Как это отвечает на вопрос?
Зло
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.