Наука Данных против Исследования Операций

11

Общий вопрос, как следует из названия:

В чем разница между DS и OR / оптимизацией.

На концептуальном уровне я понимаю, что DS пытается извлечь знания из имеющихся данных и использует в основном статистические методы машинного обучения. С другой стороны, OR использует данные для принятия решений на основе данных, например, путем оптимизации некоторой целевой функции (критерия) над данными (входными данными).

Интересно, как соотносятся эти две парадигмы?

Является ли одно подмножество другого?
Они рассматривают дополнительные поля?
Есть ли примеры того, что одно поле дополняет другое или они используются в сочетании?

В частности, меня интересует следующее:

Есть ли пример, где OR методы используются для решения научных данных вопрос / проблема?

optimization data-mining

— PsySp
источник

3

Я не уверен, что это действительно вопрос о компьютерных науках, но я думаю, что это достаточно близко. Я отредактировал часть о том, что люди с одной стороны думают о другой, так как это, кажется, полностью вопрос мнения.

— Дэвид Ричерби

@DavidRicherby спасибо. Я согласен с вами , что это может быть вопрос мнения. Традиционно обе дисциплины преподаются и появляются из сообщества CS, так что, я полагаю, это правильное место, чтобы спросить.

— PsySp

en.wikipedia.org/wiki/Operations_research , en.wikipedia.org/wiki/Data_science

— DW

@DW спасибо. Я прочитал статьи и, честно говоря, я не вижу дискуссий о совпадении и / или различиях между двумя упомянутыми областями. В частности, как один дополняет другой.

— PsySp

1

Наука о данных - это в основном работа по поиску информации с помощью данных. Исследование операций в основном сводится к выполнению работы по улучшению принятия решений. Вы можете часто рассматривать ИЛИ как использование методов, чтобы найти оптимальную политику для использования при принятии решений. Некоторые методы, используемые в OR, могут быть классифицированы как методы обучения подкреплению в сообществе CS, хотя не все проблемы OR относятся к этому типу.

— спектр

9

Хотя и исследования операций, и наука данных охватывают большое количество тем и областей, я постараюсь изложить свою точку зрения на то, что я считаю наиболее представительными и основными частями каждой из них.

Как уже отмечали другие, основная часть исследований операций связана главным образом с принятием решений . Хотя существует много разных способов определения того, как принимать решения, большинство основных частей OR (на мой взгляд) сосредоточены на моделировании решений проблем в рамках математического программирования. В подобных средах у вас обычно есть набор переменных решения, ограничения на эти переменные и целевая функция, зависящая от переменных решения, которые вы пытаетесь минимизировать или максимизировать. Когда переменные решения могут принимать значения в , ограничения представляют собой линейные неравенства над переменными решения, а целевая функция является линейной функцией переменных решения, тогда у вас есть линейная программа $\mathbb{R}$ - главная рабочая лошадка ИЛИ за последние шестьдесят лет. Если у вас есть другие виды целевых функций или ограничений, вы попадаете в область целочисленного программирования , квадратичного программирования , полуопределенного программирования и т. Д.

Data Science, с другой стороны, в основном занимается выводом, Здесь вы, как правило, начинаете с большой стопки данных, и вы хотели бы сделать вывод о данных, которых вы еще не видели в своей большой стопке. Типичные вещи, которые вы видите здесь: 1) большая куча данных представляет прошлые результаты двух разных вариантов, и вы хотели бы знать, какой вариант даст лучшие результаты, 2) большая куча данных представляет время серии, и вы хотели бы знать, как этот временной ряд будет распространяться в будущем, 3) большая куча данных представляет собой помеченный набор наблюдений, и вы хотите сделать выводы для новых, немаркированных наблюдений. Первые два примера относятся непосредственно к классическим статистическим областям (проверка гипотез и прогнозирование временных рядов соответственно), в то время как третий пример, я думаю, более тесно связан с современными темами машинного обучения (классификация).

Поэтому, на мой взгляд, исследование операций и наука о данных - это в основном ортогональные дисциплины, хотя есть некоторые совпадения. В частности, я думаю, что прогнозирование временных рядов появляется в нетривиальной степени в OR; это одна из наиболее значительных нематематических программных частей OR. Исследование операций - это то, куда вы обращаетесь, если у вас есть известная связь между входами и выходами; Data Science - это то место, куда вы обращаетесь, если пытаетесь определить эту взаимосвязь (для некоторого определения входных и выходных данных).

— mhum
источник

Спасибо за четкий ответ. Мне было интересно, если, например, можно ли использовать любые методы ИЛИ для решения проблем DS. Я был бы заинтересован в таком примере, но, из вашего ответа, я сомневаюсь, что есть.

— PsySp

@ PSyp А, может быть? Я не могу думать ни о чем вне моей головы, но это далеко не окончательно.

— mhum

1

Я не думаю, что разделение между OR и DS является строгим, как вы думаете, но это может быть потому, что я рассматриваю темы как машинное обучение и анализ данных как части DS вместо того, чтобы рассматривать DS как синоним статистики. (К сожалению, поскольку DS - модное слово, насколько я знаю, оно не имеет общепринятого определения). Однако задачи дескрипции и вывода не должны быть взаимоисключающими. Машинное обучение - это как раз та область, в которой объединяются оба: иногда для принятия достойных выводов должны приниматься умные решения, в других случаях для принятия правильных решений используются умные выводы.

— Дискретная ящерица

@Discretelizard Конечно, я согласен в некоторой степени. Я представляю довольно резкое разделение (возможно, почти карикатуру?) И концентрируюсь на основных частях каждого поля, чтобы подчеркнуть различия в типах проблем, для которых обычно настраивается каждое поле. Края обоих полей могут быть довольно размытыми (особенно в DS, который намного новее), и там, вероятно, больше совпадений. Кроме того, я согласен с тем, что большая часть DS включает в себя ML, но я не был уверен, насколько точно DS отделена от ML.

— mhum

4

Это не полный ответ, так как mhum довольно хорошо противопоставляет различные цели OR против DS.

Скорее, я хочу ответить на ваш комментарий:

Мне было интересно, если, например, можно ли использовать любые методы ИЛИ для решения проблем DS.

Ответ - да. Самым ярким примером, который приходит на ум, являются машины опорных векторов (SVM) .

Чтобы «подогнать» модель SVM к некоторым данным (что необходимо сделать, прежде чем вы сможете использовать ее для вывода прогнозов), необходимо решить следующую задачу оптимизации:

Максимизировать двойственное,

$g (a) = \sum_{i = 1}^{m} α_{i} - \frac{1}{2} \sum_{i = 1}^{m} \sum_{j = 1}^{m} α_{i} α_{j} y_{i} y_{j} x_{i}^{T} x_{j},$ $g(a) = \sum_{i=1}^{m} \alpha_i - \frac{1}{2} \sum_{i=1}^{m} \sum_{j=1}^{m} \alpha_i \alpha_j y_i y_j x_i^T x_j,$

с учетом ограничений

$0 \leq α_{i} \leq C, \sum_{i = 1}^{n} y_{i} α_{i} = 0$ $0 \leq \alpha_i \leq C, \qquad \sum_{i=1}^n y_i \alpha_i = 0$

Это ограниченная задача оптимизации, как и многие в области ИЛИ, и она решается с помощью методов квадратичного программирования или методов внутренней точки. Они обычно связаны с областью OR, а не с DS, но это пример их более широкого применения.

В более общем смысле, оптимизация является ключевой для многих статистических и машинных моделей обучения, используемых в области DS, поскольку процесс обучения этих моделей обычно можно сформулировать как проблему минимизации, включающую функцию потери / сожаления - из скромной многовековой давности модель линейной регрессии до самой последней нейронной сети глубокого обучения.

Хорошей ссылкой на SVM является епископ .

— AG
источник

2

Как стратег, у меня была возможность работать с обеими сторонами дисциплины. В попытке объяснить, что такое OR и DS для качественного руководителя MBA, мое (чрезмерно) упрощенное введение в одну строку для каждого

ИЛИ: экономисты, которые умеют кодировать
DS: статистики, которые умеют кодировать.

С практической точки зрения, как две группы обычно собираются вместе: сторона ИЛИ разрабатывает модель принятия решения, а сторона DS выясняет подходящую реализацию данных для обеспечения модели.

Каждый сам по себе будет опираться на теоретические традиции своих дисциплин - вместе они проводят эксперименты для структурирования данных и уточнения модели, чтобы получить истинную информацию, необходимую для принятия оптимальных решений. Когда каждый знакомится с другим, его мышление и язык обычно сходятся.

— user88056
источник

1

Я понимаю практическое описание DS как «статистика, которая кодирует», но описание OR кажется мне немного странным. ИЛИ включает логистику и связанные с ней проблемы маршрутизации. Для меня это не похоже на естественное место для экономиста. Возможно, вы могли бы уточнить, почему ИЛИ делают экономисты на практике?

— Дискретная ящерица

1

@Discretelizard Я не сомневаюсь, что экономисты делают ИЛИ, но, как вы говорите, есть чертовски много ИЛИ, которые не имеют ничего общего с экономикой и выполняются учеными-компьютерщиками, математиками и другими.

— Дэвид Ричерби

0

Наука данных является широким полемкотороедело с данными в целом. Если это звучит расплывчато это нормальнопотому что этосамом деле. Это было гудение словотечение довольно несколько лет. По сути, он пытается найти способ использовать данные: что я могу сделать с моими данными (какую информацию я могу получить из этого?).

Исследование операций - это наука математической оптимизации: вы моделируете задачу в «уравнения», решаете эту математическую модель и переводите решения обратно в исходную постановку задачи. Это инструмент, помогающий принимать решения: что я должен / могу сделать, чтобы получить то или иное.

Многие проблемы бизнеса можно рассматривать как проблему оптимизации. Учитывая, что я пытаюсь максимизировать свой доход, учитывая нехватку ресурсов, как именно я буду вести свой бизнес, какие значения я должен установить для переменных моего решения. Такие проблемы, как планирование, планирование объектов, управление цепочками поставок ... и т. Д. - все это использует методы оптимизации.

Оптимизация портфеля также является классическим примером использования оптимизации. Предположим, что я могу инвестировать в несколько разных активов в моем портфеле, каждый из которых имеет недетерминированную доходность, как мне сбалансировать свой портфель, чтобы минимизировать риск всего моего портфеля при сохранении уровня денежной доходности. В этой постановке целевая функция часто становится риск / дисперсия портфеля, а также ограничения являются требуемая норма прибыли на инвестиции, а также сумма денег, которую вы имеете.

— Rameez
источник

3

Вы только перечислите краткие резюме обоих полей. В этом ответе не рассматриваются различия и / или сходства между DS и OR, для которых конкретно задан вопрос. Вы можете улучшить свой ответ, сосредоточившись на этой части

— Дискретная ящерица

-1

Если вы считаете, что ML и AI управляются ML как часть Data Science (что некоторые люди делают, а некоторые нет в соответствии с моим опытом, например, профессиональная программа Microsoft по ИИ содержит ключевые аспекты Data Science + Machine learning (как с DL, так и с RL). В то время как Высшая школа экономики представляет практически те же самые продвинутые части Microsoft cuuriculum, что и Advanced Machine Learning, в математике есть много общего, что используется в обеих областях. Например: Нелинейное программирование (множители Лагранжа, условия KKT ...) -> используется для выведения машин опорных векторов ... Эконометрика, которая в основном основана на регрессиях ---> Регрессии являются ключевой частью как Data Scinece в целом, так и более конкретно, контролируемое обучение ... Статистика (обычно находится в учебном плане ИЛИ) ---> ключ для науки о данных и машинного обучения, а также ... Стохастические процессы ---> очень важные в обучении с подкреплением ... Динамическое программирование ---> снова обнаруживаются в обучении с подкреплением ... Итак, я бы сказал, что есть некоторые сходства с наукой о данных в целом и сходства с ML. Конечно, цели этих дисциплин разные, но в математике, которая используется в этих дисциплинах, есть много общего.

— Горан Mabic
источник

Как это отвечает на вопрос?

— Зло