Вопрос интервью с исследователем данных: линейная регрессия с низким и что бы вы сделали


10

Я столкнулся с вопросом об интервью для работы, на которой интервьюер спросил меня, предположим, что ваш очень низок (от 5 до 10%) для модели ценовой эластичности. Как бы вы решили этот вопрос?R2

Я не мог думать ни о чем другом, кроме того факта, что я буду проводить регрессионную диагностику, чтобы увидеть, что пошло не так, или следует ли применять какой-либо нелинейный метод. Почему-то я думаю, что интервьюер не был удовлетворен моим ответом. Есть ли что-то еще, что делается в таком сценарии, чтобы соответствовать модели и использовать ее для прогнозирования уровня производства, несмотря на то, что у него низкий ?R2

Изменить : На более позднем этапе они дали мне данные для моделирования проблемы во время интервью, и я попытался добавить лаговые переменные, влияние цены конкурента, манекены сезонности, чтобы увидеть, если это имеет какое-то значение. увеличился до 17,6%, и его показатели на несдерживаемой выборке были низкими. Лично я думаю, что неэтично использовать такую ​​модель для прогнозирования в реальной среде, поскольку это даст ошибочные результаты и приведет к потере клиентов (представьте, что вы можете использовать рекомендацию по ценообразованию из такой модели для дохода вашей компании!). Есть ли что-то еще, что делается в таких сценариях, что слишком очевидно, что каждый должен знать? Что-то, о чем я не знаю, что мне хочется сказать «серебряная пуля»?R2

Кроме того, давайте представим, что после добавления экзогенной переменной улучшается еще на 2%, что можно сделать в этом сценарии? Должны ли мы отказаться от проекта моделирования или все еще есть надежда на разработку модели качества уровня производства, о чем свидетельствует производительность на несдерживаемой выборке?R2

Edit2 : я разместил этот вопрос на форуме economics.stackexchange.com для понимания этой проблемы с точки зрения экономики


12
«Предположим, что ваш очень низок (от 5 до 10%) для модели ценовой эластичности» - это не вопрос . Мой ответ «предположим, что ваш очень низкий (от 5 до 10%) для модели эластичности цены» будет «хорошо, готово». Могу предположить, что нет проблем, поэтому больше ничего не нужно делать. Если бы они действительно не поступили, мне пришлось бы спросить, какой аспект они считают проблемой, которую нужно решить. В их отсутствие, в чем вы видите проблему ? R 2R2R2
Glen_b

1
Я отметил это для самостоятельного изучения @Glen_b, дайте мне знать, если мне нужно добавить какие-либо подробности. Спасибо!
Энтузиаст

2
Спасибо, это хорошо. Но более подробно будет включать в себя фактический вопрос, который вам нужно решить. «Предположим, X» представляет ситуацию, не требуя от вас решения.
Glen_b

1
Перекрестная публикация на economics.stackexchange.com/q/16617 . Пожалуйста, попробуйте выбрать лучший сайт для вопроса: если вы чувствуете, что стоит адаптировать варианты к различным сайтам, все равно оставляйте ссылки на них.
Scortchi - Восстановить Монику

1
@ Scortchi, я добавил ссылку в качестве дополнительного редактирования на обоих форумах. Спасибо!
Энтузиаст

Ответы:


11

Что если мы посмотрим на проблему с этой точки зрения. Ценовая эластичность - это соотношение между спросом и ценой товара.

Когда r-квадрат в этой ситуации низкий, мы можем предположить, что соотношение между ценой и спросом на этот конкретный продукт не является сильным.

С точки зрения ценообразования это может означать, что вы нашли продукт, за который вы можете установить произвольную цену без значительного влияния на спрос, ИЛИ что спрос является довольно неустойчивым, несмотря на различия в ценах.

Если вы посмотрите на товары Veblen , они являются примерами, где эластичность обратная. По мере роста цены спрос увеличивается.

Если, с другой стороны, r-квадрат низок, это может означать просто категорию товара, цена которого относительно не важна, когда дело доходит до спроса. Наверху, лекарство от рака может быть чем-то, что может прилипнуть к этому свойству. Там, где важность препарата превышает цену, которой он располагает, и не может показывать никаких изменений в спросе.

И в заключение, я предполагаю, что цель интервьюера, возможно, заключалась в том, чтобы судить, если бы вы знали, что означает значение низкого r-квадрата, вместо того, чтобы выяснить, как построить лучшую модель с более высоким r-квадратом.


+1 за заключение. Я также думаю, что целью этого вопроса является попытка увидеть, если кандидат слепо преследует метрику, не понимая ее полностью.
Haitao Du

5

Я не уверен, за чем последовал интервьюер, но когда я сталкиваюсь с плохо подготовленной моделью, это то, что я рассматриваю, и ответ, который я хотел бы услышать как интервьюер (брал интервью уже пару лет).

  1. Получение дополнительных данных : это не всегда помогает, но есть несколько вещей, которые могут помочь вам оценить эффекты этого решения:

    • Запустите модель с различными размерами выборки - если результаты улучшатся с большим количеством данных, то разумно предположить, что получение большего количества данных продолжит улучшать производительность модели.
    • Соотношение объектов к выборке - после того, как вы выбрали объекты, попробуйте понять, достаточно ли выборок для каждого значения функции. Смотрите ответ на вопрос по этому вопросу .
    • Отсутствие целевых значений - эластичность может не одинаково вести себя в разных ценовых диапазонах. В ситуации, когда данные выборки смещены в сторону определенного диапазона, есть большая вероятность, что вы не сможете обобщить (например, 90% выборок для цен от 0 до 10, а остальные 10% для цен между 1000-10000). Существуют способы решения этой проблемы, кроме получения большего количества данных (разделить обучение модели, не использовать регрессию).
  2. Лучшая разработка функций : если у вас достаточно данных и вы знаете о глубоком обучении, то, возможно, этот не имеет значения. Если вы не соответствуете упомянутым критериям, сфокусируйте свои усилия на этом. В моделях поведения пользователя существует множество отношений, которые наша человеческая интуиция понимает лучше, чем модель, обученная на машине.
    Как и в вашем случае, когда вы разработали несколько дополнительных функций и значительно улучшили производительность модели. Этот шаг подвержен ошибкам, поскольку он обычно включает в себя код на основе логики (If Elses / Matематические формулы).

  3. Лучший выбор модели : как вы предположили, возможно, нелинейная модель будет работать лучше. Являются ли ваши данные однородными? Есть ли у вас основания полагать, что перекрестные характеристики лучше объясняют ценовую эластичность? (сезонность * цена конкурента).

  4. Настройка гиперпараметров: гипер-параметры модели поиска по сетке (+ результаты перекрестной проверки) - хорошая практика, но, насколько я знаю, она редко значительно повышает производительность (конечно, не с 5% до 90%).

Есть еще вещи, которые можно сделать, но эти пункты достаточно общие.


1

В дополнение к тому, что предложили @DaFanat и @Arun, я хотел бы добавить, что некоторые визуальные проверки могут помочь.

Например, это может быть случай, когда некоторые выбросы влияют на ваш . Работая над проблемами управления доходами, мне приходилось постоянно исследовать влиятельные моменты . Очень часто выбросы ассоциировались с конкретными одноразовыми событиями, такими как рекламные кампании, скидки и т. Д.R2


Спасибо за то, что поделились информацией о конкретном домене, так как это действительно проблема управления доходами
энтузиаст
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.