Какие хорошие вопросы для собеседования для кандидатов на разработку статистического алгоритма?


15

Я беру интервью у людей на позицию разработчика / исследователя алгоритма в контексте статистики / машинного обучения / интеллектуального анализа данных.

Я ищу вопросы, которые нужно задать, чтобы определить, в частности, знакомство, понимание и гибкость кандидата с базовой теорией, например, основные свойства ожидания и дисперсии, некоторые общие распределения и т. Д.

Мой текущий вопрос: «Существует неизвестное количество которое мы хотели бы оценить. Для этого у нас есть оценки которые, учитывая , все несмещены и независимы, и каждый имеет известная дисперсия , отличающаяся для каждого. Найдите оптимальный оценщик который является несмещенным и имеет минимальную дисперсию. "ИксY1,Y2,...,YNИксσя2Yзнак равное(Y1,...,YN)

Я ожидаю, что любой серьезный кандидат с легкостью справится с этим (если у него есть время для проработки расчетов), и все же я удивлен тем, сколько кандидатов, предположительно из соответствующих областей, не смогли добиться даже минимального прогресса. Поэтому я считаю это хорошим дискриминационным вопросом. Единственная проблема с этим вопросом заключается в том, что он только один.

Какие еще вопросы можно использовать для этого? Кроме того, где я могу найти коллекцию таких вопросов?


7
Для многих людей, обучающихся машинному обучению (включая хороших), этот вопрос - выход из их зоны комфорта. Это очевидный вопрос статистики.
Марк Клазен

4
Этот вопрос является законно граничным с / вне темы. Тем не менее, он имеет много мнений, несколько голосов, ответ с несколькими голосами, и, кроме того, CW. Это может остаться открытым, ИМО.
gung - Восстановить Монику

2
Вопрос может быть сформулирован в замешательстве. Например, использование с заглавной буквы заставит казаться случайным. Но так как вы упоминаете минимальную дисперсию, может показаться, что вы хотите, чтобы был неслучайным (в таком случае, почему дисперсия оценок не имеет письменной зависимости от ?)ИксИксИксИкс
Бэтмен

4
В целях предосторожности Google провел большое исследование их внутреннего процесса управления персоналом и обнаружил, что оценки интервьюеров вообще не коррелируют с последующей работой !! Мое впечатление от литературы здесь состоит в том, что (1) вопросы типа головоломки являются наихудшими, они служат только для того, чтобы интервьюер чувствовал себя умным (т. Е. 0 прогнозирования), и (2) возобновляют, вопросы, основанные на опыте, могут иметь прогностическую ценность. Прошлые показатели прогнозируют будущие результаты, и вы можете сосредоточить вопросы, чтобы выяснить, какими были их прошлые показатели, но интервью гораздо менее информативно, чем думают интервьюеры.
Мэтью Ганн

3
Беспристрастность гарантируется суммой весов в единство. Однако, даже ограничивая ваше решение линейными комбинациями оценок, почти всегда будет иметь место высокая корреляция нескольких оценок, основанных на одних и тех же данных . (Если они действительно независимы, то они будут применяться к непересекающимся, независимым подмножествам данных.) Однако совершенно не очевидно, что линейная комбинация оценок будет оптимальной.
whuber

Ответы:


12

Что вы хотите, чтобы ваш статистический разработчик делал?

Армия США говорит: «Тренируйся, ты будешь сражаться, потому что ты будешь сражаться так, как тебя тренировали». Проверьте их на то, что вы хотите, чтобы они делали весь день. Действительно, вы хотите, чтобы они «создавали ценность» или «зарабатывали деньги» для компании.

Босс 101

Думай "покажи мне деньги".

  • Деньги растут на деревьях, называемых служащими. Вы кладете в «десять центов» (их зарплата), а они платят вам «четверть» (их стоимость).
  • Если вы не можете связать их работу с тем, как они зарабатывают деньги для компании, то ни вы, ни они не выполняют свою работу правильно.

Примечание. Если ваш вопрос о символических манипуляциях не связан с «деньгами», то вы, возможно, задаете не тот вопрос.

Есть 3 вещи, которые каждый сотрудник должен сделать, чтобы стать сотрудником:

  • Быть в состоянии сделать работу
  • Хорошо работать с командой
  • Быть готовым / мотивированным на самом деле делать работу

Если ты не получишь это, то никакой другой ответ не принесет тебе никакой пользы.

Если вы можете заменить их хорошим программным обеспечением или хорошо обученным подростком, то вам в конечном итоге придется это сделать, и это будет стоить вам.

Данные 101

Что они должны быть в состоянии сделать:

  • использовать ваши внутренние разновидности программного обеспечения (сеть, ОС, офис, презентация и анализ)
  • использовать некоторые отраслевые стандартные версии программного обеспечения (Excel, R, JMP, MatLab, pick_three )
  • получить данные сами. Они должны знать основные наборы данных для основных задач. Они должны знать репозитории. Они должны знать, какие известные данные используются для какой задачи. Фишер Айрис. Краб Пирсон. ... возможно, здесь есть 20 элементов. UCI, NIST, NOAA.
  • Они должны знать правила обработки данных. Двоичные данные (T / F) имеют совсем другое информационное содержание, чем категориальные (A, B, C, D) или непрерывные. Правильная обработка данных по типу данных имеет важное значение.
  • Несколько основных статистических задач включают в себя: являются ли эти два одинаковыми или разными (иначе
    говоря, кластер / классификация), как это связано с этим (регрессия / подгонка, включая линейные модели, glm, радиальная основа,
    разностные уравнения), верно ли, что «(проверка гипотез), сколько образцов мне нужно (приемочная выборка), как я могу получить наибольшее количество
    данных из нескольких / дешевых / эффективных экспериментов (статистический дизайн
    эксперимента) - отказ от ответственности, я инженер, а не статистик. Вы можете спросить их вопрос "каковы различные фундаментальные задачи и как вы проверяете, может ли статистика выполнять их эффективно и правильно?"
  • получить доступ / использовать данные сами. Это о форматах и ​​инструментах.
    Они должны быть в состоянии читать из CSV, XLSX (Excel), SQL и
    изображений. (HDF5, Rdata) Если у вас есть собственный формат, он должен
    иметь возможность читать его и работать с инструментами быстро и
    эффективно. Они должны знать силу / слабость формата. CSV - это быстрое использование, он был всегда, быстрый прототип, но раздутый, неэффективный и медленный.
  • обрабатывать данные должным образом, используя лучшие практики, а не совершать грехи. Не выбрасывайте данные никогда. Не соединяйте биномиальные данные непрерывной линией. Не бросай вызов физике.
  • придумать результаты, которые повторяемы и воспроизводимы. Некоторые
    люди говорят, что «есть ложь, проклятая ложь и статистика», но не в моей
    компании. Тот же хороший ввод дает тот же хороший вывод. Выходные данные не являются числом, это всегда бизнес-решение, которое информирует о
    технических действиях и приводит к бизнес-результату. Различные тесты могут установить циферблат на 5,5 или 6,5, но возможность всегда выше 1,33.
  • представить результаты на языке и на уровне, который
    лица, принимающие решения, и / или разработчики миньонов, и / или сами могут
    понять в течение года с наименьшими ошибками. Прекрасная вещь - это способность объяснить это, чтобы ваша бабушка поняла это. Это ( ссылка ) мой ответ, но мне это нравится.

Аналитические зингеры:

Я думаю, что невозможные вопросы - это здорово. Они невозможны по причине. Быть способным узнать, невозможно ли что-то за воротами, - это хорошо. Знание почему, наличие некоторых способов привлечь его или возможность задать другой вопрос может быть лучше.

Другие вопросы CV. ( ссылка ) На реддит. ( ссылка ) другие ( ссылка )

Кстати, это был хороший вопрос. Возможно, мне придется обновить этот ответ с течением времени.


3
Кажется, это хороший ответ для вопроса, отличного от того, который я задавал. Я не спрашивал, как выбрать хороших сотрудников (я бы, наверное, спрашивал что-то подобное на рабочем месте. Если нужно), я спрашивал о тестировании определенной квалификации.
Мени Розенфельд

Я сведу это к статистике только тогда.
EngrStudent - Восстановить Монику
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.