Я ищу некоторые статистические (и, вероятно, вероятностные) вопросы для интервью, от самых простых до более продвинутых. Ответы не обязательны (хотя ссылки на конкретные вопросы на этом сайте вполне подойдут).
Я ищу некоторые статистические (и, вероятно, вероятностные) вопросы для интервью, от самых простых до более продвинутых. Ответы не обязательны (хотя ссылки на конкретные вопросы на этом сайте вполне подойдут).
Ответы:
Не уверен, что это за работа, но я думаю, что "Объяснить х новичку", вероятно, было бы хорошо
а) потому что они, вероятно, должны будут сделать это в работе
б) это хорошая проверка понимания, я считаю.
Стандарт Q, где я работаю, имеет вид:
Посмотрите на этот вывод множественной логистической регрессии из статистического пакета, который, как вы утверждаете, использовали (предпочтительно тот, который мы используем тоже). XXX является независимой переменной основного интереса. Насколько вы интерпретируете результаты для коллеги со знанием предмета, но без формальной статистической подготовки? (При необходимости запросите отдельную интерпретацию точечной оценки, CI, p-значения).
Вы также можете подумать о том, является ли собеседование лучшим средством для измерения интересующей конструкции. Если вы хотите измерить предшествующее знание вероятности или статистики, вам, возможно, лучше полагаться больше на письменный тест. Вы можете задать больше вопросов, и тем самым повысить достоверность измерений. Он более стандартизирован как в администрировании, так и в оценке. И как только инструмент будет разработан, он, вероятно, использует меньше ресурсов для администрирования.
Затем вы можете использовать интервью как более сфокусированный инструмент, рассматривая такие факторы, как устные и межличностные навыки.
Мне задали два вопроса:
1) Вы применяете множественную регрессию для изучения влияния конкретной переменной, которой заинтересован сотрудник в другом отделе. Переменная возвращается незначительной, но ваш коллега говорит, что это невозможно, так как известно, что это дает эффект. Что бы вы сказали / сделали?
2) У вас есть 1000 переменных и 100 наблюдений. Вы хотели бы найти значимые переменные для конкретного ответа. Чтобы ты делал?
Вот большой набор данных. Каков ваш план борьбы с выбросами? Как насчет пропущенных значений? Как насчет преобразований?
Могут ли они иметь дело с данными реального мира?
Многие вопросы / ответы на этом сайте могут дать идеи для хороших вопросов. Я дам список с некоторыми такими ссылками, которые я считаю хорошими. Сообщения, на которые я отвечал, перепредставлены, потому что я знаю эти сообщения лучше, а не потому, что они обязательно являются лучшими! Я даю короткие комментарии к каждой ссылке, чтобы вы могли решить, хотите ли вы перейти по ссылке.
Какая интуиция стоит за СВД? «Можете ли вы объяснить одному из наших клиентов, как работает СВД?»
Оценка максимального правдоподобия (MLE) в терминах непрофессионала "Можете ли вы объяснить на нетехническом языке идею оценки максимального правдоподобия?"
Талеб и Черный лебедь "Скажите, что такое черный лебедь и почему это важно? Когда это актуально?"
Статистический вывод, когда выборка "представляет собой" совокупность "Что вы можете сказать о статистическом выводе, когда выборка представляет собой целую совокупность?"
Достаточность соответствия и какую модель выбрать для линейной регрессии или Пуассона "У нас есть проблема регрессии, когда ответом является переменная подсчета. Что бы вы выбрали в этом контексте, обычные наименьшие квадраты или регрессию Пуассона (или, возможно, какую-то другую)? Объясните свой выбор В чем основные отличия этих моделей?
В чем разница между конечной и бесконечной дисперсией "Можете ли вы объяснить, на как можно более простом языке, что означает для случайной величины бесконечное ожидание или бесконечная дисперсия? Какова практическая важность этого различия? Объясните с помощью пример."
Каковы современные, легко используемые альтернативы ступенчатой регрессии? «Как бы вы построили сложную регрессионную модель, когда существует много возможных предикторных переменных? Опишите различные возможные стратегии и расскажите о проблемах с каждой из них».
Как бороться с идеальным разделением в логистической регрессии? «В чем проблема разделения в логистической регрессии, ее причины, симптомы? Что вы можете сделать, чтобы решить ее, если это действительно проблема?»
Почему корреляционная матрица должна быть положительной полуопределенной и что значит быть или не быть положительной полуопределенной? и
Что мне говорит неположительная ковариационная матрица о моих данных? «Объясните, почему ковариационная матрица должна быть положительной (полу) определенной, и что это значит. Как этот факт можно использовать?»
Каковы многомерные версии медианы «Можете ли вы предложить какой-либо способ обобщить медиану для многомерных данных?»
Интерпретация терминов взаимодействия в логит-регрессии с категориальными переменными и каковы лучшие методы определения эффектов взаимодействия? и два отрицательных основных эффекта все же положительный эффект взаимодействия? и Включая взаимодействие, но не основные эффекты в модели и Как интерпретировать основные эффекты, когда эффект взаимодействия незначителен? «Объясните, что подразумевается под взаимодействием в регрессионных моделях. В частности, что это значит, если взаимодействие является значительным, а основные эффекты - нет?
В чем может быть причина использования преобразования квадратного корня в данных? и Соответствующее преобразование данных "Когда, как и почему вы преобразовываете переменную ответа в регрессионную (или ANOVA) модель? Есть ли альтернативы?
Могу ли я доверять результатам ANOVA для ненормально распределенного DV? «Как бы вы относились к ANOVA с ненормальными остатками?
Почему статистика полезна, когда многие важные вещи - одноразовые?
Как я могу эффективно смоделировать сумму случайных величин Бернулли?
Когда использовать обобщенные оценочные уравнения и модели со смешанными эффектами?
Что здесь происходит, когда я использую квадрат потерь в настройке логистической регрессии? «Почему мы используем максимальную вероятность для логистической регрессии? Почему не наименьших квадратов?»
Однажды меня спросили, как бы я объяснил актуальность центральной предельной теоремы для класса первокурсников в социальных науках, которые едва знают статистику.
Как вы оцифровываете что-то, что не является числовым?
Пример «Автоматическое извлечение признаков для классификации аудиоданных»
Обоснование: могут ли они понять, как статистически анализировать что-то, чего еще нет в большой таблице?
Как вы предотвращаете чрезмерную подгонку при создании статистической модели?
Хороший ответ: перекрестная проверка
Я часто спрашиваю "как бы вы определили / объяснили, что такое прогнозирование?"
Ответ на этот очень общий вопрос помогает мне увидеть, связаны ли люди с конкретным случаем прогнозирования. Нет правильного ответа, но ответить на него синтетически во время интервью не всегда просто :)
Для контекста данных наблюдений:
Рассмотрим регрессионную модель, примененную к этой основной проблеме. Что, если вообще, в этом можно истолковать причинно? [Дальнейшее исследование] Что бы вам нужно было узнать, чтобы изменить свое мнение?
Как вы будете считать количество сандаловых деревьев в Бангалоре?
Под заголовком Причинно-следственная связь :
Вовлечение клиентов / пользователей является обычным явлением в качестве функций прогнозирующей модели. Например, люди, которые нажимают на эту кнопку, чаще подписываются, чем люди, которые этого не делают. Люди, которые делают покупки по понедельникам, чаще делают покупки снова, чем те, кто делают покупки по вторникам.
Если мы примем это до крайности: пользователи, которые нажимают «купить», с большей вероятностью приобретают продукт, чем пользователи, которые не нажимают «купить».
Но, очевидно, это не очень помогает объяснить, почему некоторые пользователи подписываются, а некоторые нет.
Как бы вы поступили с балансировкой, используя функции клиентов, которые объясняют, почему они подписываются, по сравнению с теми, которые тесно связаны с подпиской, но необходимы для выполнения задачи?
Вот набор TinkerToy . Покажите мне, как евклидово расстояние работает в трех измерениях. Теперь покажи мне, как работает множественная регрессия.
Могут ли они объяснить, как работает статистика в физическом мире?
У нас работает центр обслуживания клиентов. Мы получаем 1 миллион звонков в месяц. Как мы можем уменьшить его до десяти тысяч?
Многие вопросы, которые мы задаем, похожи на те, которые уже были описаны. Но некоторые из них, которые я еще не читал, используются: вас могут попросить набросать программу на доске, чтобы сделать что-то вроде: симулировать бросок игральных костей или другие вероятностные проблемы, или вычислить ряд простых чисел (например, все простые числа, которые меньше 1 000 000) - вы сможете сделать это на любом языке, который хотите, но большинство людей выбирают R, а некоторые выбирают Python (я полагаю), но я думаю, что вы можете выбрать Stata, SAS, SPSS , Matlab и т. Д. Вам, вероятно, зададут вопросы, чтобы проверить глубину вашего знания языка программирования по вашему выбору - почему, например, используйте применение вместо цикла for в R.
Вас также могут попросить разработать эксперимент или другое исследование, чтобы исследовать что-то - обычно что-то практическое - иногда это будет связано с работой, которую мы делаем, но часто нет. (Вы не должны знать о работе, которую мы выполняем, но вы должны быть в состоянии понять суть проблемы, о которой вы не слышали, и рассуждать об этом разумно, даже если бы вы знали определенные области знаний, о которых вы знали бы это было неправильно - это нормально, вы не должны иметь знания предметной области). Вас могут попросить принять во внимание такие вещи, как сила.
Выполняя анализ дисперсии количественной переменной, иногда он обнаруживал, что частота переменной очень высока (> 5), тогда мы используем точный критерий Фишера, чтобы найти независимость переменной.
Средняя платная посещаемость игр Янки в прошлом году составила 55 000. Вы случайным образом спрашиваете группу людей в Нью-Йорке, ходили ли они на игру янки в прошлом сезоне, и если они это сделали, вы записываете платную посещаемость. Какова средняя платная посещаемость игр, которые посещали люди, которых вы спрашивали, которые ходили на игры?
Я дам вам подсказку для моего ответа (подсказка не была предоставлена): выборка смещения по длине. Я выиграл домашний заезд, но этого было недостаточно, чтобы выиграть игру, ха-ха. Примечание: я упомянул много предостережений, касающихся того, как была сделана выборка, и интервьюер сказал мне игнорировать их все.