Что выучить после Casella & Berger?


22

Я чистый аспирант с небольшим опытом в прикладной математике. С прошлой осени я посещал занятия по книге Казеллы и Бергера, и я закончил сотни (более 230) страниц с упражнениями в книге. Прямо сейчас я нахожусь в главе 10.

Однако, поскольку я не специализировался в статистике или планировал стать статистиком, я не думаю, что смогу регулярно тратить время на продолжение изучения данных анализа. Мой опыт показывает, что для того, чтобы быть статистиком, нужно много утомительных вычислений с различными распределениями (Weibull, Cauchy, , F ...). Я обнаружил, что хотя основные идеи просты, реализация (например, LRT в тестировании гипотез) все еще может быть сложной из-за технических проблем.TF

Правильно ли мое понимание? Есть ли способ узнать вероятность и статистику, которая не только охватывает более продвинутый материал, но также может помочь в случае, если мне нужен анализ данных в реальной жизни? Нужно ли мне тратить на это 20 часов в неделю, как раньше?

Хотя я полагаю, что в изучении математики нет никакой королевской дороги, я часто не могу не задаться вопросом - большую часть времени мы не знаем, что такое распределение для данных из реальной жизни, и для чего нам нужно сосредоточиться исключительно на различных семействах распределений ? Если размер выборки невелик и центральная предельная теорема неприменима, как мы можем должным образом проанализировать данные, помимо среднего значения выборки и дисперсии, если распределение неизвестно?

Мой семестр закончится через месяц, и я не хочу, чтобы мои знания испарились после того, как я сконцентрируюсь на своей докторской диссертации. Поэтому я решил спросить. Я изучаю R, и у меня есть некоторый опыт программирования, но мой уровень примерно такой же, как у обезьяны кода.

Ответы:


24

Я не думаю, что смогу уделять регулярное время, чтобы продолжить изучение данных анализа

Я не думаю, что Casella & Berger - это место, где можно много изучать данные в процессе анализа данных . Это место для изучения некоторых инструментов статистической теории.

Мой опыт пока говорит мне, что я должен быть статистиком, который нужно терпеть утомительными вычислениями, включающими различные распределения (Weibull, Cauchy, t, F ...).

Я провел много времени как статистик, анализируя данные. Это редко (почти никогда) вовлекает меня в утомительные вычисления. Иногда это включает в себя небольшую простую алгебру, но общие проблемы обычно решаются, и мне не нужно каждый раз прилагать усилия, чтобы повторить это.

Компьютер выполняет все утомительные вычисления.

Если я нахожусь в ситуации, когда я не готов принять достаточно стандартный случай (например, не готов использовать GLM), у меня, как правило, недостаточно информации, чтобы предположить какое-либо другое распределение, поэтому вопрос о вычислениях LRT обычно спорный (я могу сделать это, когда мне нужно, они просто либо имеют тенденцию быть уже решенными, либо появляются настолько редко, что это интересная диверсия).

Я склонен делать много симуляции; Я также часто пытаюсь использовать передискретизацию в той или иной форме либо рядом, либо вместо параметрических допущений.

Нужно ли мне тратить на это 20 часов в неделю, как раньше?

Это зависит от того, что вы хотите сделать, и как скоро вы хотите добиться успеха в этом.

Анализ данных - это навык, требующий практики и большой базы знаний. У вас уже есть знания, которые вам нужны.

Если вы хотите быть хорошим практиком в самых разных вещах, это займет много времени - но, на мой взгляд, это намного веселее, чем алгебра и тому подобное, выполнение упражнений Казеллы и Бергера.

Скажем, некоторые навыки, на которых я основывался, говорят, что проблемы регрессии полезны с временными рядами, но нужно много новых навыков. Так что научиться интерпретировать остаточные графики и графики QQ удобно, но они не говорят мне, насколько мне нужно беспокоиться о небольшом ударе в графике PACF, и не дают мне таких инструментов, как использование прогнозирования на один шаг вперед ошибки.

Так, например, мне не нужно тратить усилия на выяснение того, как разумно сделать ML для типичных моделей гаммы или Вейбулла , потому что они достаточно стандартны, чтобы решать проблемы, которые уже в значительной степени представлены в удобной форме.

Если вы хотите заняться исследованиями , вам понадобится гораздо больше навыков, которые вы приобретете в таких местах, как Казелла и Бергер (но даже с такими навыками вам также следует прочитать более одной книги).


Некоторые предлагаемые вещи:

Вы должны определенно развивать некоторые навыки регрессии, даже если вы больше ничего не делаете.

Есть ряд неплохих книг, но, возможно, « Прикладной регрессионный анализ Дрэпера и Смита», а также «Фокс и Вайсберг - спутник прикладной регрессии» ; Я бы также предложил вам рассмотреть возможность использования стратегий Гарресса по регрессионному моделированию.

(Вы можете заменить любое количество хороших книг для Дрейпера и Смита - найдите одну или две, которые вам подходят.)

Во второй книге есть несколько дополнительных онлайн-глав, которые стоит прочитать (и собственный R-пакет)

-

Хорошей второй порцией была бы современная прикладная статистика Venables & Ripley с S .

Это основа довольно широкого круга идей.

Может оказаться, что вам нужны более базовые материалы по некоторым темам (я не знаю вашего опыта).

Тогда вам нужно подумать о том, какие области статистики вам нужны / нужны - байесовская статистика, временные ряды, многомерный анализ и т. Д. И т. Д.


6

Мой совет, исходящий из противоположной точки зрения (аспирант Stats), заключается в прохождении учебника по регрессии. Это кажется естественной отправной точкой для тех, кто имеет солидный теоретический опыт без какого-либо практического опыта. Я знаю, что многие аспиранты за пределами нашего факультета начинают курс регрессии.

Хорошим примером является прикладная линейная регрессия Сэнфорда Вейсберга . Я считаю, что это на его четвертой версии. Вы могли бы вероятно найти относительно дешевые старые версии.

http://users.stat.umn.edu/~sandy/alr4ed/

Одна приятная вещь в этом учебнике, особенно учитывая вашу относительную неопытность по отношению к R, - это праймер R, доступный по вышеуказанной ссылке. Он содержит достаточные инструкции для воссоздания всего, что сделано в книге. Таким образом, вы можете научиться регрессии (в дополнение к некоторым основам GLM), не ограничивая при этом отсутствие программирования на R (и вы, вероятно, поймете много основ R на этом пути).

Если вы хотите получить исчерпывающее введение в R, вам лучше будет пройти через « Компаньон В прикладной регрессии» Фокса и Вайсберга , но похоже, что вы скорее изучите статистику, чем программирование (если об этих двух вещах можно думать отдельно).

Что касается вашего времени, я не думаю, что вы найдете этот учебник или материал слишком сложным. В отличие от Казеллы-Бергера, не будет много доказательств или выводов. Как правило, это довольно просто.

Кроме того, кажется, что решения онлайн плавают в сети (или были в какой-то момент), так что вы можете попытаться решить проблемы, проверить решения и определенную скорость прохождения по книге.


4

Я пытаюсь окольным путем быть скорее статистиком, но я в первую очередь психолог, у которого есть некоторые количественные и методологические интересы. Чтобы правильно выполнять психометрическую работу, я изучал передовые (для психолога) методы, которые я не мечтал бы вычислить вручную (тем более я бы знал, как). Я был удивлен тем, насколько доступными и удобными стали эти методы благодаря целенаправленным усилиям программистов пакетов R за последнее десятилетие. Я проводил реальный анализ с новыми методами, которые я научился использовать менее чем за 20 часов для каждого метода ... Я мог бы потратить столько времени на новый метод, когда я буду готов опубликовать используйте его, но, конечно, нет необходимости делать работу с частичной занятостью, чтобы просто прогрессировать, как я. Делай, что можешь, когда найдешь на это время; это не преследование "все или ничего", если вам это не нужно.

Я, конечно, не сосредоточился исключительно на какой-либо теме, не говоря уже о семействах дистрибутивов; Я сомневаюсь, что любой честный статистик тоже учился бы так узко. В течение прошлой недели я несколько раз занимался теоретическим распределением, возможно, по часу в день; это было достаточно, чтобы оказаться полезным в реальных приложениях данных. Насколько я могу судить, идея состоит не в том, чтобы строго классифицировать распределения; это распознавание форм распределения, которые напоминают теории, и их использование, чтобы помочь принять решение о соответствующем анализе и понять основную динамику. Я поделился схожими мыслями в своем последнем ответе на вопрос: « Лучше ли выбирать дистрибутивы на основе теории, подгонки или чего-то еще? »

Вы не сказали, какой анализ вы хотите выполнить в том, что, как я предполагаю, был вашим гипотетическим наихудшим сценарием, но есть способы изучить чувствительность любого анализа к ошибке выборки. Если CLT не применяется, есть еще несколько статистических вопросов, которые вы можете задать, если знаете, как. Непараметрические методы обычно делают очень ограниченные предположения о распределениях, поэтому предварительное знание формы распределения населения не обязательно является серьезной проблемой.

Знание в целом на самом деле не испаряет все это быстро или полностью, но если вы его не используете, вам будет труднее свободно его вспомнить. Вы сохраните преимущество в распознавании гораздо дольше, что может пригодиться, если вам когда-нибудь понадобится изучать темы, которые вы изучали несколько лет назад ... но если вы хотите оставаться в курсе того, что вы узнали, продолжайте использовать его и продолжайте учиться! R, безусловно, хорошее место, чтобы потратить любое свободное время, которое у вас есть. Это должно помочь и с вашей чистой математикой: см. Другой из моих недавних ответов на « Лучшее программное обеспечение для визуализации данных с открытым исходным кодом для использования с PowerPoint ».


3

Я наткнулся на этот в 2019 году. Мои два цента.

Я профессор статистики со склонностью проводить анализ данных различного типа (именно поэтому я выбрал статистику!). Чтобы получить некоторые практические знания, я рекомендую Джеймсу, Виттену, Хасти и Тибширани «Введение в статистическое обучение». У них даже есть MOOC, основанный на этом. Книга использует много примеров «реальных данных» и также основана на R.


Есть ли у вас что-то, что можно предложить помимо «элементов статистического обучения»? Я думаю, что я знаком с (основными частями) книги сейчас.
Bombyx Mori

2

Отвечая на вопросы других, кто придет к этому вопросу позже ...


анализ данных в реальной жизни

Изучите базы данных (SQL), dplyr / pandas, инструменты Unix (sed, grep), анализ, создание сценариев, очистку данных и тестирование программного обеспечения. Различные специализированные дистрибутивы имеют мало значения в промышленности.

Книга прикладной регрессии, такая как Angrist & Pischke, Faraway или Weisberg, будет более практической теорией.

Большую часть времени мы не знаем, что такое распределение для реальных данных, поэтому для чего нам нужно сосредоточиться исключительно на различных семействах дистрибутивов?

Отсюда и интерес к непараметрической статистике. Но в то же время непараметрические без допущений слишком свободны. Чтобы ответить на ваш вопрос, специализированные семьи можно рассматривать как ответы на простые вопросы, с которыми вы, возможно, столкнетесь. Например, я думаю о гауссиане как о «гладкой» точечной оценке. Пуассон отвечает на еще один простой вопрос. Когда люди строят математические модели, эти особые могут быть полезными точками опоры. (Но академики часто принимают поиски мастер-дистрибуции неправильно).

ОП: Надеюсь, вам было весело с исследованиями PhD!

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.