(Очень) рассказ
Короче говоря, в некотором смысле статистика похожа на любую другую техническую область: быстрого пути нет .
Длинная история
Программы бакалавриата по статистике в США относительно редки. Одна из причин, по которой я считаю это верным, заключается в том, что в учебную программу бакалавриата довольно сложно собрать все необходимое для изучения статистики. Это особенно верно в университетах, которые предъявляют значительные требования к общему образованию.
Развитие необходимых навыков (математических, вычислительных и интуитивно понятных) занимает много сил и времени. Статистику можно начать понимать на довольно приличном «операционном» уровне, когда студент освоит исчисление и приличное количество линейной и матричной алгебры. Тем не менее, любой специалист по прикладной статистике знает, что довольно легко найти себя на территории, которая не соответствует подходу к статистике, основанному на принципах печенья или на основе рецептов. Чтобы действительно понять, что происходит под поверхностью, необходимо в качестве предварительного условияматематическая и, в современном мире, вычислительная зрелость, которая реально достижима только в последние годы обучения в бакалавриате. Это одна из причин того, что настоящая статистическая подготовка в основном начинается на уровне MS в США (Индия, с их специализированным ISI, это немного другая история. Подобный аргумент может быть приведен для некоторого канадского образования. Я недостаточно знаком с Европейское или российское образование по статистике для студентов, чтобы иметь обоснованное мнение.)
Практически любая (интересная) работа потребует образования на уровне MS, а действительно интересные (на мой взгляд) рабочие места, по сути, требуют обучения на уровне докторантуры.
Поскольку у вас есть докторская степень по математике, хотя мы не знаем, в какой области, вот мои предложения относительно чего-то более близкого к образованию на уровне MS. Я включаю некоторые замечания в скобках, чтобы объяснить выбор.
- Д. Хафф, Как лгать со статистикой . (Очень быстро, легко читается. Показывает многие концептуальные идеи и подводные камни, в частности, при представлении статистики неспециалисту.)
- Настроение, Грейбилл и Боес, Введение в теорию статистики , 3-е изд., 1974. (Введение на уровне MS в теоретическую статистику. Вы узнаете о распределении выборки, точечной оценке и проверке гипотез в классической, частой структуре. Мнение заключается в том, что это, как правило, лучше и немного более продвинуто, чем современные аналоги, такие как Casella & Berger или Rice.)
- Seber & Lee, Линейный регрессионный анализ , 2-е изд. (Изложена теория, лежащая в основе оценки точек и проверки гипотез для линейных моделей, которая, вероятно, является наиболее важной темой для понимания в прикладной статистике. Поскольку вы, вероятно, обладаете хорошим фоном линейной алгебры, вы должны сразу же понять, что происходит геометрически , который обеспечивает большую интуицию. Также имеет хорошую информацию, связанную с вопросами оценки при выборе модели, отклонениями от предположений, прогнозов и надежных версий линейных моделей.)
- Хасти, Тибширани и Фридман, Элементы статистического обучения , 2-е изд., 2009 г. (Эта книга имеет гораздо более прикладное значение, чем предыдущая, и широко охватывает множество современных тем машинного обучения. Основной вклад здесь заключается в предоставлении статистических интерпретаций из многих идей машинного обучения, которые окупаются, в частности, в количественной оценке неопределенности в таких моделях. Это то, что имеет тенденцию идти вразрез с обычными книгами по машинному обучению. Юридически доступно здесь бесплатно .)
- А. Агрести, Категориальный анализ данных , 2-е изд. (Хорошее представление о том, как обращаться с дискретными данными в статистической структуре. Хорошая теория и хорошие практические примеры. Возможно, с традиционной стороны в некоторых отношениях.)
- Boyd & Vandenberghe, Выпуклая оптимизация . (Многие из самых популярных современных проблем статистической оценки и проверки гипотез могут быть сформулированы как задачи выпуклой оптимизации. Это также относится к многочисленным методам машинного обучения, например, SVM. Имея более широкое понимание и способность распознавать такие проблемы как выпуклые программы Я думаю, что это совершенно бесплатно. Легально доступно здесь бесплатно .)
- Эфрон и Tibshirani, Введение в Bootstrap . (Вы должны, по крайней мере, быть знакомы с начальной загрузкой и сопутствующими методами. Для учебника это быстро и легко читается.)
- Дж. Лю, Монте-Карло Стратегии в области научных вычислений или П. Глассерман, Методы Монте-Карло в области финансового инжиниринга . (Последнее звучит очень направленно на конкретную область применения, но я думаю, что это даст хороший обзор и практические примеры всех наиболее важных методов. Приложения финансового инжиниринга привели к значительному количеству исследований Монте-Карло за последнее десятилетие или около того .)
- Э. Туфте . Визуальное отображение количественной информации . (Хорошая визуализация и представление данных [сильно] недооцениваются даже статистиками.)
- Дж. Тьюки, Исследовательский анализ данных . (Стандартно. Олди, но вкусненькое. Некоторые могут сказать, что устарели, но все же стоит посмотреть.)
Дополняет
Вот некоторые другие книги, в основном немного более продвинутые, теоретические и / или вспомогательные, которые полезны.
- Ф. А. Грейбилл, Теория и применение линейной модели . (Старомодный, ужасный набор текста, но охватывает все те же основы Seber & Lee и т. Д. Я говорю старомодно, потому что более современные методы лечения, вероятно, будут использовать SVD для унификации и упрощения многих методов и доказательств.)
- Ф. А. Грейбилл, Матрицы с приложениями в статистике . (Сопутствующий текст к вышеупомянутому. Множество хороших результатов алгебры матриц, полезных для статистики здесь. Отличная настольная ссылка.)
- Деврой, Дьёрфи и Лугоши . Вероятностная теория распознавания образов . (Строгий и теоретический текст по количественной оценке производительности в задачах классификации.)
- Броквелл и Дэвис, Временные ряды: теория и методы . (Классический анализ временных рядов. Теоретическая обработка. Для более прикладных, тексты Box, Jenkins & Reinsel или Ruey Tsay вполне приличные.)
- Мотвани и Рагхаван. Рандомизированные алгоритмы . (Вероятностные методы и анализ для вычислительных алгоритмов.)
- Д. Уильямс, Вероятность и Мартингейл и / или Р. Дарретт, Вероятность: теория и примеры . (В случае, если вы видели теорию мер, скажем, на уровне Д.Л. Кон, но, возможно, не теорию вероятностей. Оба хороши для быстрого освоения скорости, если вы уже знаете теорию мер.)
- Ф. Харрелл, Стратегии регрессионного моделирования . (Не так хорошо, как Элементы Статистического Обучения [ESL], но имеет другой и интересный подход к вещам. Охватывает более «традиционные» темы прикладной статистики, чем ESL, и поэтому о нем стоит знать наверняка.)
Более продвинутые (докторантура) тексты
Леманн и Казелла, Теория оценки точек . (На уровне доктора наук оценка баллов. Часть задачи этой книги - прочитать ее и выяснить, что является опечаткой, а что нет. Когда вы увидите, как быстро их узнаете, вы поймете, что понимаете. такого типа там, особенно если вы погрузитесь в проблемы.)
Леман и Романо, Проверка статистических гипотез . (Обработка гипотез на уровне PhD. Не так много опечаток, как TPE выше.)
А. ван дер Ваарт, Асимптотическая статистика . (Прекрасная книга по асимптотической теории статистики с хорошими подсказками по прикладным областям. Хотя это не прикладная книга. Единственное, что я могу сказать, это то, что используются довольно странные обозначения, а детали иногда вытираются щеткой.)