Справочник по статистике с R - существует ли и что должен содержать?


25

Задний план

Вокруг этого много дискуссий, поэтому я подумал, что смогу найти ответ по предыдущим шагам на StackExchange и яростно погуглить. Потратив полдня на поиски только одного справочника по (био) статистике с R, я совершенно запутался и вынужден был сдаться. Возможно, объединенный бесплатный материал на самом деле лучше, чем любая из книг, которые вы можете купить в данный момент. Давайте это выясним.

Интернет полон хорошей бесплатной литературы по языку R , так что нет смысла платить за посредственную книгу, которая в большинстве случаев используется как украшение офиса. На домашнем сайте R перечислены книги, связанные с R, и их много. Если быть более точным: 115. Только один из них рекламируется со словами « автономный справочник статистики ». Сейчас 8 лет и может устареть. Четвертое издание современной прикладной статистики с S еще старше. R Book часто разжевывается как слишком простая и не рекомендуется из-за отсутствия ссылок, плохо отформатированного кода и небрежного завершения.

Тем не менее, я ищу одну книгу , которую я мог бы использовать как отдельную ссылку на практическую статистику (в первую очередь) с R (вторичным). Книга должна жить на моем офисном столе, собирая аннотации, кофейные пятна и жирные отпечатки пальцев вместо пыли на книжной полке. Он должен заменить коллекцию бесплатных PDF-файлов, которые я использовал до сих пор, не забывая, что R поставляется с превосходной справочной библиотекой. « Каков правильный подход? « Почему? «и« технически, как это работает? »- часто более острые вопросы, чем« как это сделать с R? »

Поскольку я эколог, меня больше всего интересуют приложения к биостатистике. Однако, поскольку эти вещи часто связаны между собой, междисциплинарная общая ссылка была бы для меня наиболее ценной.

Задание

Если такая книга существует (я сомневаюсь в этом), пожалуйста, укажите название книги (только по одной на ответ) и краткий обзор книги, объясняющий, почему она должна быть названа в качестве справочника по данной теме. Поскольку этот вопрос не сильно отличается от существующих, пожалуйста, используйте этот шаг для вашего ответа. Вы также можете перечислить недостатки книги, чтобы мы могли перечислить их как функции идеального справочника.

Мой вопрос: что должен содержать справочник по статистике (наиболее часто используемых видов) с буквой R?

Некоторые начальные мысли следующие общие характеристики (пожалуйста, обновите):

  • Тупой как пробка
  • Сжато, но понятно
  • Заполнено цифрами (с предоставленным кодом R)
  • Простые для понимания таблицы и диаграммы с описанием наиболее важных деталей из текста
  • Легкий для понимания, описательный текст о статистике / методах, содержащий наиболее важные уравнения.
  • Хорошие примеры для каждого подхода (с кодом R)
  • Широкий и актуальный список литературы
  • Минимальное количество опечаток

Оглавление

Поскольку я не статистик и мне нужна эта (не существующая?) Книга, чтобы ответить на вопрос, мне сложно писать о ее содержании. Поскольку R Book явно намеревается стать справочником по статистике с помощью R, но часто подвергается критике, я скопировал оглавление из книги в качестве отправной точки для оглавления для автономного справочника по статистике R. Дополнительная задача: пожалуйста, предоставьте дополнения, предложения, удаления и т. Д. Для оглавления.

  1. Начиная
  2. Основы языка R
  3. Ввод данных
  4. Dataframes
  5. Графика
  6. таблицы
  7. Математика
  8. Классические Тесты
  9. Статистическое моделирование
  10. регрессия
  11. Дисперсионный анализ
  12. Анализ ковариации
  13. Обобщенные линейные модели
  14. Подсчет данных
  15. Данные подсчета в таблицах
  16. Данные о пропорции
  17. Переменные двоичного ответа
  18. Обобщенные аддитивные модели
  19. Модели со смешанными эффектами
  20. Нелинейная регрессия
  21. Модели дерева
  22. Анализ временных рядов
  23. Многомерная статистика
  24. Пространственная статистика
  25. Анализ выживания
  26. Имитационные модели
  27. Изменение внешнего вида графики
  28. Ссылки и дальнейшее чтение
  29. Показатель

Что было сказано ранее?

StackExhange содержит несколько шагов, запрашивающих статистику и R книгу предложений. Книги для изучения языка R спрашивают о справочнике по изучению языка R без учета статистики. Искусство программирования R оценивается как лучшее единственное предложение. Книга для изучения статистики с использованием R требует идеальной вводной книги по статистике, которая на самом деле не то же самое, что справочник. Open Source статистические учебники занимают статистик многовариантных с R в качестве лучшей альтернативы. Какую книгу вы бы порекомендовали ученым, не занимающимся статистикой? спрашивает о лучшем статистическом справочнике без указания выбранной программы.Справочник или книга по моделированию экспериментальных данных в R баллах, возможно, ближе всего к моему вопросу. Введение в научное программирование и моделирование Использование R является наиболее рекомендуемой книгой здесь и может быть близко к тому, что я ищу. Тем не менее, эта книга также не будет достаточно в качестве единого справочника по статистике с R.

Некоторые предложения для справочника и их недостатки

«R in Action » получил лучшие отзывы, чем «The R Book», но, по-видимому, он довольно вводный .

Биостатистический дизайн и анализ с использованием R: практическое руководство , возможно, близко к тому, что я ищу. Он получил хороший обзор , но, по-видимому, этот также содержит много опечаток. Кроме того, эта книга не концентрируется на объяснении статистики, а дает статистический анализ как готовые рецепты для использования исследователями.

Экологические модели и данные в R пропускают вводный уровень. Это очень полезная функция, поскольку слово «введение» оценивает 43 случая в списке книг R , но, возможно, не совсем удовлетворительно, если мы ищем справочник по статистике…?

Введение в научное программирование и моделирование Использование R получило очень положительный отзыв , но ограничено моделированием данных.

Richiemorrisroe предполагает, что современная прикладная статистика с S достаточна для отдельного справочника статистики с R. Эта книга получила отличные отзывы ( 1 , 2 ) и, возможно, является лучшим кандидатом на этот титул в настоящее время? Самая последняя версия вышла 10 лет назад, что довольно долго, учитывая разработку программы.

Дмитрий В. Мастеров предлагает анализ данных с использованием регрессионных и многоуровневых / иерархических моделей . Еще не проверили эту книгу.


После прочтения множества рецензий на книги кажется очевидным, что идеальная книга, о которой идет речь, еще не существует. Тем не менее, возможно, можно выбрать тот, который довольно близко. Этот шаг предназначен как вики-сообщество для пользователей статистики, чтобы найти лучший существующий справочник, и как мотивация для новых и старых авторов книг улучшить свою работу.


3
(+1) за хороший обзор! Тем не менее, кажется, что вы ответили на свой вопрос в рамках своего собственного вопроса ...
ocram

1
Если вы потратили так много времени на выяснение этого, придумав длинный собственный список и даже набросок такой книги, возможно, вам следует написать ее. Это рекомендация, которую я часто даю в списках статистики и эконометрики, когда кто-то просит хороший обзорный документ по [BLAH] и обсуждает, что им не нравится в пяти или десяти существующих обзорных статьях - напишите на нем свой собственный обзор.
StasK

Ответы:


12

Я лично думал, что Современная Прикладная Статистика с S-Plus помечает все поля, которые вы обрисовали. В каждом примере есть R-код, они дают хорошие ссылки на другие источники, а у Venables и Ripley замечательный лаконичный и понятный стиль написания, который я действительно оценил. Я склонен перечитывать книгу время от времени, и каждый раз получаю от нее больше информации. Конечно, ваш пробег может отличаться.


2
Я согласен. У меня есть много книг по статистике, основанных на R, и MASS4, вероятно, ближе всего к тому, что вы ищете, но в некоторых местах «краткий» становится непонятным кратким и требует большей статистической справочной информации, чем я. Тем не менее, у меня есть книга почти 10 лет, и я продолжаю возвращаться к ней и изучать новые вещи. Я бы не позволил его возрасту оттолкнуть тебя. Ох, и я сейчас делаю статистику PhD :-)
Шон

Я также возвращаюсь назад и возвращаюсь к МАССЕ, которая звучит как явное предпочтение этому справочнику.
Питер Эллис

Версия MASS 1998 года сильно отличается от версии 2003 года? Хотите знать, достаточно ли разницы в содержании, чтобы заплатить за нее еще около 50 фунтов стерлингов?
предположения

6

Спасибо за такой хороший вопрос, и особенно за сбор всей этой информации. К сожалению, книги, которую вы описываете, не существует, и, честно говоря, она не может существовать. Если вам в первую очередь нужен справочник по статистике, я бы начал с действительно хорошей книги по линейным моделям. Моя рекомендация - Катнер и др.Он соответствует критериям, по размеру и массе превосходящим кирпичи, является очень полным, понятным и содержит множество примеров. Фактически, если вы отмените требование R, это в значительной степени отметит весь ваш список. Я часто вспоминаю об этом. Тем не менее, на ~ 1500 страницах, он в значительной степени охватывает только линейные модели - то есть, регрессию и ANOVA - есть несколько кратких глав по паре других тем, но вам действительно понадобятся другие книги для этого. Затем я бы получил первоклассный статистический справочник на соответствующем для вас уровне для любых других методов, с которыми вам может понадобиться работать (например, анализ выживания, пространственный анализ и т. Д.). Если эти книги не используют R в качестве примеров, вы можете получить книгу, специально предназначенную для R, например, одну из них - R! книги, но между документацией, виньетками, списками рассылки R-help, StackOverflow и CV вам может и не понадобиться. Если вы хотите научиться правильно программировать на R, вам также следует приобрести одну из этих книг. На данный момент у вас есть как минимум 4 книги. Извините, но так оно и есть. Ни у кого, кто много работает со статистикой, нет только одной книги, которая охватывает все.


5

Я не думаю, что такая книга существует. Книга, которая, я думаю, наиболее близка к книге «Анализ данных Гельмана и Хилла с использованием регрессионных и многоуровневых / иерархических моделей» .

Минусы:

  • Это ~ 5 лет и предназначено для социологов.

  • У него нет всего в вашем списке оглавления (ничего пространственного, в основном ничего во временных рядах и т. Д.)

Плюсы:

  • Хорошо написанный

  • У него есть список ошибок и оглавление по ссылке

  • Он охватывает ключевые вещи, такие как отсутствующие данные, которых нет в вашем нумерованном списке.

  • Он поражает большинство предметов в вашем списке.

  • Много графиков и R-кода (некоторые ошибки кода для многоуровневого).

  • Все данные / код доступны для скачивания.


4

Я прорабатываю элементы статистического обучения . Эта книга охватывает невероятный диапазон методов (так же как и более 700 страниц), но каждый подход объясняется очень практичным, а не очень теоретическим способом. Он явно не содержит ничего о R, однако графики и графики все четко сделаны с помощью R, и в CRAN есть пакеты для всех обсуждаемых тем. Все авторы были вовлечены в разработку R (а также изрядного количества современных методов машинного обучения).


2
Есть даже пакет R для этой книги: ElemStatLearn :-)
chl

3

Я согласился с ответом, получившим наибольшее количество голосов в настоящее время, что MASS4 очень хорошо соответствовал запросу и имел тот же опыт, что и другой респондент, с трудом удовлетворяющий его требование довольно высокого уровня статистической сложности. На самом деле MASS3 был моим первым "Rbook", и в этом качестве он мне очень помог. Я купил «Книгу R» Кроули и счел ее неудовлетворительной как для неточного описания языка R, так и для того, чтобы быть немногим более, чем набором отработанных примеров, которым, казалось, не хватало глубины статистической теории.

Однако с течением времени я обнаружил, что «Стратегии регрессионного моделирования» (RMS) Харрелла лучше подходят для «биостатистической» направленности этого вопроса, а также имеют хорошую глубину. Это не вводный текст на R. Для этого нужно искать в другом месте, и для этого я рекомендую один из Введение в научное программирование и моделирование с использованием R [ http://www.crcpress.com/product/isbn/9781420068726] или (несмотря на его название) "R для чайников", написанное несколькими давними авторами тегов публикации StackOverflow's R. У меня есть RMS только в его первом издании, когда он был более сфокусирован на S, но с тех пор Харрелл переключился на R и полностью поддерживаетrms/HmiscR пакет дуэт. Я полагаю, что это удовлетворяет предложению @ gung для специального охвата в нескольких из перечисленных областей, хотя не для пространственного анализа или смешанных моделей.


1
Я очень рекомендую RMS и MASS. Я не в биостатистике, но большинство советов в Харрелле полезны в более общем смысле. Я часто прошу будущих студентов-исследователей читать Харрелла или хотя бы главу 4, а затем часто рекомендую МАССУ как хорошую общую книгу, чтобы убедиться, что они знакомы.
Glen_b

Для общего изучения я назначаю «Теоретическую статистику» Кокса и Хинкли и 2-й том Феллера «Введение в теорию вероятностей». Но это явно не относится к R-части этого вопроса.
DWin

[Учащиеся, которых я контролирую, находятся за пределами статистики, хотя их работа включает в себя довольно много ... MASS и RMS более полезны для них, чем Cox, Hinkley и Feller Vol 2, хотя оба они - наряду с Кендалл и Стюарт - были очень ценны для моего собственного опыта]
Glen_b

2

Если вы хотите перевести ... (это компаньон из теоретической книги на 4900 страниц):

Большая книга R

Эта книга (соавтором которой я являюсь) представляет собой сборник 15-летнего опыта консалтинга и преподавания на уровне бакалавриата и магистратуры и показывает только примеры материалов R, для которых детали математики (доказательства) приведены на моих 4900 страницах. сопроводительные книги, где расчеты также производятся вручную с числовыми значениями (+500 страниц, которые будут доступны в следующем издании). Эта книга также дает возможность проверить, что программное обеспечение дает правильные значения, и это гораздо веселее, чем делать вычисления вручную или в MS Excel по предметам, которые обычно преподаются в аспирантуре в европейских школах. Цель этой книги также состоит в том, чтобы показать, что вы можете использовать 1 программное обеспечение вместо многих для одинаковых результатов без затрат (вместо совместного использования JMP + Minitab + SPSS + SAS + MATLAB). Эта книга также показывает слабые стороны R (обслуживание пакетов не гарантируется). Это также сборник очень ценных вопросов на различных R форумах и блогах. Это бесплатно и в цвете!


1
Не могли бы вы также предоставить запрошенный «краткий обзор»? Почему вы рекомендуете эту книгу? Каковы хорошие (и плохие) вещи об этом?
whuber

Я один из соавторов ... не очень нейтральный для краткого обзора ...
Винсент ISOZ

1
Это нормально - мы будем рады услышать от вас, что вы думаете о сильных сторонах вашей книги или о том, кому она будет полезна. Раскрывая вашу связь с книгой (что очень важно ), вы позволяете читателям учитывать это при оценке того, что вы говорите. Я подозреваю, что многие читатели поймут, что вы хорошо осведомлены об этой книге, и были бы благодарны за то, что вы говорите. Без предоставления какого-либо обзора ваш ответ должен был бы быть сведен к простому комментарию, который привлек бы относительно мало внимания.
whuber
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.