Я только что посмотрел лекцию по статистическому выводу («сравнение пропорций и средних»), часть вводного курса по статистике онлайн. Материал имел для меня такой же малый смысл, как и всегда (к настоящему времени я, должно быть, видел это десятки раз за последние три десятилетия).
Я ищу книгу «Базовая статистика-101» (точечная оценка, оценочная оценка, статистический вывод, проверка гипотез, дизайн исследования), которая серьезно относится к проблеме убеждения скептического читателя ...
Ниже я привожу несколько примеров того типа вопроса, который автор, которого я ищу, воспринимает всерьез и знает, как ответить на него убедительно.
Но сначала позвольте мне выделить минуту, чтобы подчеркнуть, что в этом посте я не задаю эти вопросы. Пожалуйста, не отвечайте на них! Я даю их только в качестве примеров и в виде «лакмусовой бумажки» (для типа автора, который ищет).
Если «пропорция» является просто средним значением булевой переменной (то есть той, которая принимает только значения 0 и 1), почему учат различным процедурам для статистического вывода с помощью «пропорций» и «средних»?
Если нормальное распределение настолько устойчиво, что допущение нормальности дает хорошие результаты даже в тех случаях, когда эти данные распределены не совсем нормально, и если t-распределение выглядит так нормально, почему все возни об использовании t-распределения вместо обычный?
Что именно «степени свободы» и почему мы беспокоимся о них?
Что значит говорить об «истинном» значении параметра, учитывая, что мы просто используем распределения, которые выглядят похожими на данные?
Почему «предварительный анализ данных» - это хорошо, а «отслеживание данных» - зло?
Как я уже сказал, меня откладывает отношением, которое подразумевается пренебрежением такими вопросами. Это не «эпистемологическая позиция», которую я хочу видеть в том, кто меня чему-то учит. Я ищу авторов, которые уважают скептицизм и рациональность читателя и знают, как к ним обращаться (без необходимости переходить на страницы и страницы формализма и технических подробностей).
Я понимаю, что это сложный заказ, и, может быть, особенно, когда дело касается статистики. Поэтому я не ожидаю, что многим авторам это удастся. Но на данный момент я буду доволен поиском только одного .
Позвольте мне добавить, что я не склонен к математике. Наоборот, я люблю математику. (Я доволен анализом [он же «расширенное исчисление»), линейной алгеброй, теорией вероятностей, даже теорией элементарных мер.)
Тем не менее, мой интерес в настоящее время к статистике «прикладной», «практической», «повседневной», «реальной» (в отличие от теоретических тонкостей). (Но я не хочу кулинарную книгу!)
FWIW, я прочитал первые несколько глав анализа данных с использованием регрессионных и многоуровневых / иерархических моделей Гелмана и Хилла, и мне нравится тон авторов. Их цель практична, но при необходимости углубляйтесь в теорию. Они также часто отступают, критически оценивают стандартную практику и высказывают откровенные мнения, обращающиеся к здравому смыслу скептического читателя. К сожалению, эти авторы не написали книгу, посвященную теме, о которой я спрашиваю в этом посте (материал «Stats 101», как описано выше). Мне также известно, что один из этих авторов (Гельман) стал соавтором высоко оцененного анализа байесовских данных. , но, опять же, это не то, что я ищу в данный момент.
РЕДАКТИРОВАТЬ:
Дикран Marsupial выдвигает следующее возражение:
Я не думаю, что с пренебрежением вопросами обязательно что-то не так, наступает момент, когда решение каждого вопроса отвлекает от изложения основных понятий, что зачастую является более важным (особенно в книге статистики 101!).
Я согласен с этим. Для меня было бы точнее сказать, что я ищу «второй взгляд на основную статистику». На самом деле, с этой мотивацией я посмотрел учебники, используемые на курсах для аспирантов по умозаключению (скажем), и обнаружил, что они слишком пренебрегали вопросами, подобными тем, которые я перечислил. Во всяком случае, они казались еще менее склонными вникать в такие вопросы (чтобы они могли сосредоточиться на таких вопросах, как условия некоторой конвергенции или того или иного из этого или того ...).
Проблема в том, что более продвинутые книги адресованы радикально различному кругу читателей, в которых «скептицизм постороннего» резко истощился. Итак, те, кто берут статистику на уровне выпускников, зашли в тупик из-за вопросов, которые меня беспокоят, Они больше не скептически относятся ни к чему из этого. (Как они преодолели горб скептицизма? Может быть, некоторые из них никогда не были слишком критичны, особенно, если они узнали свою статистику довольно рано - я знаю, что сам я не был особенно критичным новичком, например, хотя я этого не делал возьмите статистику тогда. У других, возможно, были учителя, которые заполнили, где их учебники терпели неудачу. Некоторые, возможно, были достаточно умны, чтобы выяснить ответы на такие вопросы для себя. Кто знает.)