Как вы передаете красоту центральной предельной теоремы не статистику?


33

Мой отец - энтузиаст математики, но не очень интересуется статистикой. Было бы неплохо попытаться проиллюстрировать некоторые замечательные статистические данные, и CLT является главным кандидатом. Как бы вы передали не статистику математическую красоту и влияние центральной предельной теоремы?


Одна быстрая мысль заключается в том, чтобы каким-то образом включить в обсуждение правило 68-95-99.7 ( en.wikipedia.org/wiki/68-95-99.7_rule ).
raegtin

Ответы:


16

Что мне больше всего понравилось в CLT, так это случаи, когда он неприменим - это дает мне надежду, что жизнь немного интереснее, чем предполагает кривая Гаусса. Так покажите ему распределение Коши.


Какова связь между распределением Коши и CLT или ошибкой CLT?
Робин Жирар


CLT требует, чтобы MGF существовали в окрестности 0. Распределение Коши не обладает этим свойством. CLT Win. Коши даже не удовлетворяет более слабым требованиям более сильной версии CLT, где требуется только то, что существует среднее значение и дисперсия. Распределение Коши показывает, что для удержания CLT требуется среднее значение. Это не делает CLT терпеть неудачу.
Балтимарк

@Baltimark Вы неправильно поняли мой пост - очевидно, что Cachy не охвачен CLT из-за предположений CLT, иначе было бы невозможно доказать CLT. Я привел этот пример, потому что люди считают, что CLT работает для всех дистрибутивов; Вероятно, слово «провал» - не идеальное слово, но, тем не менее, я не думаю, что это причина для отрицательного ответа Хорошо, я даже изменил это на неприменимо.

Я предпочитаю ваше редактирование. Распределение Коши определенно очень круто.
Балтимарк

14

Чтобы в полной мере оценить CLT, это должно быть видно.

Отсюда и понятие бобовой машины и множество видео на YouTube для иллюстрации.


Я думал, что это показывает биномиальное распределение; Я не думаю, что его асимптотика имеет прямую связь с CLT.

2
Бобовая машина от автора пакета анимации ... yihui.name/en/wp-content/uploads/2010/07/…
Робин Джирард

1
@mbq взгляните на en.wikipedia.org/wiki/…
робин джирард

@ Робин Я написал об этом, в чем проблема?

1
@ShreevatsaR Дело в том, что хорошая иллюстрация должна показывать «ядро» чего-то, и (по крайней мере, IMO) «ядро» CLT заключается в том, что он объединяет много переменных из разных странных распределений в гауссову, а не в том, что просто предел биномиального распределения.

7

Часто, когда математики говорят о вероятности, они начинают с известного распределения вероятностей, а затем говорят о вероятности событий. Истинное значение центральной предельной теоремы состоит в том, что она позволяет нам использовать нормальное распределение в качестве приближения в случаях, когда мы не знаем истинного распределения. Вы могли бы задать своему отцу стандартный статистический вопрос (но сформулированный как математический) о том, какова вероятность того, что среднее значение выборки будет больше заданного значения, если данные поступают из распределения со средним значением mu и sd sigma, а затем посмотрите, он предполагает распространение (о котором вы потом говорите, что мы не знаем) или говорит, что ему нужно знать распределение. Затем вы можете показать, что мы можем приблизить ответ с помощью CLT во многих случаях.

Для сравнения математики со статистикой мне нравится использовать теорему интегрирования среднего значения (которая говорит, что для интеграла от a до b существует прямоугольник от a до b с той же площадью, а высота прямоугольника является средним значением для кривая). Математик смотрит на эту теорему и говорит: «круто, я могу использовать интеграцию для вычисления среднего», в то время как статистик смотрит на ту же теорему и говорит: «круто, я могу использовать среднее для вычисления интеграла».

У меня на самом деле есть настенные вешалки с крестиком в моем кабинете теоремы о среднем значении и CLT (вместе с теоремой Байеса).


Хммм. Я думаю, что большинство математиков используют MVT для аппроксимации интеграла в виде прямоугольника.
кардинал

5

Мне нравится демонстрировать вариацию выборки и, по существу, центральную предельную теорему в упражнении «в классе». Все в классе, скажем, 100 учеников записывают свой возраст на листе бумаги. Все листы бумаги одинакового размера и сложены одинаковым образом после того, как я вычислил среднее значение. Это население, и я рассчитываю средний возраст. Затем каждый ученик случайным образом выбирает 10 листов бумаги, записывает возраст и возвращает их в сумку. (S) он вычисляет среднее значение и передает сумку следующему студенту. В конце концов у нас есть 100 выборок из 10 студентов, каждая из которых оценивает среднее значение численности населения, которое мы можем описать с помощью гистограммы и некоторой описательной статистики.

Затем мы повторим демонстрацию на этот раз, используя набор из 100 «мнений», которые повторяют некоторые вопросы «да / нет» из недавних опросов, например, если бы выборы в (британский генерал) были назначены завтра, вы бы подумали голосовать за Британскую национальную партию. Студенты их образец 10 из этих мнений.

В конце мы продемонстрировали вариацию выборки, центральную предельную теорему и т. Д. Как с непрерывными, так и с двоичными данными.


4

Игра с приведенным ниже кодом, изменение значения Mи выбор дистрибутивов, отличных от униформы, может быть забавной иллюстрацией.

N <- 10000
M <- 5
meanvals <- replicate(N, expr = {mean(runif(M,min=0, max=1))}) 
hist(meanvals, breaks=50, prob=TRUE) 

2

Если вы используете Stata, вы можете использовать команду -clt-, которая создает графики распределений выборки, см.

http://www.ats.ucla.edu/stat/stata/ado/teach/clt.htm


Похоже, что это может быть очень приятно, но я только что попытался установить и запустить его в Stata 11.1 (то есть в последней версии), и он продолжает выдавать ошибку r (3000) после нажатия кнопки «Готово» в диалоговом окне, даже если я ввожу - Версия 6: CLT-.
2010 г.

2

По моему опыту, CLT менее полезен, чем кажется. В середине проекта никто не знает, достаточно ли n достаточно, чтобы приближение было адекватным задаче. Что касается статистического тестирования, CLT помогает защитить ошибку типа I, но мало помогает предотвратить ошибку типа II. Например, t-критерий может иметь произвольно низкую мощность для больших n, когда распределение данных сильно искажено.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.