Преобразовать распределение Пуассона в нормальное распределение


10

Прежде всего, я имею опыт работы в области компьютерных наук, но сейчас я пытаюсь научить себя основам статистики. У меня есть некоторые данные, которые я думаю, имеет распределение Пуассона

введите описание изображения здесь

У меня есть два вопроса:

  1. Это распределение Пуассона?
  2. Во-вторых, возможно ли преобразовать это в нормальное распределение?

Любая помощь будет оценена. Спасибо большое


3
1. Нет, распределение Пуассона обычно имеет моду в окрестности своего параметра, и поэтому сопоставление его с распределением Пуассона будет означать очень маленькое значение для параметра. 2. Да и нет. Что бы вы хотели сделать с нормальным распределением?
Дилип Сарват

Я пытаюсь передать эти данные в логистическую регрессию. Я был убежден, что нормально распределенные данные дают гораздо лучшие результаты
Абхи

Ответы:


11

1) То, что изображено, представляется (сгруппированными) непрерывными данными, нарисованными в виде гистограммы.

Вы можете совершенно безопасно сделать вывод, что это не распределение Пуассона.

Случайная переменная Пуассона принимает значения 0, 1, 2, ... и имеет самый высокий пик в 0, только когда среднее значение меньше 1. Она используется для данных подсчета; если вы нарисовали похожий график данных Пуассона, он может выглядеть так, как показано ниже:

введите описание изображения здесь

Первый - это пуассон, который показывает асимметрию, подобную вашей. Вы можете видеть, что его среднее значение довольно мало (около 0,6).

Второй - это Пуассон, который имеет значение, похожее (по очень грубой оценке) на ваше. Как видите, это выглядит довольно симметрично.

Вы можете иметь асимметрию или большое среднее, но не оба одновременно.

2) (i) Вы не можете сделать дискретные данные нормальными -

Используя сгруппированные данные, используя любое монотонно возрастающее преобразование, вы перемещаете все значения в группе в одно и то же место, поэтому самая низкая группа по-прежнему будет иметь самый высокий пик - см. График ниже. На первом графике мы перемещаем позиции значений x, чтобы они точно соответствовали нормальному cdf:

введите описание изображения здесь

На втором графике мы видим функцию вероятности после преобразования. Мы не можем достичь чего-то вроде нормальности, потому что это и дискретно, и косо; большой прыжок в первой группе останется большим прыжком, независимо от того, нажимаете ли вы влево или вправо.

(ii) Непрерывные искаженные данные могут быть преобразованы так, чтобы выглядеть достаточно нормально. Если у вас есть необработанные (не сгруппированные) значения, и они не сильно дискретны, вы, возможно, можете что-то сделать, но даже тогда часто, когда люди стремятся преобразовать свои данные, это либо не нужно, либо их основная проблема может быть решена другим (обычно лучше) способом. , Иногда трансформация - хороший выбор, но обычно это делается по не очень хорошим причинам.

Итак ... почему вы хотите изменить это?


Спасибо Глену за очень подробный ответ. Это объясняет многие понятия. Я пытаюсь передать эти данные в модель логистической регрессии. Я подумал (сейчас я не так уверен), что нормально распределенные данные дают гораздо лучшие результаты. Что вы порекомендуете?
Абхи

1
x

@Glen_b Большое спасибо за прекрасный ответ. Я также из области компьютерных наук и застрял в этом вопросе: stats.stackexchange.com/questions/408232/… Пожалуйста, дайте мне знать ваши мысли по этому поводу . С нетерпением жду Вашего ответа. Большое спасибо еще раз :)
EmJ

Пожалуйста, не используйте комментарии, чтобы набирать людей для ответа на ваши вопросы. Я уже видел твой вопрос.
Glen_b

0

Размещение более интересной информации для потомков.

Существует более старая статья, в которой обсуждается аналогичная проблема, связанная с использованием данных подсчета в качестве независимой переменной для логистических регрессий.

Вот:

Нарушает ли использование данных подсчета в качестве независимой переменной какое-либо из предположений GLM?

Как отметил Глен, если вы просто пытаетесь предсказать дихотомический исход, возможно, вы сможете использовать нетрансформированные данные подсчета в качестве прямого компонента вашей модели логистической регрессии. Тем не менее, обратите внимание: если независимая переменная (IV) распределена по Пуассону и находится в пределах многих порядков, использование необработанных значений может привести к очень влиятельным точкам, что, в свою очередь, может повлиять на вашу модель. Если это так, может быть полезно выполнить преобразование в ваши IV, чтобы получить более надежную модель.

Такие преобразования, как квадратный корень или логарифм, могут увеличить соотношение между IV и коэффициентом шансов. Например, если изменения в X на три целых порядка (вдали от медианного значения X) соответствовали всего лишь 0,1 изменения вероятности возникновения Y (вдали от 0,5), то вполне можно предположить, что любые расхождения в моделях будут привести к значительному смещению из-за экстремального левереджа от выбросов X значений.

Чтобы дополнительно проиллюстрировать это, представьте, что мы хотели использовать рейтинг Сковилла для различных перцев чили (домен [X] = {0, 3,2 миллиона}), чтобы предсказать вероятность того, что человек классифицирует перец как «неприятно острый» (диапазон [Y] = {1 = да, 0 = нет}) после употребления в пищу перца соответствующего рейтинга X.

https://en.wikipedia.org/wiki/Scoville_scale

Если вы посмотрите на график рейтингов Сковилла, то увидите, что лог-преобразование необработанных рейтингов Сковилла позволит вам приблизиться к субъективным (1-10) оценкам каждого чили.

Таким образом, в этом случае, если бы мы хотели создать более надежную модель, которая фиксирует истинную связь между необработанными оценками Сковилла и субъективной оценкой тепла, мы могли бы выполнить логарифмическое преобразование значений X. Делая это, мы уменьшаем влияние чрезмерно большого X-домена, эффективно «уменьшая» расстояние между значениями, различающимися на порядки величины, и, следовательно, уменьшая вес любых X-выбросов (например, тех, кто не переносит капсаицин и / или сумасшедших специй! !!) есть на наши прогнозы.

Надеюсь, что это добавляет интересный контекст!

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.