"Есть ли лучшее слово для этого распределения?"
Здесь стоит провести различие между использованием слов для описания свойств дистрибутива и попыткой найти «имя» для дистрибутива, чтобы вы могли идентифицировать его как (приблизительно) экземпляр определенного стандартного дистрибутива: тот, для которого формула или статистические таблицы могут существовать для его функции распределения, и для которой вы можете оценить его параметры. В этом последнем случае вы, скорее всего, используете именованный дистрибутив, например «нормальный / гауссовский» (оба термина обычно синонимичны), в качестве модели, которая фиксирует некоторые ключевые характеристики ваших данных, вместо того, чтобы утверждать, что ваши данные взяты из точно следует , что теоретическое распределение. Чтобы немного исказить Джорджа Бокса,все модели «неправильны», но некоторые полезны. Если вы думаете о подходе к моделированию, стоит подумать, какие функции вы хотите включить, и насколько сложной или экономичной вы хотите, чтобы ваша модель была.
Будучи положительно перекос пример описания свойства , что распределение имеет, но близко не подходит к заданию , которое не совсем готовое распределение является «» соответствующая модель. Это исключает некоторых кандидатов, например, распределение Гаусса (то есть нормальное) имеет нулевую асимметрию, поэтому не подходит для моделирования ваших данных, если эта асимметрия является важной особенностью. Могут быть и другие свойства данных, которые также важны для вас, например, что они унимодальные (имеют только один пик) или ограничены от 0 до 24 часов (или от 0 до 1, если вы записываете их в виде дроби дня) или что масса вероятности сконцентрирована на нуле (поскольку есть люди, которые вообще не смотрят YouTube в данный день).куртоз . И стоит иметь в виду, что даже если ваш дистрибутив имел форму «горба» или «колокольчика» и имел нулевой или почти нулевой перекос, из этого автоматически не следует, что нормальное распределение является «правильным» для него! С другой стороны, даже если популяция, из которой взяты ваши данные, действительно точно следовала определенному распределению из-за ошибки выборкиВаш набор данных может не совсем походить на него. Небольшие наборы данных могут быть «шумными», и может быть неясно, являются ли определенные особенности, которые вы видите, например, дополнительные небольшие горбы или асимметричные хвосты, свойствами основной популяции, из которой были взяты данные (и, возможно, поэтому их следует включать в вашей модели) или являются ли они просто артефактами из вашего конкретного образца (и для целей моделирования следует игнорировать). Если у вас небольшой набор данных и перекос близок к нулю, то вполне вероятно, что базовое распределение фактически симметрично. Чем больше ваш набор данных и чем больше асимметрия, тем менее правдоподобно это становится, но в то время как вы могли бы выполнить тест на значимость, чтобы увидеть, насколько убедительными являются доказательства того, что ваши данные обеспечивают асимметрию в популяции, из которой они были получены, это может не указывать, подходит ли нормальное (или другое нулевое) распределение в качестве модели ...
Какие свойства данных действительно имеют значение для целей, которые вы намереваетесь смоделировать? Обратите внимание, что, если перекос достаточно мал, и вы не очень заботитесь о нем, даже если основная популяция действительно искажена , тогда вы все равно можете найти нормальное распределение полезной моделью для аппроксимации этого истинного распределения времени просмотра. Но вы должны проверить, что это не в конечном итоге делает глупые прогнозы. Поскольку нормальное распределение не имеет ни максимального, ни минимально возможного значения, то, хотя чрезвычайно высокие или низкие значения становятся все менее вероятными, вы всегда обнаружите, что ваша модель предсказывает, что есть некоторыевероятность просмотра отрицательного количества часов в день или более 24 часов. Это становится более проблематичным для вас, если прогнозируемая вероятность таких невозможных событий становится высокой. Симметричное распределение, такое как нормальное, будет предсказывать, что столько людей будут наблюдать в течение отрезков времени более чем, например, на 50% выше среднего, а также менее чем на 50% ниже среднего. Если время просмотра очень искажено, то этот вид предсказания также может быть настолько неправдоподобным, что может показаться глупым и может привести к вводящим в заблуждение результатам, если вы берете результаты своей модели и используете их в качестве входных данных для какой-то другой цели (например Вы проводите симуляцию времени просмотра, чтобы рассчитать оптимальное планирование размещения рекламы). Если асимметрия настолько примечательна, что вы хотите запечатлеть ее как часть вашей модели, тоКосое нормальное распределение может быть более подходящим. Если вы хотите уловить как асимметрию, так и эксцесс, рассмотрите перекос т . Если вы хотите включить физически возможные верхнюю и нижнюю границы, рассмотрите возможность использования усеченных версий этих дистрибутивов. Существует много других вероятностных распределений, которые могут быть перекошены и унимодальны (для выбора подходящих параметров), таких как F или гамма- распределения, и снова вы можете их усечь, чтобы они не предсказывали невероятно высокое время просмотра. Бета - распределениеможет быть хорошим выбором, если вы моделируете часть дня, проведенного за просмотром, так как это всегда ограничено от 0 до 1 без необходимости дальнейшего усечения. Если вы хотите включить концентрацию вероятности точно в ноль из-за не наблюдателей, то подумайте о построении в модели препятствий .
Но в тот момент, когда вы пытаетесь добавить каждую функцию, которую вы можете идентифицировать по вашим данным, и создать еще более изощренную модель, возможно, вам следует спросить себя, почему вы это делаете? Будет ли преимущество для более простой модели, например, проще работать с математически или иметь меньше параметров для оценки? Если вы обеспокоены тем, что из-за такого упрощения вам не удастся охватить все интересующие вас свойства, вполне возможно, что ни один из распространяемых дистрибутивов не делает то, что вам нужно. Однако мы не ограничены работой с именованными дистрибутивами, математические свойства которых были объяснены ранее. Вместо этого рассмотрите возможность использования ваших данных для построения эмпирической функции распределения., Это отразит все поведение, которое присутствовало в ваших данных, но вы больше не можете дать ему имя, такое как «нормальный» или «гамма», а также не можете применять математические свойства, которые относятся только к определенному распределению. Например, правило «95% данных лежит в пределах 1,96 стандартного отклонения от среднего» относится к нормально распределенным данным и может не применяться к вашему распределению; хотя обратите внимание, что некоторые правила применяются ко всем распределениям, например , неравенство Чебышева гарантирует, по крайней мере,75% ваших данных должны находиться в пределах двух стандартных отклонений от среднего, независимо от перекоса. К сожалению, эмпирическое распределение также унаследует все те свойства вашего набора данных, которые возникают исключительно из-за ошибки выборки, а не только те, которыми обладает базовая совокупность, поэтому вы можете обнаружить, что гистограмма вашего эмпирического распределения имеет некоторые недостатки и недостатки, которые сама популяция не делает. , Возможно, вы захотите изучить сглаженные эмпирические функции распределения или, что еще лучше, увеличить размер выборки.
В итоге: хотя нормальное распределение имеет нулевой перекос, тот факт, что ваши данные искажены, не исключает нормальное распределение в качестве полезной модели, хотя и предполагает, что более подходящим может быть другое распределение. При выборе модели вы должны учитывать другие свойства данных, кроме перекоса, и учитывать также цели, для которых вы собираетесь использовать модель. Можно с уверенностью сказать, что ваша истинная популяция времени просмотра не совсем соответствует какому-то известному, именованному дистрибутиву, но это не означает, что такое распределение обречено быть бесполезным в качестве модели. Однако для некоторых целей вы можете предпочесть просто использовать сам эмпирический дистрибутив, а не пытаться подогнать к нему стандартный дистрибутив.