Расчет распределения от минимального, среднего и максимального


10

Предположим, у меня есть минимум, среднее значение и максимум некоторого набора данных, скажем, 10, 20 и 25. Есть ли способ:

  1. создать распределение из этих данных, и

  2. знать, какой процент населения, вероятно, лежит выше или ниже среднего

Редактировать:

Согласно предложению Глена, предположим, что у нас размер выборки 200.


(1) легко, потому что есть много решений. (2) лучше всего делать в контексте некоторых предположений о форме распределения, поскольку в противном случае все, что вы можете получить, - это математические границы.
whuber

3
До сих пор вас буквально воспринимали здесь как в комментариях и ответах, но необходимое предостережение (я думаю, молчаливое в замечаниях @ whuber) состоит в том, что существует так много дистрибутивов, совместимых с такой информацией, что вы не должны делать вывод, что у вас достаточно информации. сделать это вообще хорошо или надежно. В частности, если вы даже не знаете размер выборки, вы не сможете сделать даже много, чтобы подумать о неопределенности.
Ник Кокс

Когда вы спрашиваете о доле населения, которая "лежит выше или ниже среднего" ... вы спрашиваете относительно среднего значения выборки или среднего значения популяции? Мы говорим о непрерывных или дискретных переменных? Мы знаем размер выборки?
Glen_b

Ответы:


10

У меня есть минимум, среднее значение и максимум некоторого набора данных, скажем, 10, 20 и 25. Есть ли способ:

создать распределение из этих данных, и

Существует бесконечное количество возможных распределений, которые соответствовали бы этим количествам образцов.

знать, какой процент населения, вероятно, лежит выше или ниже среднего

При отсутствии каких-то вероятных необоснованных предположений, а не в целом - по крайней мере, не слишком понимая, что это будет иметь смысл. Результаты будут в значительной степени зависеть от ваших предположений (в самих значениях не так много информации, хотя некоторые конкретные меры действительно дают некоторую полезную информацию - см. Ниже).

Нетрудно придумать ситуации, когда ответы на вопрос о пропорции могут быть очень разными. Когда есть очень разные возможные ответы в соответствии с информацией, как бы вы узнали, в какой ситуации вы находитесь?

Более подробная информация может дать полезные подсказки, но в нынешнем виде (даже без размера выборки, хотя, по-видимому, он равен как минимум 2 или 3, если среднее значение не находится на полпути между конечными точками *), вы не обязательно получите много значения в этом вопросе. , Вы можете попытаться получить границы, но во многих случаях они не будут сильно сужать вещи.

* на самом деле, если среднее значение близко к одной конечной точке, вы можете получить некоторую нижнюю границу размера выборки. Например, если вместо 10,20,25 для вашего минимального / среднего / максимального значения у вас будет 10 24 25, тогда должно быть не менее 15, и это также предполагает, что большая часть населения была старше 24; это что-то. Но если бы, скажем, 10,18,25, было бы гораздо сложнее получить полезное представление о том, каким может быть размер выборки, не говоря уже о пропорции ниже среднего.n


2
@DJohnson Я не думаю, что это гиперболично - это в буквальном смысле слова верно (хотя наша способность фактически перечислять их может потерпеть неудачу после нескольких тысяч, а наша способность продолжать перечислять их может потерпеть неудачу после нескольких десятков, это не значит, что нет других наборов предположений, с которыми мы могли бы оперировать). В моих формулировках не было никакого намерения снисходительности - он намеренно выбран, чтобы на самом деле указать истинную широту возможных наборов предположений. Что бы вы хотели, чтобы я написал?
Glen_b

3
1. В чем причина ограничения возможностей максимум двумя параметрами? Что, если данные были взяты из трех параметров, например, нормальных? Во многих случаях мы не можем оценить все параметры из данных, но это часть проблемы, которую я пытаюсь мотивировать (это относится к обсуждению предположений. 2. Джонсон и Коцз - это подмножество распределений, которые люди назвали / работал с, а не отдаленно ограничиваясь тем, какие предположения возможны . Я изобрел множество дистрибутивов, которых нет в Johnson и Kotz, и ... ctd
Glen_b -Reinstate Monica

4
ctd ... Я уверен, что они не все здесь исключены. Даже без неопределенных параметров существует бесконечность возможных файлов cdf, бесконечное подмножество которых не будет исключено указанной информацией.
Glen_b

1
@Djohnson Какими бы ни были разногласия, я ценю ваши полезные комментарии. Я подумаю, стоит ли хотя бы более четко указать, что я на самом деле говорю (мое действительное утверждение способно доказать, где бы оно ни было необходимо, но, возможно, я могу хотя бы четко заявить об этом), и следует ли это сформулировать по-другому.
Glen_b

4
@DJohnson Возьмите два разных распределения, удовлетворяющих условиям: любая смесь из двух будет по-прежнему удовлетворять указанным условиям. Это буквально бесконечность: не перечисляемый.
Элвис

8

Как уже отмечал Glen_b , возможностей бесконечно много. Посмотрите на следующие графики, они показывают восемь различных распределений, которые имеют одинаковые минимальное, максимальное и среднее значение.

Восемь разных дистрибутивов

Обратите внимание, что они очень отличаются друг от друга. Первый - равномерный, четвертый - бимодальная смесь треугольных распределений, седьмой имеет массу вероятности, сосредоточенную вокруг центра, но все же min и max возможны с очень малой вероятностью, восемь дискретно и имеет только два значения в min и в max и т. Д. ,

Поскольку все они соответствуют вашим критериям, вы можете использовать любой из них для моделирования. Однако ваш субъективный выбор будет иметь очень глубокий результат в результате моделирования. Я хочу сказать, что если min, max и mean - это единственное , что вы знаете о распределении, то у вас недостаточно информации для проведения моделирования, если вы хотите, чтобы оно действительно имитировало реальное (неизвестное) распределение.

Таким образом , вы должны спросить себя , что же вы знаете о распределении? Это дискретно или непрерывно? Симметричный или перекос? Унимодальный или бимодальный? Есть много вещей, чтобы рассмотреть. Если он непрерывный, неоднородный и унимодальный, и вы знаете только минимальное, максимальное и среднее значение, то одним из возможных вариантов является треугольное распределение - очень маловероятно, что что-либо в реальной жизни имеет такое распределение, но по крайней мере вы используете что-то простое и не навязывать слишком много предположений о его форме.


Так что, если бы я предполагал треугольное распределение, я мог бы также рассчитать режим с моей текущей информацией. Это поможет?
user132053 23.09.16

1
@ user132053 вам нужно только мин, макс и среднее. Формула для среднего треугольного распределения является (a + b + c) / 3, вы можете решить ее для режима, используя простую арифметику.
Тим

4

Основанное на диапазоне правило для расчета стандартного отклонения широко цитируется в статистической литературе (вот одна ссылка ... http://statistics.about.com/od/Descriptive-Statistics/a/Range-Rule-For-Standard -Deviation.htm ). В основном это (макс-мин) / 4. Известно, что это очень грубая оценка.

Учитывая эту информацию и готовность принимать нормально распределенные данные, нормальные отклонения могут быть сгенерированы из двух чисел: среднего значения и отклонения стандартного отклонения на основе диапазона. Тем не менее, любое одно- или двухпараметрическое распределение может быть сгенерировано из этих двух фрагментов информации, если это распределение было связано с первым или вторым моментом.

Грубый коэффициент вариации также можно получить, взяв отношение SD / Среднее. Это обеспечило бы прокси для безразличной изменчивости в данных.

Ошибка более правильно относится к распределению выборки населения и требует оценки размера выборки n для оценки. Ваше описание не предоставляет эту деталь.


3
Некоторые вещи, на которые стоит обратить внимание: (1) Среднее потенциально дает больше информации, которая должна переопределять правило (max-min) / 4. (2) Поскольку даны три части информации, использование только двухпараметрического семейства оставляет степень гибкости в целом.
whuber

@whuber Вы сделали два намекающих комментария на эту тему. Что было бы здорово, если бы вы разработали их и уточнили ответ.
Майк Хантер,
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.