В чем разница между популяцией и выборкой? Какие общие переменные и статистика используются для каждой и как они связаны друг с другом?
В чем разница между популяцией и выборкой? Какие общие переменные и статистика используются для каждой и как они связаны друг с другом?
Ответы:
Население - это совокупность исследуемых субъектов. Например, средний рост мужчин. Это гипотетическое население, потому что оно включает в себя всех людей, которые жили, живут и будут жить в будущем. Мне нравится этот пример, потому что он говорит о том, что мы, как аналитики, выбираем население, которое хотим изучать. Как правило, невозможно обследовать / измерить всю популяцию, потому что не все участники являются наблюдаемыми (например, мужчины, которые будут существовать в будущем). Если возможно перечислить все население, это часто обходится дорого и занимает много времени. В приведенном выше примере у нас есть популяция "мужчины" и параметр интереса, их рост.
Вместо этого мы могли бы взять подмножество этой популяции, называемое выборкой, и использовать эту выборку, чтобы сделать выводы об исследуемой популяции, учитывая некоторые условия. Таким образом, мы могли бы измерить средний рост мужчин в выборке населения, которую мы называем статистикой, и использовать ее, чтобы сделать выводы о параметре, представляющем интерес для населения. Это умозаключение, потому что будет определенная неопределенность и неточность, связанные с тем, чтобы делать выводы о населении на основе выборки. Это должно быть очевидно - у нас в выборке меньше членов, чем у нас, поэтому мы потеряли некоторую информацию.
Существует много способов выбора образца, и его изучение называется теорией выборки. Обычно используемый метод называется простой случайной выборкой (SRS). В SRS каждый член населения имеет равную вероятность быть включенным в выборку, отсюда и термин «случайный». Существует много других методов отбора проб, например, стратифицированная выборка, кластерная выборка и т. Д., Которые имеют свои преимущества и недостатки.
Важно помнить, что выборка, которую мы берем из совокупности, является только одной из большого числа потенциальных выборок. Если десять исследователей изучают одну и ту же популяцию, выбирая свои собственные образцы, они могут получить разные ответы. Возвращаясь к нашему более раннему примеру, каждый из десяти исследователей может предложить различную среднюю высоту мужчин, т.е. рассматриваемая статистика (средняя высота) варьируется от выборки к выборке - у нее есть распределение, называемое распределением выборки. Мы можем использовать это распределение, чтобы понять неопределенность в нашей оценке параметра населения.
Распределение выборки среднего значения выборки, как известно, является нормальным распределением со стандартным отклонением, равным стандартному отклонению выборки, деленному на размер выборки. Поскольку это может быть легко спутать со стандартным отклонением образца его более принято называть стандартное отклонение распределения выборки стандартной ошибкой .
Население - это совокупность значений или отдельных лиц, которые вас интересуют. Выборка представляет собой подмножество совокупности и представляет собой набор значений, которые вы фактически используете в своей оценке.
Так, например, если вы хотите узнать средний рост жителей Китая, то это ваше население, т. Е. Население Китая. Дело в том, что это довольно большое число, и вы не сможете получить данные для всех там. Итак, вы рисуете образец, то есть вы получаете некоторые наблюдения или рост некоторых людей в Китае (подмножество населения, выборка) и делаете свой вывод на основе этого.
Население - это все в группе обучения. Например, если вы изучаете цену акций Apple, это исторические, текущие и даже все будущие цены акций. Или, если вы управляете фабрикой яиц, это все яйца, изготовленные фабрикой.
Вам не всегда нужно делать выборки и проводить статистические тесты. Если ваше население - ваша ближайшая живущая семья, вам не нужно выбирать, так как население небольшое.
Выборка популярна по ряду причин:
Когда мы думаем о термине «население», мы обычно думаем о людях в нашем городе, регионе, штате или стране и их соответствующих характеристиках, таких как пол, возраст, семейное положение, этническая принадлежность, религия и так далее. В статистике термин «население» приобретает несколько иное значение. «Население» в статистике включает всех членов определенной группы, которую мы изучаем или собираем информацию для принятия решений на основе данных.
Часть населения называется выборкой. Это доля населения, его часть, часть и все его характеристики. Выборка - это научно нарисованная группа, которая на самом деле обладает теми же характеристиками, что и популяция, если она выбрана случайным образом (вам может быть трудно поверить, но это правда!)
Произвольно выбранные образцы должны иметь две характеристики:
* Каждый человек имеет равные возможности для отбора по вашему образцу; а также,
* Выбор одного человека не зависит от выбора другого человека.
Что хорошего в случайных выборках, так это то, что вы можете обобщить интересующую вас группу населения. Таким образом, если вы выберете 500 домохозяйств в своем сообществе, вы можете обобщить данные до 50000 домохозяйств, которые там живут. Если вы сопоставите некоторые демографические характеристики 500 с 50000, вы увидите, что они удивительно похожи.
Население включает в себя все элементы из набора данных. Выборка состоит из одного или нескольких наблюдений от населения. BOA, A. (2012, 17)