В чем разница между оценщиком и статистикой?


30

Я узнал, что статистика - это атрибут, который вы можете получить из выборок. Взяв множество выборок одинакового размера, рассчитав этот атрибут для всех из них и построив график в формате PDF, мы получим распределение соответствующего атрибута или распределение соответствующей статистики.

Я также слышал, что статистика делается для оценки, как эти два понятия отличаются?


2
Спасибо за все ответы ... Концепция теперь намного яснее для меня ..
гутто

Ответы:


17

Определение

Из Википедии:

Статистики [...] является одной мерой некоторого атрибута образца (например, его среднее арифметическое значение).

А также

[А] п оценки является правилом для вычисления оценки заданного количества [подстилающего распределения] на основе наблюдаемых данных.

Важным отличием является:

  • Статистики является функцией выборки.
  • Оценщик является функцией выборки , связанной с некоторым количеством распределения .

(Что означает «количество», см. Раздел ниже.)

Статистика не является оценщиком

Оценщик является статистика с чем - то добавляется. Чтобы превратить статистику в оценщик, вы просто указываете, какое целевое количество вы хотите оценить. Это сбивает с толку, потому что вы не добавляете ничего «реального» в статистику, а только некоторые намерения.

Чтобы увидеть, что разница важна, вы должны понимать, что вы не можете рассчитать свойства оценки (например, смещение , дисперсия и т. Д.) Для простой статистики. Чтобы рассчитать смещение , вы должны найти разницу между значением, которое дает вам ваша статистика, и истинным значением. Только оценщик имеет «истинное значение», которое позволяет вычислить смещение. Статистика - это просто функция данных, и она не является ни правильной, ни неправильной.

Различные оценки на основе одной и той же статистики

Вы можете указать разные целевые величины для одной и той же статистики, что приведет к различным оценкам. Каждый такой оценщик имеет свое собственное смещение, хотя все они (на основе) имеют одинаковое значение, одну и ту же статистику.

  • Вы можете использовать выборочное среднее в качестве оценки среднего распределения . Этот оценщик имеет нулевое смещение .
  • Вы также можете использовать выборочное среднее в качестве оценки дисперсии распределения . Эта оценка смещена для большинства распределений.

Поэтому говорить «образец означает беспристрастность» не имеет смысла. Среднее значение выборки является непредвзятым, когда вы используете его для оценки среднего значения распределения. Но в то же время он смещен при использовании его для оценки дисперсии распределения.

Количество распределений и количество образцов

Здесь количество относится к некоторому свойству распределения, которое обычно неизвестно и поэтому должно быть оценено. Это противоречит статистике , которая является свойством выборки, например, среднее значение распределения - это количество вашего распределения, а среднее значение выборки - статистика (количество вашей выборки).


1
В этих цитатах нет ничего плохого, но они заставляют меня задуматься над тем, что именно означает «количество». Например, цитаты, по-видимому, не исключают возможности того, что «количество» является другой статистикой, основанной на тех же данных, или, возможно, является другой статистикой, основанной на отдельном наборе аналогичных данных. (В последнем случае первая статистика может использоваться в качестве предиктора. В первом случае я не думаю, что есть имя для него, но это определенно не «оценщик».)
whuber

@whuber Смотрите редактировать. Изначально я хотел дать короткий ответ ... :(
ziggystar

Предположительно Выборочное среднее и выборочная медиана будет оценить лишь те же основные ценности , если распределение является один , где медиана = средний ...
Коротышка Джо Пит

Моя критика имеет меньше смысла в свете ваших правок. Я просто говорил, что во многих распределениях медиана! = Среднее значение, поэтому медиана выборки и среднее значение выборки в таких случаях не сходятся к одному и тому же значению (т. Е. Не оценивают одно и то же).
Stumpy Джо Пит

1
@ Stumpy Я думаю, у тебя есть небольшое заблуждение. Неважно, сходятся ли медиана и среднее значение к одному и тому же (или вообще к чему-либо). Чтобы прояснить это, позвольте мне быть немного нелепым: я могу, если захочу, использовать выборочную дисперсию для оценки среднего значения. Там нет абсолютно никаких теоретических ограничений - и не может быть - что говорит, что я не могу этого сделать. Моя процедура удовлетворяет всем частям определения: выборочная дисперсия действительно является статистикой, а среднее действительно является свойством базового распределения. Для определений не имеет значения, что это (часто) ужасная процедура.
whuber

15

Эта ветка немного старая, но похоже, что Википедия, возможно, изменила свое определение, и если она точна, она объясняет это более четко для меня:

«Оценщик» или «точечная оценка» - это статистика (то есть функция данных), которая используется для вывода значения неизвестного параметра в статистической модели.

Таким образом, статистика относится к самим данным и расчету с этими данными. В то время как оценщик относится к параметру в модели.

Если я правильно понимаю, тогда среднее значение является статистическим, а также может быть оценкой. Среднее значение выборки представляет собой статистику (сумма выборки, деленная на размер выборки). Среднее значение выборки также является оценкой среднего значения популяции, при условии, что оно нормально распределено.

Я бы спросил @whuber и других, кто действительно знает этот материал, если (новая?) Цитата из Википедии точна.


6
+1 Я думаю, что вы в принципе правы. Возможно, вам будет интересно узнать, что целью оценки необязательно должен быть конкретный «параметр» модели: это может быть любое свойство модели, например функция ее параметров. Например, не является параметром для модели Normal ( μ , σ 2 ) , но его можно оценить. μ2(μ,σ2)
whuber

5

Поскольку другие ответы о том, что они одинаковые, не дают авторитетных ссылок, позвольте мне привести две цитаты из справочника Статистического вывода Каселлы и Бергера:

Определение 5.2.1. Пусть - случайная выборка размера n из совокупности, и пусть T ( x 1 , , x n ) - вещественная или векторная функция, область которой включает пространство выборок. из ( X 1 , ... , X n ) . Тогда случайная величина или случайный вектор Y = T ( X 1 , , X n )X1,,XnnT(x1,,xn)(X1,,Xn)Y=T(X1,,Xn) называетсястатистики . Распределение вероятностей статистики называется распределение выборки Y .YY

а также

Определение 7.1.1 точка оценки является любая функция образца; то есть любая статистика является точечной оценкой.W(X1,,Xn)

Я не говорю здесь, что это определенный ответ на вопрос, так как я, кажется, согласен с двумя наиболее одобренными ответами, которые предполагают, что есть различие, просто давая ссылку, которая говорит противоположное, чтобы подчеркнуть, что это не четкий случай.


4

«6» является примером оценки. Скажите, что ваш вопрос был: "Каков наклон наилучшей линейной функции, отображающей x на y?" Ваш ответ может быть "6". Или это может быть . Оба являются оценщиками. Какой из них лучше, решать вам. (XX)1XY

Действительно хороший ТА однажды объяснил мне концепцию оценки таким образом.

По сути, оценщик - это то, что вы применяете к данным, чтобы получить количество, значение которого вы не знаете. Вы знаете значение статистики - это функция данных, в которой нет «лучших» или «оптимальных» данных. Не существует «лучшего» средства. Это просто среднее.

Скажем, у вас есть набор данных о количестве коз, принадлежащих человеку, и о счастье каждого человека. Вы интересуетесь тем, как меняется счастье людей в зависимости от количества коз, которыми они владеют. Оценщик может помочь вам оценить эти отношения на основе ваших данных. Статистика - это просто функция данных, которые у вас есть. Например, дисперсия владения козой может равняться 7. Те формулы для расчета дисперсии будут одинаковыми между козами и тостерами, или вы заинтересованы в счастье или склонности к раку. В этом смысле все разумные оценки являются статистикой.


3

Интересный вопрос. Оценки и статистика не должны быть разными вещами. Это разные понятия.

Статистика - это функция (в широком смысле), в которую вводятся (статистические) данные. В результате вы получаете результат, обычно число, из этой статистики. В более абстрактном термине статистика может давать более одного числа. Статистика зависит от данных, но процедура является детерминированной. Таким образом, статистика может быть такой: «Суммируйте все числа и разделите на счет» или, в более широком смысле, «возьмите данные ВВП и подготовьте отчет по ним».
В статистическом смысле мы, конечно, говорим о математической функции как статистике.

Значение этого заключается в том, что если вы знаете свойства введенных вами данных (например, это случайная переменная), то вы можете вычислить свойства вашей статистики, фактически не вводя эмпирические данные.

Оценщики являются оценщиками из-за вашего намерения: оценить недвижимость. Оказывается, некоторые статистические данные являются хорошими оценщиками.
Например, если вы извлекаете точки данных из пула переменных iid, то среднее арифметическое - статистика, основанная на данных, которые вы извлекаете, вероятно, будет хорошей оценкой ожидаемого значения этого распределения. Но опять же, любая вещь, которая производит оценку, является оценщиком.

На практике используемые вами оценки будут статистикой, но есть статистика, которая не является оценщиками. Например, статистика тестов - хотя можно поспорить о семантике этого утверждения и, что еще хуже, статистика тестов может не только быть, но и включать оценки. Хотя концептуально это не должно иметь место.

И, конечно, у вас могут быть оценки, которые не являются статистикой, хотя, вероятно, они не очень хороши в оценке.


1
Не могли бы вы подробнее остановиться на этом последнем предложении? Например, рассмотрим образец iid размером . Я буду оценивать медиану населения с помощью броска монеты, чтобы выбрать среди n- го и n + 1- го наибольших значений в выборке. Согласно вашему определению , это не статистика, потому что это не является «детерминированной» процедура (хотя это статистика в соответствии с общим более общим определением). Это также достаточно хорошая оценка. Поэтому мне интересно, какой именно объект вы имеете в виду, когда ссылаетесь на «оценщика», который не является «статистикой». 2nnn+1
whuber

Да, я бы сказал, что «выбор значения» является детерминированной статистикой, и все заранее связано с модификацией выборки, из которой вы выбрали. Опять же, поскольку «процедура», если хотите, - детерминистическая, я могу просто допустить стохастические элементы, подобные этому, в моем определении статистики ... Обратите внимание, что оценки, которые не являются статистикой, могут быть, по крайней мере, независимыми от каких-либо данных. Например, число «6» в ответе ниже. Обратите внимание, что я не сказал, что нестатистические оценки обязательно плохие.
IMA

1
Я думаю, что, возможно, вы проводите слишком много прекрасных различий, которые не нужны и, в конце концов, усложняют ваше изложение. Например, «1/2» является отличной оценкой параметра переменной Бернулли (это минимакс для квадратичной потери), поэтому было бы стыдно исключать это только потому, что он не зависит от данных. (Это было бы аналогично исключению квадратов в качестве примеров прямоугольников в евклидовой геометрии: вы могли бы сделать это, но это удвоило бы длину большинства утверждений, касающихся свойств прямоугольников.) Это также помогает не исключать рандомизированную статистику.
whuber

Я не думаю, что мы действительно говорим об одном и том же. Где я могу что-либо исключить? Если половина - это великая оценка, то это тот случай, когда она есть. Я просто не думаю, что большинство возможных оценок, не относящихся к статистике, довольно велики. Для переменной Бернулли «1/2» - это хорошо. Но несколько других оценщиков из класса «Реальное число» не очень хороши, вы не согласны? Что касается рандомизированной статистики, все еще основанной на данных - я не исключил этого, так как я все равно сказал бы, что вам потребуется детерминистическая процедура. Но я признаю, что должен добавить это выше.
IMA

2

Я думаю, что лучшее понимание о том, что образец помогает.

[Обновлено: выборка - очень широкое понятие, я говорил о «случайной выборке». Я не знаю, имеет ли смысл оценка или нет, когда выборка не случайна .]

из википедии :

Случайная выборка определяется как выборка, в которой каждый отдельный член населения имеет известный ненулевой шанс быть выбранным в качестве части выборки.

nnnnn

Мы заменим выборку в оценке на значение выборки. Мы получаем значение оценки, это конкретная мера. И эта конкретная мера является статистикой.

(Проверьте эту ссылку для определения оценки, последнее предложение показывает, почему мы всегда в замешательстве.)


1

Цель этого произведения:

Здесь я хочу предоставить вам сходства и различия между двумя тесно связанными понятиями, называемыми «статистикой» и «оценщиком». Однако я не хочу анализировать различия между параметром и статистикой, которые, как я полагаю, достаточно понятны для всех, кто борется с различиями между статистикой и оценщиком. Если это не так, вам нужно сначала изучить предыдущие посты, а затем начать изучать этот пост.

Отношения:

По сути, любая вещественная функция наблюдаемых случайных величин в выборке называется статистикой. Существуют некоторые статистические данные о том, что, если они хорошо спроектированы и имеют некоторые хорошие свойства (например, согласованность, ...), они могут использоваться для оценки параметров базового распределения населения. Поэтому статистика - это большой набор, а оценки - это подмножество в наборе статистики. Следовательно, каждая оценка является статистикой, но не каждая статистика является оценкой.

сходства:

Говоря о сходстве, как упоминалось ранее, оба являются функциями случайных величин. Кроме того, оба имеют распределения, называемые «выборочные распределения».

Отличия:

Говоря о различиях, они разные с точки зрения их целей и задач. Цели и задачи статистики могут заключаться в обобщении информации в выборке (с использованием достаточной статистики), а иногда в проведении проверки гипотез и т. Д. Напротив, основная цель и задача оценщика, как следует из его названия, состоит в оценке параметры изучаемой популяции. Важно отметить, что существует большое разнообразие оценок, каждый из которых имеет свою собственную вычислительную логику, такую ​​как MOMEs, MLE, оценки OLS и так далее. Другое различие между этими двумя понятиями связано с их желаемыми свойствами. В то время как одним из наиболее желательных свойств статистики является «достаточность», желаемыми свойствами оценщика являются такие вещи, как «согласованность», «непредвзятость», «точность» и т. Д.

Внимание:

Следовательно, вам необходимо соблюдать осторожность при использовании терминологии при работе со статистикой и оценщиками. Например, не имеет смысла говорить о предвзятости простой статистики, которая ни в коем случае не является оценщиком, потому что в таком контексте нет параметра, который позволял бы нам рассчитывать смещение, и Поговори об этом. Таким образом, вы должны быть осторожны с терминологией!

Суть:

Подводя итог, любая функция наблюдаемых случайных величин в выборке является статистикой. Если статистика имеет возможность оценить параметр совокупности, то мы называем ее оценщиком (представляющего интерес параметра). Однако, есть некоторые статистические данные, которые не предназначены для оценки параметров, поэтому эти статистические данные не являются оценщиками, и здесь мы называем их «простой статистикой».

То, что я предложил выше, это то, как я смотрю и думаю об этих двух понятиях, и я изо всех сил старался выразить это простыми словами. Я надеюсь, что это помогает!


0

Новый ответ на старый вопрос:

Определение 1. статистика является функцией , которая отображает каждый образец для вещественного числа.

Каждый оценщик является статистикой.

Но мы склонны называть только те статистические данные, которые используются для генерации оценок («догадок»), некоторым параметром оценщика.

Так, например, t-статистика и среднее значение выборки - ОБА статистика. Среднее значение выборки также является оценкой (потому что мы часто используем его для оценки истинного среднего значения популяции).

Напротив, мы редко / никогда не называем t-статистику оценщиком, потому что мы редко / никогда не используем ее для оценки какого-либо параметра.

PQ

Example_

θ

θ

Вот один из возможных способов. Мы бросаем кубик 3 раза.

s=(x1,x2,x3)x1x2x3

s1=(5,4,1)s2=(4,1,6)s3=(6,3,2)

PQPQs=(x1,x2,x3)

P(s)=x1ln(x2+x3),
Q(s)=x1+x2+x33.

P

Qθ

Pθ


1
Этот ответ направлен в хорошем направлении. «Определение 2», тем не менее, не представляется действительным определением из-за его округлости (оно определяет «оценщик» в терминах «оценки» без объяснения последнего). Для того, чтобы он был эффективным, вам необходимо объяснить, что такое «оценка параметра», достаточно подробно и ясно, чтобы люди могли сформулировать количественные измерения того, насколько хорошо работает оценщик.
whuber

θθ5

2
К сожалению, как я пытался предположить, что-то существенное, похоже, потеряно в упрощении, потому что ваше второе определение вообще не отличает оценку от какой-либо другой статистики.
whuber

@whuber: Это верно. Формально оценка - это просто статистика. Но мы склонны использовать слово «оценщик» для ссылки на статистику, если эта статистика используется для оценки какого-либо интересующего параметра. Я отредактировал свой ответ, чтобы прояснить этот момент.
Кенни ЖЖ

-3

При проверке гипотез :

Тест-статистика о проверке гипотез. Тест-статистика - это случайная величина, заданная / согласно нулевой гипотезе. Теперь некоторые могут назвать статистику значением / мерой тест-статистики для данной выборки.

С этими двумя вы можете получить значение p, которое является мерой, которая помогает отклонить или не отклонить нулевую гипотезу. В общем, статистика - это оценка того, насколько далеко / близко к вашей гипотезе.

Эта ссылка может быть полезной.


2
Похоже, вы обращаетесь к другому вопросу, связанному с проверкой гипотез, а не с оценкой. Ваше определение «статистики» гораздо более ограничено по объему, чем стандартные определения: статистика применяется ко всем формам принятия решений, а не только к очень ограниченным случаям проверки гипотез и нулевых гипотез. Кроме того, тесты гипотез не совпадают с оценками, и большинство статистических данных не используются в качестве оценок близости к некоторой гипотезе.
whuber

Я бы не сказал, что это другой вопрос. Это дает представление о том, что это в контексте проверки гипотезы, по крайней мере!
dfhgfh

2
Поскольку этот ответ сфокусирован на ограниченной и специализированной версии вопроса и использует ключевые термины «оценщик» и «статистика» нетрадиционными способами, не предупреждая читателя об этом факте, я беспокоюсь, что он может ввести в заблуждение или ввести в заблуждение людей.
whuber

Я думал, что проверка гипотез была далеко не ограниченной и специализированной областью статистики.
dfhgfh
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.