Если мы хотим наглядно увидеть распределение непрерывных данных, какую из гистограммы и pdf следует использовать?
Каковы различия, а не по формуле, между гистограммой и PDF?
Если мы хотим наглядно увидеть распределение непрерывных данных, какую из гистограммы и pdf следует использовать?
Каковы различия, а не по формуле, между гистограммой и PDF?
Ответы:
Чтобы уточнить точку Диркс:
Скажите, что ваши данные являются образцом нормального распределения. Вы могли бы построить следующий сюжет:
Красная линия - это эмпирическая оценка плотности, синяя линия - теоретическая pdf основного нормального распределения. Обратите внимание, что гистограмма здесь выражена в плотностях, а не в частотах. Это сделано для построения графиков, в общем случае частоты используются в гистограммах.
Итак, чтобы ответить на ваш вопрос: вы используете эмпирическое распределение (т. Е. Гистограмму), если вы хотите описать свой образец, и PDF, если вы хотите описать предполагаемое основное распределение.
Сюжет генерируется следующим кодом в R:
x <- rnorm(100)
y <- seq(-4,4,length.out=200)
hist(x,freq=F,ylim=c(0,0.5))
lines(density(x),col="red",lwd=2)
lines(y,dnorm(y),col="blue",lwd=2)
Гистограмма - это предварительная компьютерная оценка плотности. Оценка плотности является альтернативой.
В наши дни мы используем оба, и есть богатая литература о том, какие значения по умолчанию следует использовать.
PDF, с другой стороны, является выражением закрытой формы для данного распределения. Это отличается от описания вашего набора данных с предполагаемой плотностью или гистограммой.
Здесь нет жесткого и быстрого правила. Если вы знаете плотность своего населения, тогда PDF лучше. С другой стороны, часто мы имеем дело с выборками, и гистограмма может передавать некоторую информацию, которую покрывает предполагаемая плотность. Например, Эндрю Гельман делает следующее замечание:
Ключевое преимущество гистограммы состоит в том, что в качестве графика необработанных данных она содержит семена собственной оценки ошибок. Или, другими словами, неровность слегка недогладленной гистограммы оказывает полезную услугу, визуально показывая изменчивость выборки. Вот почему, если вы посмотрите на гистограммы в моих книгах и опубликованных статьях, я почти всегда использую множество бинов. Мне также почти никогда не нравятся оценки плотности ядра, которые люди иногда используют для отображения одномерных распределений. Я лучше посмотрю гистограмму и узнаю, где находятся данные.
Гистограмма относительной частоты ( дискретная )
Гистограмма плотности ( дискретная )
Функция плотности вероятности PDF ( непрерывно )
Эти ссылки были полезны :) http://stattrek.com/statistics/dictionary.aspx?definition=Probability_density_function
Continuous_probability_distribution с сайта выше
http://www.geog.ucsb.edu/~joel/g210_w07/lecture_notes/lect04/oh07_04_1.html