Как нормализовать данные неизвестного распределения


12

Я пытаюсь найти наиболее подходящее характеристическое распределение данных повторных измерений определенного типа.

По сути, в моей области геологии мы часто используем радиометрическое датирование минералов из образцов (кусков породы), чтобы выяснить, как давно произошло событие (камень охлажден ниже пороговой температуры). Как правило, несколько (3-10) измерений будут сделаны из каждого образца. Затем берется среднее и стандартное отклонение . Это геология, поэтому возраст охлаждения образцов может варьироваться от до лет, в зависимости от ситуации.μσ105109

Тем не менее, у меня есть основания полагать, что измерения не являются гауссовскими: «выбросы», объявленные произвольно, или с помощью некоторого критерия, такого как критерий Пирса [Ross, 2003] или Q-критерий Диксона [Dean and Dixon, 1951] , довольно общий (скажем, 1 из 30), и они почти всегда старше, что указывает на то, что эти измерения характерно искажены вправо. Есть хорошо понятные причины, связанные с минералогическими примесями.

Средний и средний возраст выборки.  Красная линия обозначает среднее значение = медиана.  Обратите внимание на старые средства, вызванные искаженными измерениями

Поэтому, если мне удастся найти лучшее распределение, включающее жирные хвосты и перекос, я думаю, что мы сможем построить более значимые параметры местоположения и масштаба, и нам не придется так быстро распределять выбросы. Т.е. если можно показать, что эти типы измерений являются логнормальными, логарифмическими или какими-то еще, то можно использовать более подходящие меры максимальной вероятности, чем и , которые не являются надежными и могут быть смещенными в случае систематически искаженных данных.μσ

Мне интересно, что лучший способ сделать это. На данный момент у меня есть база данных с примерно 600 выборками и 2-10 (или около того) повторяющихся измерений на образец. Я попытался нормализовать выборки, разделив каждый из них на среднее значение или медиану, а затем просматривая гистограммы нормализованных данных. Это дает разумные результаты и, по-видимому, указывает на то, что данные являются типично логарифмическими:

введите описание изображения здесь

Тем не менее, я не уверен, является ли это подходящим способом для этого, или если есть предостережения, о которых я не знаю, которые могут исказить мои результаты, чтобы они выглядели так. Кто-нибудь имеет опыт работы с подобными вещами и знает лучшие практики?


4
Так как «нормализовать» используется для обозначения нескольких разных вещей в подобных контекстах, что именно вы подразумеваете под «нормализовать»? Какую информацию вы пытаетесь получить из данных?
Glen_b

1
@Glen_b: Под «нормализацией» я подразумеваю просто масштабирование по медиане (или среднему значению) всех измеренных возрастов выборки по медиане (или среднему значению, или как угодно). Существуют экспериментальные доказательства того, что дисперсия в образцах линейно возрастает с возрастом. Что я хочу получить из этих данных, так это посмотреть, лучше ли этот тип измерения характеризуется нормальным, или логарифмически нормальным, или бета, или любым другим распределением, чтобы можно было получить наиболее точное местоположение и масштаб, или L1 против Регрессия L2 оправдана и т. Д. В этом посте я спрашиваю, как я могу взять данные, которые я описал, и исследовать это.
cossatot

1
У меня нет опыта в этой области, но ваши графики и мысли, которые вы вложили в это, выглядят хорошо. Возможно, вы уже видели это, но статья в Википедии о Log-Laplace ссылается на хорошую статью, которая не содержит прямого ответа на ваш вопрос, но может иметь некоторые интересные идеи: wolfweb.unr.edu/homepage/tkozubow/0_logs.pdf
Уэйн

Я не уверен, что полностью понимаю, но, возможно, может помочь начальная загрузка? Если вы восстановите дисперсию и т. Д. Вашего дистрибутива, используя методы начальной загрузки, вы можете использовать восстановленную информацию для нормализации ваших данных. en.wikipedia.org/wiki/Bootstrapping_(statistics)
123

Ответы:


1

Рассматривали ли вы получение среднего (3-10) измерений для каждого образца? Можете ли вы тогда работать с полученным распределением - которое будет аппроксимировать t-распределение, которое будет аппроксимировать нормальное распределение для больших n?


1

Я не думаю, что вы используете нормализацию, чтобы означать то, что она обычно означает, например, что-то вроде нормализации среднего и / или дисперсии, и / или отбеливания.

Я думаю, что вы пытаетесь найти нелинейную репараметризацию и / или функции, которые позволяют вам использовать линейные модели в ваших данных.

Это нетривиально и не имеет простого ответа. Вот почему ученым за данные платят много денег ;-)

Одним из относительно простых способов создания нелинейных объектов является использование нейронной сети с прямой связью, в которой количество слоев и количество нейронов на слой контролируют способность сети генерировать объекты. Более высокая емкость => больше нелинейности, больше переоснащение. Более низкая емкость => больше линейности, более высокое смещение, меньшая дисперсия.

Другой метод, который дает вам немного больше контроля - это использовать сплайны.

Наконец, вы могли бы создавать такие функции вручную, что, я думаю, и есть то, что вы пытаетесь сделать, но тогда нет простого ответа «черного ящика»: вам нужно будет тщательно анализировать данные, искать шаблоны и так далее. ,


Нормализация имеет несколько значений в математике и естественных науках; заявление о том, что единственное, что лично знакомо для меня, является стандартным, - это то, что большинство людей испытывает соблазн, но это не сработает с другими. Более серьезно, это начинается по теме, но затем отклоняется. Где указание на интерес к нелинейным моделям? Нейронные сети? Сплайны? Какое это имеет отношение к идентификации дистрибутива или семейства дистрибутивов, в чем вопрос? Я не вижу связи, поэтому рекомендую сократить то, что не относится к делу, или расширить его, чтобы показать, насколько оно актуально.
Ник Кокс

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.