Мы измерили две переменные, и диаграмма рассеяния, кажется, предлагает несколько «линейных» моделей. Есть ли способ попытаться отогнать эти модели? Выявление других независимых переменных оказалось трудным.
Обе переменные сильно смещены влево (в сторону небольших чисел), это ожидаемое распределение в нашей области. Интенсивность точки представляет собой количество точек данных (на масштаб) при этом < х , у > .
В качестве альтернативы, есть ли способ сгруппировать точки?
В нашей области утверждается, что эти две переменные линейно коррелируют. Мы пытаемся понять / объяснить, почему это не так в наших данных.
(обратите внимание, у нас есть 17 миллионов точек данных)
обновление: спасибо за все ответы, вот некоторые запрошенные разъяснения:
- Обе переменные являются только целыми числами, что объясняет некоторые шаблоны в диаграмме рассеяния журнала.
- К счастью, по определению минимальное значение обеих переменных равно 1.
- 7M точек на («объяснено» левой асимметрией данных)
Вот запрошенные участки:
график рассеяния:
(пробелы вызваны целочисленными значениями)
log-log полярный:
Гистограмма соотношения: