Пошаговая оценка позы камеры для визуального отслеживания и плоских маркеров

Я некоторое время работал над темой оценки позы камеры для приложений дополненной реальности и визуального слежения, и я думаю, что хотя есть много подробной информации о задаче, все еще остается много недоразумений и недоразумений.

Я думаю, что следующие вопросы заслуживают подробного пошагового ответа.

Каковы особенности камеры?
Что такое камера?
Как вычислить гомографию на плоском маркере?
Если у меня есть гомография, как я могу получить позу камеры?

— Jav_Rock
источник

Я не уверен в том, что вы делаете перенормировку: 1. H - гомография, найденная по данным с использованием некоторой процедуры (скажем, SVD). 2. inv (K) * H = A - это то, с чем вы здесь работаете. Затем вы делаете q1 = a1 / norm (a1) и q2 = a2 / norm (a2) как ортонормированные столбцы матрицы вращения, и делаете q3 = q1xq2 ... Затем вы берете t / (что-то), чтобы получить вектор перевода. Как получается, что вы можете просто разделить q1 и q2, возможно, на разные вещи, и как вы выбираете, на что делить t? Или идея в том, что процедура SVD и умножение на inv (K) дают что-то близкое, но не совсем ортогональное / ортонормированное вращение, поэтому th

— user2600616

Но как я могу получить 3D точку (X, Y, 1)?

— waschbaer

Важно понимать, что единственной проблемой здесь является получение внешних параметров. Внутренние характеристики камеры могут быть измерены в автономном режиме, и для этого есть множество приложений.

Каковы особенности камеры?

Камеры внутренние параметры, как правило , называется матрицей калибровки камеры, $K$ . Мы можем написать

K = [\begin{matrix} α_{u} & s & u_{0} \\ 0 & α_{v} & v_{0} \\ 0 & 0 & 1 \end{matrix}]

$K = \begin{bmatrix}\alpha_u&s&u_0\\0&\alpha_v&v_0\\0&0&1\end{bmatrix}$

где

и являются масштабным коэффициентом внаправлениях координат и и пропорциональны фокусному расстоянию камеры: и . и - количество пикселей на единицу расстояния в направлениях и . $\alpha_u$ $\alpha_v$ $u$ $v$ $f$ $\alpha_u = k_u f$ $\alpha_v = k_v f$ $k_u$ $k_v$ $u$ $v$
называется главной точкой, обычно координатами центра изображения. $c=[u_0,v_0]^T$
- это перекос, только ненулевой, если и не перпендикулярны. $s$ $u$ $v$

Камера откалибрована, когда внутренние характеристики известны. Это можно сделать легко, поэтому это не является целью компьютерного зрения, а является тривиальным шагом в автономном режиме.

Некоторые ссылки:

ftp://svr-ftp.eng.cam.ac.uk/pub/reports/mendonca_self-calibration.pdf

Что такое камера?

Внешние параметры камеры или внешние параметры - матрица которая соответствует евклидову трансформации из мировой системы координат в систему координат камеры. представляет вращения и перевод. $[R|t]$ $3\times4$ $R$ $3\times3$ $t$

Приложения компьютерного зрения фокусируются на оценке этой матрицы.

[R | t] = [\begin{matrix} R_{11} & R_{12} & R_{13} & T_{x} \\ R_{21} & R_{22} & R_{23} & T_{y} \\ R_{31} & R_{32} & R_{33} & T_{z} \end{matrix}]

$[R|t] = \begin{bmatrix} R_{11}&R_{12}&R_{13}&T_x\\R_{21}&R_{22}&R_{23}&T_y\\R_{31}&R_{32}&R_{33}&T_z \end{bmatrix}$

Как вычислить гомографию на плоском маркере?

Гомография - это однородная матрица которая связывает трехмерную плоскость и проекцию изображения. Если у нас есть плоскость то гомография которая отображает точку на эту плоскость и соответствующую ей 2D точку под проекцией равна $3\times3$ $Z=0$ $H$ $M=(X,Y,0)^T$ $m$ $P=K[R|t]$

\tilde{m} = K [\begin{matrix} R^{1} & R^{2} & R^{3} & t \end{matrix}] [\begin{matrix} X \\ Y \\ 0 \\ 1 \end{matrix}]

$\tilde m = K \begin{bmatrix} R^1 & R^2 & R^3 & t \end{bmatrix} \begin{bmatrix} X \\ Y \\ 0 \\ 1 \end{bmatrix}$

= K [\begin{matrix} R^{1} & R^{2} & t \end{matrix}] [\begin{matrix} X \\ Y \\ 1 \end{matrix}]

$= K \begin{bmatrix}R^1&R^2&t\end{bmatrix} \begin{bmatrix} X \\ Y \\ 1 \end{bmatrix}$

H = K [\begin{matrix} R^{1} & R^{2} & t \end{matrix}]

$H = K \begin{bmatrix}R^1 & R^2 & t \end{bmatrix}$

Чтобы вычислить гомографию, нам нужны пары точек мира-камеры. Если у нас есть плоский маркер, мы можем обработать его изображение, чтобы извлечь объекты, а затем обнаружить эти объекты в сцене для получения совпадений.

Нам просто нужно 4 пары для вычисления гомографии с использованием прямого линейного преобразования.

Если у меня есть гомография, как я могу получить позу камеры?

Гомография и позы камеры содержат одну и ту же информацию, и ее легко переходить от одного к другому. Последний столбец обоих - это вектор перевода. Первый столбец и два гомографии также являются первым столбцом и двумя матрицы позы камеры. Это только левый столбец три из , и, поскольку он должен быть ортогональным, он может быть вычислен как перекрестный продукт столбцов один и два: $H$ $K[R|t]$ $H^1$ $H^2$ $R^1$ $R^2$ $R^3$ $[R|t]$

R^{3} = R^{1} \otimes R^{2}

$R^3 = R^1 \otimes R^2$

Из-за избыточности необходимо нормализовать деление , например, на элемент [3,4] матрицы. $[R|t]$

— Jav_Rock
источник

Я думаю, что вводить в заблуждение утверждение о том, что калибровка «проста и не является целью CV, вводит в заблуждение». В обычном случае нам также необходимо оценить параметры искажения. Вместо самокалибровки я бы порекомендовал плоскую калибровку (Чжан - новая гибкая методика калибровки камеры), поскольку она более гибкая, если можно выполнить отдельную процедуру калибровки. У вас также есть небольшая ошибка в «Если у меня есть гомография, как я могу получить позу камеры?» поскольку вы не учитываете калибровку (H_ {calib} = K ^ -1H).

— buq2

Поза камеры от омографии неверна. Есть несколько способов сделать это, некоторые из них весьма нетривиальны.

— mirror2image

Я не понимаю, почему это неправильно. Я вычисляю это так и работает. Почему вы говорите, что это неправильно?

— Jav_Rock

В последнем разделе вы написали, что H ^ 1 и R ^ 1 и равны, но в 3-м разделе вы утверждаете, что H = K [RT], что означает, что R ^ 1 на самом деле является K ^ -1H ^ 1. Но это не совсем верно, поскольку существует бесконечное число H, которые удовлетворят уравнениям и вызовут проблемы при решении R ^ 1, R ^ 2 и T (неизвестный масштаб). Ваш ответ не учитывает надежную внутреннюю калибровку и калибровку искажений, и некоторые уравнения неверны, по этой причине это не является хорошим ответом на вопрос.

— buq2

Да, я пропустил калибровочную матрицу на третьем шаге, поскольку я взял это из своего кода и умножил на K в другой функции кодов.

— Jav_Rock

Хотя объяснение двумерного случая очень хорошо, ответ, предложенный Jav_Rock, не обеспечивает правильного решения для поз камеры в трехмерном пространстве. Обратите внимание, что для этой проблемы существует несколько возможных решений.

Эта статья предоставляет закрытые формулы для разложения гомографии, но формулы несколько сложны.

OpenCV 3 уже реализует именно эту декомпозицию ( degposeHomographyMat ). Учитывая гомографию и правильно масштабированную встроенную матрицу, функция обеспечивает набор из четырех возможных поворотов и переносов.

Матрица встроенных функций в этом случае должна быть представлена в пиксельных единицах, это означает, что ваша основная точка обычно (imageWidth / 2, imageHeight / 2) и ваше фокусное расстояние обычно focalLengthInMM / sensorWidthInMM * imageHeight.

— Emiswelt
источник

Что такое правильно масштабированная матрица встроенных функций?

— Guig

Я обновил свой ответ. Пожалуйста, смотрите выше.

— Emiswelt

Эй @ Emiswelt, не фокусное расстояние focalLengthInMM / sensorWidthInMM * imageWidth? Почему вы выбираете высоту вместо этого?

— El Marce