논문

[CVPR] Perspective Fields for Single Image Camera Calibration 2023.05.16 1
[ICCV] CTRL-C: Camera Calibration TRansformer with Line-Classification 2023.05.11
[CVPR] Deep Single Image Camera Calibration With Radial Distortion 2023.04.24
읽어볼 논문 2023.04.20

[CVPR] Perspective Fields for Single Image Camera Calibration

rka12 2023. 5. 16. 20:10

2023. 5. 16. 20:10

드디어 프로젝트에 적용할 수 있는 논문을 찾았다!

야호

1. 기존 연구의 한계

기존 카메라 보정 연구들은 핀홀 카메라 모델을 가정하고 내부 및 외부 파라미터(roll, pitch, FoV 등)를 추정했다. 하지만 이미지가 크롭되거나 왜곡되면서 중심 주점(principal point)이 중앙에서 벗어나면 기존 방법들은 이를 고려하지 못해 원근 정보를 잘못 해석하고 큰 오차를 발생시켰다.
또한, 기존 연구들은 중심 주점이 항상 이미지 중앙에 위치한다고 가정했지만, 실제로는 이미지가 편집되면서 중심 주점이 이동할 수 있어 기존 방법들의 성능이 저하됐다.
단일 이미지 기반 방법들은 수평선과 소실점 정보를 활용하여 카메라를 보정하지만, 이미지가 크롭되거나 왜곡될 경우 정확도가 크게 떨어지는 한계가 있었다.

2. 기여

이 논문은 기존 카메라 보정 연구들이 가진 중심 주점 가정, 이미지 크롭 및 왜곡에 대한 취약성, 전역적 예측 방식의 한계 등을 해결하기 위해 Perspective Fields(원근 필드)라는 새로운 표현 방식을 제안했다. 기존 연구들이 전역적인 카메라 파라미터를 직접 예측하는 방식을 사용한 반면, 이 논문에서는 각 픽셀의 지역적인 원근 정보를 활용하여 더 정확하고 강건한 카메라 보정을 가능하게 했다.

Perspective Fields
- 기존의 전역적인 카메라 보정 방식과 달리, 각 픽셀마다 Up-vector(업 벡터)와 Latitude(위도 값)를 저장하여 이미지의 지역적인 원근 정보를 나타내는 방식을 도입했다.
- 이 표현은 카메라 모델과 독립적이며, 크롭·회전·왜곡 등의 이미지 편집에도 강건한 성능을 보인다.
PerspectiveNet
- 신경망 기반의 Perspective Fields 예측 모델로, 단일 RGB 이미지를 입력받아 각 픽셀의 Perspective Fields를 예측하도록 학습했다.
- 이 모델은 360° 파노라마 데이터에서 크롭된 이미지를 학습 데이터로 활용하여, 다양한 카메라 투영 모델에서 강건한 성능을 유지하도록 설계됐다.
ParamNet
- Perspective Fields를 입력으로 받아 카메라의 Roll, Pitch, Field of View(FoV), 중심 주점(principal point) 등을 복원하는 신경망을 학습했다.
- 기존 방법들은 단일 이미지를 입력받아 전역적인 카메라 파라미터를 직접 추정했지만, 이 논문에서는 지역적인 Perspective Fields를 먼저 예측한 후 이를 바탕으로 카메라 파라미터를 복원하는 방식을 사용했다.
Perspective Fields를 활용한 이미지 합성(Image Compositing) 및 AR 응용을 제시했다.
- Perspective Fields를 활용하여 배경과 객체 간의 원근 일치 여부를 평가하는 Perspective Field Discrepancy(PFD) 메트릭을 개발했다.
- 이 메트릭을 활용하여 객체 합성, 증강 현실(AR) 효과 적용, 3D 객체 삽입 등의 다양한 응용 가능성을 검증했다.

3. 방법론

Perspective Fields

Perspective Fields는 이미지의 각 픽셀마다 업 벡터(Up-vector)와 위도 값(Latitude)을 저장하는 표현 방식이다.

Up-vector(업 벡터): 해당 픽셀에서 3D 공간의 중력 방향이 이미지에 투영된 방향을 나타냄.
Latitude(위도 값): 해당 픽셀의 입사 광선과 수평면 간의 각도를 의미함.

이러한 표현을 사용하면 기존 카메라 모델 가정 없이도 이미지의 원근 정보를 저장할 수 있다.

PerspectiveNet

PerspectiveNet은 CNN 기반의 신경망 모델로, 단일 이미지에서 각 픽셀의 Perspective Fields를 예측하는 역할을 한다.

입력: RGB 이미지
출력: 각 픽셀에 대한 Up-vector와 Latitude 값
학습 데이터:
- 360° 파노라마에서 크롭한 다양한 카메라 시점의 이미지
- 여러 가지 카메라 모델(핀홀, 어안 렌즈 등)을 포함
- 크롭·왜곡·회전 등 다양한 데이터 증강 기법 적용

PerspectiveNet은 기존의 전역적인 카메라 파라미터 예측 방식과 달리, 각 픽셀의 원근 정보를 직접 예측하기 때문에 이미지 크롭이나 왜곡에도 강건한 성능을 보인다.

ParamNet

Perspective Fields를 활용하여 카메라의 전역적인 파라미터(Roll, Pitch, FoV, 중심 주점)를 복원하는 신경망이다.

입력: Perspective Fields (Up-vector + Latitude)
출력: 카메라 파라미터(Roll, Pitch, FoV, 중심 주점)
기존 방법과 차이점:
- 기존 방법들은 단일 이미지에서 직접 카메라 파라미터를 예측했지만, 이 논문에서는 Perspective Fields를 먼저 예측한 후 이를 기반으로 파라미터를 복원하는 방식을 사용했다.
- 이를 통해 크롭된 이미지에서도 중심 주점을 정확히 복원할 수 있도록 설계됐다.

4. Perspective Fields를 활용한 응용

이미지 합성(Image Compositing)에서 원근 정합성 평가
- Perspective Fields를 이용해 배경과 객체의 원근이 일치하는지 평가하는 Perspective Field Discrepancy(PFD) 메트릭을 제안했다.
- 기존의 수평선 기반 매칭 방식보다 인간의 원근 감각과 더 높은 상관관계를 가진다는 점을 사용자 실험으로 검증했다.
증강 현실(AR) 효과 적용
- Perspective Fields의 Up-vector를 활용하여, 이미지 내 중력 방향을 반영한 이펙트(예: 비 시뮬레이션, 천장에 매달린 물체) 생성이 가능하다.
3D 객체 삽입
- Perspective Fields를 이용해 배경과 3D 객체의 원근을 일치시켜 더욱 자연스러운 합성이 가능하다.
- 기존 방법보다 정확한 카메라 추정이 가능해져 3D 모델을 실제 사진에 자연스럽게 삽입하는 것이 가능하다.

4. 실험결과

Perspective Fields 기반 방법(Ours)이 기존 방법들보다 훨씬 정확한 Up-vector 및 Latitude 예측 성능을 보였다.
특히, 크롭된 이미지(uncentered principal point)에서도 기존 방법들과 비교했을 때 성능 저하가 거의 발생하지 않았다.
기존 방법들은 중심 주점이 이미지 중앙에 있다고 가정하여 크롭된 이미지에서 성능이 크게 저하되었지만, Ours는 지역적인 Perspective Fields를 활용하여 더 강건한 성능을 보였다.
Latitude(위도 값) 예측에서도 기존 방법 대비 최대 40% 이상의 향상된 정확도를 기록했다.

Perspective Fields 기반 방법(Ours)이 기존 방법들보다 더 정확한 원근 표현을 제공했다.
기존 방법들은 중심 주점(principal point)이 중앙에 있다고 가정하거나, 전역적인 카메라 파라미터만을 예측하기 때문에 크롭되거나 왜곡된 이미지에서 성능이 저하됐다.
반면, Perspective Fields는 각 픽셀마다 원근 정보를 직접 저장하고 예측하기 때문에, 복잡한 원근 구조를 가진 이미지에서도 더욱 자연스러운 보정이 가능했다.
특히, 건물, 자동차 같은 구조물이 포함된 이미지에서 Perspective Fields가 더 높은 정합성을 보였으며, Perceptual과 CTRL-C보다 강건한 성능을 유지했다.

5. 결론

Perspective Fields는 각 픽셀마다 Up-vector(업 벡터)와 Latitude(위도 값)를 저장하는 지역적 표현을 사용하여 더 정확하고 강건한 카메라 보정을 가능하게 했다. 이는 크롭된 이미지나 중심 주점이 이동한 이미지에서도 기존 방법보다 정확한 성능을 보였다.
Perspective Fields는 이미지 합성, 증강 현실(AR), 3D 객체 삽입 등 다양한 응용에도 활용될 수 있음을 보였다. Perspective Field Discrepancy(PFD) 메트릭을 개발하여 배경과 객체 간의 원근 정합성을 평가하는 방법을 제시했다
사용자 실험을 통해 기존의 수평선 기반 방법보다 더 인간의 원근 감각과 높은 상관관계를 가진다는 점을 검증했다.

'논문' 카테고리의 다른 글

[ICCV] CTRL-C: Camera Calibration TRansformer with Line-Classification (0)	2023.05.11
[CVPR] Deep Single Image Camera Calibration With Radial Distortion (0)	2023.04.24
읽어볼 논문 (0)	2023.04.20

[ICCV] CTRL-C: Camera Calibration TRansformer with Line-Classification

rka12 2023. 5. 11. 11:24

2023. 5. 11. 11:24

CTRL-C: Camera Calibration TRansformer with Line-Classification

1. 기존 연구의 한계

기존의 카메라 교정 방법들은 크게 두 가지 문제를 안고 있었다:

이미지와 기하학적 선분 정보를 별도로 처리:
대부분의 기존 방법들은 이미지 특징과 선분을 따로 처리하거나, 선분을 후처리를 통해 적용하는 방식이었다. 이런 접근은 네트워크가 이미지 내의 글로벌한 구조를 제대로 학습하지 못하게 한다.
CNN의 한계:
CNN 기반 접근은 장기적인 의존성을 학습하는 데 어려움을 겪는다. 이는 카메라 파라미터 추정에서 중요한 글로벌 관계를 제대로 반영하지 못하는 원인 중 하나였다.

2. 방법론

CTRL-C는 단일 이미지 카메라 교정을 위한 새로운 신경망 기반 방법론이다. 이 연구는 이미지 특성(semantic cues)과 선분 특성(geometric cues)을 통합하여 트랜스포머 아키텍처를 사용해 카메라 파라미터(수직 사라지는 점, 수평선, 시야 각도)를 추정한다.

CTRL-C 방법론의 핵심

트랜스포머 기반 네트워크:
기존의 CNN을 활용한 방법들과 달리, 트랜스포머 아키텍처는 이미지와 선분이라는 두 가지 유형의 입력을 동시에 처리할 수 있다. 트랜스포머는 이미지 내의 글로벌 의존성을 캡처하는 데 뛰어나, 장기적인 관계를 잘 학습한다.
선분 분류:
수직 수렴선과 수평 수렴선을 분류함으로써, 카메라 파라미터 추정의 정확도가 향상된다. 선분 분류는 이미지 내에서 기하학적 구조를 더 잘 이해하도록 돕고, 결과적으로 카메라 교정의 정확도를 높인다.

3. 기여

CTRL-C는 트랜스포머를 이용해 이미지 특성과 기하학적 선분 특성을 통합하여 처리함으로써 기존 연구의 한계를 극복했다.

주요 기여는 다음과 같다

트랜스포머 아키텍처 활용: 트랜스포머는 이미지와 선분의 특성을 통합적으로 학습할 수 있는 능력이 있다. 특히, self-attention 메커니즘을 통해 이미지 내의 장기적인 관계를 잘 캡처한다.
선분 분류를 보조 작업으로 도입하여, 수직 및 수평 수렴선을 정확히 분류하고 이를 통해 카메라 파라미터 추정의 정확도를 상당히 향상시켰다.
CTRL-C는 기존의 GPNet(83.12%)을 포함한 최신 방법들에 비해 월등한 성능을 보였으며, 특히 수평선 예측에서 큰 향상을 보였다.

4. 결과

Google Street View (GSV) 데이터셋

CTRL-C는 기존 방법들에 비해 카메라 파라미터 추정에서 더 높은 정확도를 기록했다. 특히 수평선 예측에서 AUC (곡선 아래 면적)가 87.29%로 기존 GPNet의 83.12%를 능가했다.

선분 분류

CTRL-C의 보조 작업인 선분 분류는 GSV와 SUN360 데이터셋 모두에서 매우 높은 정확도를 기록했다. 특히 수직 선분과 수평 선분의 분류 정확도가 각각 99.73%와 93.35%에 달했으며, 훈련 데이터셋과 테스트 데이터셋이 달라도 높은 성능을 유지했다.

5. 결론

CTRL-C는 단일 이미지 카메라 교정 문제에서 뛰어난 성능을 보였으며, 기존 방법들과 비교하여 카메라 파라미터 추정의 정확도를 크게 향상시켰다. 특히 트랜스포머 아키텍처와 선분 분류 보조 작업을 결합하여 이미지와 선분의 특성을 통합적으로 처리할 수 있게 되었다.

'논문' 카테고리의 다른 글

[CVPR] Perspective Fields for Single Image Camera Calibration (1)	2023.05.16
[CVPR] Deep Single Image Camera Calibration With Radial Distortion (0)	2023.04.24
읽어볼 논문 (0)	2023.04.20

[CVPR] Deep Single Image Camera Calibration With Radial Distortion

rka12 2023. 4. 24. 11:12

2023. 4. 24. 11:12

1. 기존 연구의 한계점 (연구의 동기)

기존의 카메라 보정 방법들은 일반적으로 여러 이미지를 사용하여 카메라의 내부 및 외부 파라미터를 추정한다.

- 하지만 이러한 방법들은 통제된 환경에서 촬영된 이미지나 여러 이미지를 필요로 하여 실제 환경에서는 적용하기 어려운 문제점이 있다.

- 특히, 크라우드 소싱된 이미지나 비정형 환경에서 촬영된 이미지에서는 효과적으로 작동하지 않는다.

- 또한 기존의 기하학적 방법은 직선과 소실점을 이용한 추정에 의존하며, 정확한 정보가 부족한 이미지에서는 잘 동작하지 않는다.

이러한 문제들을 해결하기 위해, 단일 이미지만을 사용하여 카메라 파라미터를 추정할 수 있는 방법이 필요하다.

2. 기여

이 논문은 단일 이미지에서 카메라의 외부 파라미터(기울기, 롤)와 내부 파라미터(초점 거리, 방사 왜곡)까지 동시에 추정할 수 있는 새로운 방법을 제시하였다. 주요 기여는 다음과 같다:

방사 왜곡에 대한 새로운 파라미터화 방법을 제시하여, 기존의 왜곡 파라미터를 직접 예측하는 대신 더 학습에 적합한 형식으로 변환한다.
기존의 다중 손실 항목들을 균형 있게 처리할 수 있는 새로운 손실 함수를 도입하여 여러 파라미터를 동시에 예측하는 과정에서 발생하는 문제를 해결한다.
제안된 방법은 카메라의 기울기, 롤, 초점 거리 및 방사 왜곡 파라미터를 단일 이미지로부터 동시에 추정할 수 있는 최초의 방법으로, 기존의 기하학적 방법들과 비교하여 뛰어난 성능을 보인다.

3. 방법론

이 논문에서 제시된 방법론은 카메라 파라미터를 예측하는 합성곱 신경망(CNN) 모델을 사용한다. 주요 방법론은 다음과 같다:

3.1 파라미터화

카메라 파라미터를 예측하기 위해 새로운 프록시 변수를 제시한다. 이 변수들은 이미지에서 쉽게 관찰할 수 있고, 서로 독립적이다. 주요 파라미터화는 다음과 같다:

기울기 (Tilt): 기울기 각도는 이미지에서 수평선과 이미지 중심 간의 거리로 추정한다.
롤 (Roll): 롤 각도는 이미지 내에서 수평선의 기울기를 통해 직접 추정할 수 있다.
초점 거리 (Focal Length): 초점 거리는 이미지의 vertical field of view를 사용하여 추정한다.
방사 왜곡 계수 (Radial Distortion Coefficients): 방사 왜곡 계수는 보정된 왜곡 계수와 왜곡된 오프셋로 추정된다. 이들은 새로운 파라미터를 사용해 추정된다.

3.2 합성곱 신경망(CNN) 모델

합성곱 신경망(CNN)을 사용하여 카메라 파라미터를 예측한다. 네트워크는 사전 훈련된 DenseNet-161을 사용하여 주요 특징을 추출하고, 네 개의 카메라 파라미터를 예측한다.

DenseNet-161을 사용하여 이미지에서 주요 특징을 추출한다.
이후 각 파라미터에 대해 독립적인 회귀 모듈을 사용하여 예측값을 계산한다. 각 회귀 레이어는 256개의 ReLU 활성화 유닛을 가진 숨겨진 층을 거친 후, 최종 출력 값을 생성한다.

3.3 손실 함수

이 논문에서는 여러 파라미터를 동시에 예측하는 문제를 해결하기 위해 프로젝션 손실 (Projection Loss)을 도입했다. 이 손실 함수는 예측된 파라미터들이 이미지 내에서 실제 위치와 얼마나 잘 일치하는지를 평가한다:

Point Projection: 이 손실 함수는 이미지 내의 2D 좌표를 3D 방향 벡터(방위)로 변환하여 실제 좌표와 예측된 좌표 간의 차이를 최소화한다.
Error Disentangling: 각 파라미터의 오류를 개별적으로 측정하여, 오류가 다른 파라미터에 영향을 미치지 않도록 한다.

4. 실험 결과

이 연구에서는 제안된 방법의 성능을 평가하기 위해 여러 실험을 진행했다. 주요 실험 결과는 다음과 같다:

Loss Function Comparison

제안된 projection loss은 기존의 Huber 손실 함수와 비교했을 때 우수한 성능을 보였으며, 특히 ( k_1 )의 예측 정확도가 높았다.

Radial Distortion Parameterization

제안된 파라미터화 방식이 기존 방식보다 더 정확한 예측을 할 수 있었다.

Geometric-Based Methods

기존의 기하학적 방법들과 비교했을 때, 제안된 방법이 더 많은 경우에서 우수한 성능을 보였다. 특히 자연 풍경과 같은 직선이 부족한 이미지에서는 제안된 방법이 더 높은 정확도를 기록했다.

5. 결론

이 연구는 단일 이미지에서 카메라 보정을 가능하게 만드는 중요한 기여를 했다. 방사 왜곡을 포함한 카메라의 외부 및 내부 파라미터를 동시에 예측할 수 있는 방법을 제시하며, 이 방법은 기존의 기하학적 방법들보다 더 넓은 범위의 이미지를 다룰 수 있다는 장점이 있다. 특히 크라우드 소싱 이미지나 비정형 환경에서도 효과적인 보정이 가능하다.

'논문' 카테고리의 다른 글

[CVPR] Perspective Fields for Single Image Camera Calibration (1)	2023.05.16
[ICCV] CTRL-C: Camera Calibration TRansformer with Line-Classification (0)	2023.05.11
읽어볼 논문 (0)	2023.04.20

읽어볼 논문

rka12 2023. 4. 20. 15:08

2023. 4. 20. 15:08

풀고자 하는 문제 상황, 사용된 방법, 결과 예시, 정량적 성능으로 간략하게 정리

[CVPR]
- Deep Single Image Camera Calibration with Radial Distortion

( https://ieeexplore.ieee.org/document/8954230 )
- Learning to Calibrate Straight Lines for Fisheye Image Rectification
( https://arxiv.org/abs/1904.09856 )
- Rethinking Generic Camera Models for Deep Single Image Camera Calibration to Recover Rotation and Fisheye Distortion
( https://arxiv.org/abs/2111.12927 )
- Perspective Fields for Single Image Camera Calibration
( https://jinlinyi.github.io/PerspectiveFields/ )

[ECCV]
- FishEyeRecNet: A Multi-Context Collaborative Deep Network for Fisheye Image Rectification
( https://arxiv.org/abs/1804.04784 )

'논문' 카테고리의 다른 글

[CVPR] Perspective Fields for Single Image Camera Calibration (1)	2023.05.16
[ICCV] CTRL-C: Camera Calibration TRansformer with Line-Classification (0)	2023.05.11
[CVPR] Deep Single Image Camera Calibration With Radial Distortion (0)	2023.04.24

PREV 이전 1 NEXT 다음

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

-

논문

[CVPR] Perspective Fields for Single Image Camera Calibration

1. 기존 연구의 한계

2. 기여

3. 방법론

Perspective Fields

PerspectiveNet

ParamNet

4. 실험결과

5. 결론

'논문' 카테고리의 다른 글

[ICCV] CTRL-C: Camera Calibration TRansformer with Line-Classification

CTRL-C: Camera Calibration TRansformer with Line-Classification

1. 기존 연구의 한계

2. 방법론

CTRL-C 방법론의 핵심

3. 기여

4. 결과

Google Street View (GSV) 데이터셋

선분 분류

5. 결론

'논문' 카테고리의 다른 글

[CVPR] Deep Single Image Camera Calibration With Radial Distortion

1. 기존 연구의 한계점 (연구의 동기)

2. 기여

3. 방법론

3.1 파라미터화

3.2 합성곱 신경망(CNN) 모델

3.3 손실 함수

4. 실험 결과

Loss Function Comparison

Radial Distortion Parameterization

Geometric-Based Methods

5. 결론

'논문' 카테고리의 다른 글

읽어볼 논문

'논문' 카테고리의 다른 글

+ Recent posts

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역