드디어 프로젝트에 적용할 수 있는 논문을 찾았다! 

야호

 

1. 기존 연구의 한계

  • 기존 카메라 보정 연구들은 핀홀 카메라 모델을 가정하고 내부 및 외부 파라미터(roll, pitch, FoV 등)를 추정했다. 하지만 이미지가 크롭되거나 왜곡되면서 중심 주점(principal point)이 중앙에서 벗어나면 기존 방법들은 이를 고려하지 못해 원근 정보를 잘못 해석하고 큰 오차를 발생시켰다. 
  • 또한, 기존 연구들은 중심 주점이 항상 이미지 중앙에 위치한다고 가정했지만, 실제로는 이미지가 편집되면서 중심 주점이 이동할 수 있어 기존 방법들의 성능이 저하됐다. 
  • 단일 이미지 기반 방법들은 수평선과 소실점 정보를 활용하여 카메라를 보정하지만, 이미지가 크롭되거나 왜곡될 경우 정확도가 크게 떨어지는 한계가 있었다.

2. 기여

이 논문은 기존 카메라 보정 연구들이 가진 중심 주점 가정, 이미지 크롭 및 왜곡에 대한 취약성, 전역적 예측 방식의 한계 등을 해결하기 위해 Perspective Fields(원근 필드)라는 새로운 표현 방식을 제안했다. 기존 연구들이 전역적인 카메라 파라미터를 직접 예측하는 방식을 사용한 반면, 이 논문에서는 각 픽셀의 지역적인 원근 정보를 활용하여 더 정확하고 강건한 카메라 보정을 가능하게 했다.

  1. Perspective Fields
    • 기존의 전역적인 카메라 보정 방식과 달리, 각 픽셀마다 Up-vector(업 벡터)와 Latitude(위도 값)를 저장하여 이미지의 지역적인 원근 정보를 나타내는 방식을 도입했다.
    • 이 표현은 카메라 모델과 독립적이며, 크롭·회전·왜곡 등의 이미지 편집에도 강건한 성능을 보인다.
  2. PerspectiveNet
    • 신경망 기반의 Perspective Fields 예측 모델로, 단일 RGB 이미지를 입력받아 각 픽셀의 Perspective Fields를 예측하도록 학습했다.
    • 이 모델은 360° 파노라마 데이터에서 크롭된 이미지를 학습 데이터로 활용하여, 다양한 카메라 투영 모델에서 강건한 성능을 유지하도록 설계됐다.
  3. ParamNet
    • Perspective Fields를 입력으로 받아 카메라의 Roll, Pitch, Field of View(FoV), 중심 주점(principal point) 등을 복원하는 신경망을 학습했다.
    • 기존 방법들은 단일 이미지를 입력받아 전역적인 카메라 파라미터를 직접 추정했지만, 이 논문에서는 지역적인 Perspective Fields를 먼저 예측한 후 이를 바탕으로 카메라 파라미터를 복원하는 방식을 사용했다.
  4. Perspective Fields를 활용한 이미지 합성(Image Compositing) 및 AR 응용을 제시했다.
    • Perspective Fields를 활용하여 배경과 객체 간의 원근 일치 여부를 평가하는 Perspective Field Discrepancy(PFD) 메트릭을 개발했다.
    • 이 메트릭을 활용하여 객체 합성, 증강 현실(AR) 효과 적용, 3D 객체 삽입 등의 다양한 응용 가능성을 검증했다.

3. 방법론

Perspective Fields 

Perspective Fields는 이미지의 각 픽셀마다 업 벡터(Up-vector)와 위도 값(Latitude)을 저장하는 표현 방식이다.

  • Up-vector(업 벡터): 해당 픽셀에서 3D 공간의 중력 방향이 이미지에 투영된 방향을 나타냄.
  • Latitude(위도 값): 해당 픽셀의 입사 광선과 수평면 간의 각도를 의미함.

이러한 표현을 사용하면 기존 카메라 모델 가정 없이도 이미지의 원근 정보를 저장할 수 있다.

PerspectiveNet

PerspectiveNet은 CNN 기반의 신경망 모델로, 단일 이미지에서 각 픽셀의 Perspective Fields를 예측하는 역할을 한다.

  • 입력: RGB 이미지
  • 출력: 각 픽셀에 대한 Up-vector와 Latitude 값
  • 학습 데이터:
    • 360° 파노라마에서 크롭한 다양한 카메라 시점의 이미지
    • 여러 가지 카메라 모델(핀홀, 어안 렌즈 등)을 포함
    • 크롭·왜곡·회전 등 다양한 데이터 증강 기법 적용

PerspectiveNet은 기존의 전역적인 카메라 파라미터 예측 방식과 달리, 각 픽셀의 원근 정보를 직접 예측하기 때문에 이미지 크롭이나 왜곡에도 강건한 성능을 보인다.

ParamNet

Perspective Fields를 활용하여 카메라의 전역적인 파라미터(Roll, Pitch, FoV, 중심 주점)를 복원하는 신경망이다.

  • 입력: Perspective Fields (Up-vector + Latitude)
  • 출력: 카메라 파라미터(Roll, Pitch, FoV, 중심 주점)
  • 기존 방법과 차이점:
    • 기존 방법들은 단일 이미지에서 직접 카메라 파라미터를 예측했지만, 이 논문에서는 Perspective Fields를 먼저 예측한 후 이를 기반으로 파라미터를 복원하는 방식을 사용했다.
    • 이를 통해 크롭된 이미지에서도 중심 주점을 정확히 복원할 수 있도록 설계됐다.

4. Perspective Fields를 활용한 응용

  1. 이미지 합성(Image Compositing)에서 원근 정합성 평가
    • Perspective Fields를 이용해 배경과 객체의 원근이 일치하는지 평가하는 Perspective Field Discrepancy(PFD) 메트릭을 제안했다.
    • 기존의 수평선 기반 매칭 방식보다 인간의 원근 감각과 더 높은 상관관계를 가진다는 점을 사용자 실험으로 검증했다.
  2. 증강 현실(AR) 효과 적용
    • Perspective Fields의 Up-vector를 활용하여, 이미지 내 중력 방향을 반영한 이펙트(예: 비 시뮬레이션, 천장에 매달린 물체) 생성이 가능하다.
  3. 3D 객체 삽입
    • Perspective Fields를 이용해 배경과 3D 객체의 원근을 일치시켜 더욱 자연스러운 합성이 가능하다.
    • 기존 방법보다 정확한 카메라 추정이 가능해져 3D 모델을 실제 사진에 자연스럽게 삽입하는 것이 가능하다.

4. 실험결과

  • Perspective Fields 기반 방법(Ours)이 기존 방법들보다 훨씬 정확한 Up-vector 및 Latitude 예측 성능을 보였다.
  • 특히, 크롭된 이미지(uncentered principal point)에서도 기존 방법들과 비교했을 때 성능 저하가 거의 발생하지 않았다.
  • 기존 방법들은 중심 주점이 이미지 중앙에 있다고 가정하여 크롭된 이미지에서 성능이 크게 저하되었지만, Ours는 지역적인 Perspective Fields를 활용하여 더 강건한 성능을 보였다.
  • Latitude(위도 값) 예측에서도 기존 방법 대비 최대 40% 이상의 향상된 정확도를 기록했다.

  • Perspective Fields 기반 방법(Ours)이 기존 방법들보다 더 정확한 원근 표현을 제공했다. 
  • 기존 방법들은 중심 주점(principal point)이 중앙에 있다고 가정하거나, 전역적인 카메라 파라미터만을 예측하기 때문에 크롭되거나 왜곡된 이미지에서 성능이 저하됐다. 
  • 반면, Perspective Fields는 각 픽셀마다 원근 정보를 직접 저장하고 예측하기 때문에, 복잡한 원근 구조를 가진 이미지에서도 더욱 자연스러운 보정이 가능했다. 
  • 특히, 건물, 자동차 같은 구조물이 포함된 이미지에서 Perspective Fields가 더 높은 정합성을 보였으며, Perceptual과 CTRL-C보다 강건한 성능을 유지했다. 

5. 결론

  • Perspective Fields는 각 픽셀마다 Up-vector(업 벡터)와 Latitude(위도 값)를 저장하는 지역적 표현을 사용하여 더 정확하고 강건한 카메라 보정을 가능하게 했다. 이는 크롭된 이미지나 중심 주점이 이동한 이미지에서도 기존 방법보다 정확한 성능을 보였다.
  • Perspective Fields는 이미지 합성, 증강 현실(AR), 3D 객체 삽입 등 다양한 응용에도 활용될 수 있음을 보였다. Perspective Field Discrepancy(PFD) 메트릭을 개발하여 배경과 객체 간의 원근 정합성을 평가하는 방법을 제시했다
  • 사용자 실험을 통해 기존의 수평선 기반 방법보다 더 인간의 원근 감각과 높은 상관관계를 가진다는 점을 검증했다.

CTRL-C: Camera Calibration TRansformer with Line-Classification

1. 기존 연구의 한계

기존의 카메라 교정 방법들은 크게 두 가지 문제를 안고 있었다:

  1. 이미지와 기하학적 선분 정보를 별도로 처리:
    대부분의 기존 방법들은 이미지 특징과 선분을 따로 처리하거나, 선분을 후처리를 통해 적용하는 방식이었다. 이런 접근은 네트워크가 이미지 내의 글로벌한 구조를 제대로 학습하지 못하게 한다.
  2. CNN의 한계:
    CNN 기반 접근은 장기적인 의존성을 학습하는 데 어려움을 겪는다. 이는 카메라 파라미터 추정에서 중요한 글로벌 관계를 제대로 반영하지 못하는 원인 중 하나였다.

2. 방법론

CTRL-C는 단일 이미지 카메라 교정을 위한 새로운 신경망 기반 방법론이다. 이 연구는 이미지 특성(semantic cues)과 선분 특성(geometric cues)을 통합하여 트랜스포머 아키텍처를 사용해 카메라 파라미터(수직 사라지는 점, 수평선, 시야 각도)를 추정한다.

CTRL-C 방법론의 핵심

 

  • 트랜스포머 기반 네트워크:
    기존의 CNN을 활용한 방법들과 달리, 트랜스포머 아키텍처는 이미지와 선분이라는 두 가지 유형의 입력을 동시에 처리할 수 있다. 트랜스포머는 이미지 내의 글로벌 의존성을 캡처하는 데 뛰어나, 장기적인 관계를 잘 학습한다.
  • 선분 분류:
    수직 수렴선과 수평 수렴선을 분류함으로써, 카메라 파라미터 추정의 정확도가 향상된다. 선분 분류는 이미지 내에서 기하학적 구조를 더 잘 이해하도록 돕고, 결과적으로 카메라 교정의 정확도를 높인다.

3. 기여

CTRL-C는 트랜스포머를 이용해 이미지 특성과 기하학적 선분 특성을 통합하여 처리함으로써 기존 연구의 한계를 극복했다.

주요 기여는 다음과 같다

  • 트랜스포머 아키텍처 활용: 트랜스포머는 이미지와 선분의 특성을 통합적으로 학습할 수 있는 능력이 있다. 특히, self-attention 메커니즘을 통해 이미지 내의 장기적인 관계를 잘 캡처한다.
  • 선분 분류를 보조 작업으로 도입하여, 수직 및 수평 수렴선을 정확히 분류하고 이를 통해 카메라 파라미터 추정의 정확도를 상당히 향상시켰다.
  • CTRL-C는 기존의 GPNet(83.12%)을 포함한 최신 방법들에 비해 월등한 성능을 보였으며, 특히 수평선 예측에서 큰 향상을 보였다.

4. 결과 

Google Street View (GSV) 데이터셋 

CTRL-C는 기존 방법들에 비해 카메라 파라미터 추정에서 더 높은 정확도를 기록했다. 특히 수평선 예측에서 AUC (곡선 아래 면적)가 87.29%로 기존 GPNet의 83.12%를 능가했다. 

선분 분류 

CTRL-C의 보조 작업인 선분 분류는 GSV와 SUN360 데이터셋 모두에서 매우 높은 정확도를 기록했다. 특히 수직 선분과 수평 선분의 분류 정확도가 각각 99.73%와 93.35%에 달했으며, 훈련 데이터셋과 테스트 데이터셋이 달라도 높은 성능을 유지했다.

5. 결론

CTRL-C는 단일 이미지 카메라 교정 문제에서 뛰어난 성능을 보였으며, 기존 방법들과 비교하여 카메라 파라미터 추정의 정확도를 크게 향상시켰다. 특히 트랜스포머 아키텍처와 선분 분류 보조 작업을 결합하여 이미지와 선분의 특성을 통합적으로 처리할 수 있게 되었다. 

 

1. 기존 연구의 한계점 (연구의 동기)

기존의 카메라 보정 방법들은 일반적으로 여러 이미지를 사용하여 카메라의 내부 및 외부 파라미터를 추정한다.

- 하지만 이러한 방법들은 통제된 환경에서 촬영된 이미지나 여러 이미지를 필요로 하여 실제 환경에서는 적용하기 어려운 문제점이 있다.

- 특히, 크라우드 소싱된 이미지나 비정형 환경에서 촬영된 이미지에서는 효과적으로 작동하지 않는다.

- 또한 기존의 기하학적 방법은 직선과 소실점을 이용한 추정에 의존하며, 정확한 정보가 부족한 이미지에서는 잘 동작하지 않는다.

이러한 문제들을 해결하기 위해, 단일 이미지만을 사용하여 카메라 파라미터를 추정할 수 있는 방법이 필요하다.

2. 기여

이 논문은 단일 이미지에서 카메라의 외부 파라미터(기울기, 롤)와 내부 파라미터(초점 거리, 방사 왜곡)까지 동시에 추정할 수 있는 새로운 방법을 제시하였다. 주요 기여는 다음과 같다:

  • 방사 왜곡에 대한 새로운 파라미터화 방법을 제시하여, 기존의 왜곡 파라미터를 직접 예측하는 대신 더 학습에 적합한 형식으로 변환한다.
  • 기존의 다중 손실 항목들을 균형 있게 처리할 수 있는 새로운 손실 함수를 도입하여 여러 파라미터를 동시에 예측하는 과정에서 발생하는 문제를 해결한다.
  • 제안된 방법은 카메라의 기울기, 롤, 초점 거리 및 방사 왜곡 파라미터를 단일 이미지로부터 동시에 추정할 수 있는 최초의 방법으로, 기존의 기하학적 방법들과 비교하여 뛰어난 성능을 보인다.

3. 방법론

이 논문에서 제시된 방법론은 카메라 파라미터를 예측하는 합성곱 신경망(CNN) 모델을 사용한다. 주요 방법론은 다음과 같다:

3.1 파라미터화

카메라 파라미터를 예측하기 위해 새로운 프록시 변수를 제시한다. 이 변수들은 이미지에서 쉽게 관찰할 수 있고, 서로 독립적이다. 주요 파라미터화는 다음과 같다:

  • 기울기 (Tilt): 기울기 각도는 이미지에서 수평선과 이미지 중심 간의 거리로 추정한다.
  • 롤 (Roll): 롤 각도는 이미지 내에서 수평선의 기울기를 통해 직접 추정할 수 있다.
  • 초점 거리 (Focal Length): 초점 거리는 이미지의 vertical field of view를 사용하여 추정한다.
  • 방사 왜곡 계수 (Radial Distortion Coefficients): 방사 왜곡 계수는 보정된 왜곡 계수와 왜곡된 오프셋로 추정된다. 이들은 새로운 파라미터를 사용해 추정된다.

3.2 합성곱 신경망(CNN) 모델

합성곱 신경망(CNN)을 사용하여 카메라 파라미터를 예측한다. 네트워크는 사전 훈련된 DenseNet-161을 사용하여 주요 특징을 추출하고, 네 개의 카메라 파라미터를 예측한다.

  • DenseNet-161을 사용하여 이미지에서 주요 특징을 추출한다.
  • 이후 각 파라미터에 대해 독립적인 회귀 모듈을 사용하여 예측값을 계산한다. 각 회귀 레이어는 256개의 ReLU 활성화 유닛을 가진 숨겨진 층을 거친 후, 최종 출력 값을 생성한다.

3.3 손실 함수

이 논문에서는 여러 파라미터를 동시에 예측하는 문제를 해결하기 위해 프로젝션 손실 (Projection Loss)을 도입했다. 이 손실 함수는 예측된 파라미터들이 이미지 내에서 실제 위치와 얼마나 잘 일치하는지를 평가한다:

  • Point Projection: 이 손실 함수는 이미지 내의 2D 좌표를 3D 방향 벡터(방위)로 변환하여 실제 좌표와 예측된 좌표 간의 차이를 최소화한다.
  • Error Disentangling: 각 파라미터의 오류를 개별적으로 측정하여, 오류가 다른 파라미터에 영향을 미치지 않도록 한다.

4. 실험 결과

이 연구에서는 제안된 방법의 성능을 평가하기 위해 여러 실험을 진행했다. 주요 실험 결과는 다음과 같다:

Loss Function Comparison

제안된 projection loss은 기존의 Huber 손실 함수와 비교했을 때 우수한 성능을 보였으며, 특히 ( k_1 )의 예측 정확도가 높았다.

Radial Distortion Parameterization

제안된 파라미터화 방식이 기존 방식보다 더 정확한 예측을 할 수 있었다.

Geometric-Based Methods

기존의 기하학적 방법들과 비교했을 때, 제안된 방법이 더 많은 경우에서 우수한 성능을 보였다. 특히 자연 풍경과 같은 직선이 부족한 이미지에서는 제안된 방법이 더 높은 정확도를 기록했다.

5. 결론

이 연구는 단일 이미지에서 카메라 보정을 가능하게 만드는 중요한 기여를 했다. 방사 왜곡을 포함한 카메라의 외부 및 내부 파라미터를 동시에 예측할 수 있는 방법을 제시하며, 이 방법은 기존의 기하학적 방법들보다 더 넓은 범위의 이미지를 다룰 수 있다는 장점이 있다. 특히 크라우드 소싱 이미지나 비정형 환경에서도 효과적인 보정이 가능하다.

풀고자 하는 문제 상황, 사용된 방법, 결과 예시, 정량적 성능으로 간략하게 정리

 

[CVPR] 
- Deep Single Image Camera Calibration with Radial Distortion 

https://ieeexplore.ieee.org/document/8954230 )
- Learning to Calibrate Straight Lines for Fisheye Image Rectification
https://arxiv.org/abs/1904.09856 )
- Rethinking Generic Camera Models for Deep Single Image Camera Calibration to Recover Rotation and Fisheye Distortion
https://arxiv.org/abs/2111.12927 )
- Perspective Fields for Single Image Camera Calibration
https://jinlinyi.github.io/PerspectiveFields/ )

[ECCV]
- FishEyeRecNet: A Multi-Context Collaborative Deep Network for Fisheye Image Rectification
https://arxiv.org/abs/1804.04784 ) 

+ Recent posts