Retrospectives Badge

1. 추가 공부

multi view geometry image

  1. 입력과 출력
    입력으로는 \(W \times H \times 3\) 크기의 RGB 이미지가 주어진다. 네트워크는 이 이미지의 각 픽셀에 대해 D 차원의 벡터를 출력하며, 이는 각 픽셀의 독립적인 설명자 역할을 한다. 이를 ‘밀집 기술자(dense descriptor)’라고 한다.

image

  1. 대조 손실 함수 (Contrastive Loss)
    학습 과정에서는 두 가지 주요 손실 함수가 사용된다. 첫 번째는 일치하는 이미지 쌍에 대한 손실 함수로, 같은 물체의 두 뷰(Ia와 Ib)가 주어졌을 때 일치하는 픽셀 쌍의 기술자 사이의 거리를 최소화한다. 두 번째는 비일치 이미지 쌍에 대한 손실 함수로, 서로 다른 물체의 이미지에서 같은 위치의 픽셀들이 멀리 떨어지도록 만든다.

image

  1. 로봇 팔을 이용한 이미지 캡처
    로봇 팔을 이용해 고정된 물체의 다양한 뷰를 캡처하고, 이를 통해 정확한 3D 재구성 모델을 생성한다. 이 3D 모델과 카메라의 자세 정보를 이용해 네트워크를 학습시킨다.

image

  1. 교차 객체 손실 (Cross-object Loss)
    만약 같은 객체만 학습에 사용한다면, 서로 다른 객체들의 설명자 벡터가 겹치게 된다. 이를 방지하기 위해 교차 객체 손실을 도입하여, 서로 다른 객체의 픽셀들이 분리된 군집을 형성하도록 유도한다. 이를 통해 각 객체는 독립적인 군집을 이루게 된다.

image

  1. 클래스 일관성 기술자 (Class-consistent Descriptor)
    마지막으로, 같은 클래스 내의 객체는 일관성 있는 설명자 벡터를 가지도록 학습되며, 이미지 상에서 객체가 어떻게 배치되든 일관성 있는 표현을 갖도록 학습된다. 로봇이나 다양한 3D 재구성 작업에서 물체의 자세, 위치 등을 학습할 때 매우 유용하게 사용된다.