Boostcamp AI Tech (Day 039)
Diverse Generation while Maintaining Semantic Coordination: A Diffusion-Based Data Augmentation Method for Object Detection
Submitted on 6 Aug 2024
최근 연구들은 객체 탐지 모델의 성능을 향상시키기 위해 데이터 증강의 중요성을 강조한다.
기존 방법론의 문제
- 데이터셋 다양성
- Semantic coordination
위 1,2번을 효과적으로 조화시키는데 어려움을 겪는다.
논문의 기법
이 논문에서 소개하는 증강 기법:
- 사전 학습된 조건부 확산 모델을 활용한 증강 기법
- Category Affinity Matrix: 데이터셋 다양성을 향상시키기 위해 고안된 카테고리 친화도 행렬
- Surrounding Region Alignment: 증강된 이미지에서 의미적 조정을 보장하기 위해 주변 영역 정렬
- 데이터셋 다양성을 풍부하게 하면서도 의미적 조정을 원활하게 유지하는 데 효과적
주요 성능 결과
- Fig.1: AP50에서 가장 높은 성능 향상을 달성
- 다양한 객체 탐지기에서 증강을 하지 않은 방식과 비교하여 각각 +3.4AP, +2.3AP, +6.4AP의 성능 향상
- 카테고리 특화 및 세분화된 데이터셋에서도 각각 +3.6AP, +4.4AP의 성능 향상
증강 방법론
- 모델 비의존적 방법: Random Erasing, Mixup, Mosaic 등. 이미지의 의미적 조정을 유지하면서 약간의 변형을 도입하지만, 다양성이 제한되는 경우가 많음.
- 모델 기반 방법: 이미지 생성 모델을 이용해 이미지를 합성하는 방법. 예를 들어, X-Paste는 CLIP을 이용해 마스크를 추출하고, 새로운 객체를 삽입해 데이터를 증강.
InstaGen
기존 클래스와 새로운 클래스를 결합해 데이터를 생성. 데이터셋의 다양성을 높이는 데 뛰어나지만, 추론 성능 향상에 중요한 의미적 조정을 유지하는 데 어려움이 있음.
논문의 주요 기법
- Category Affinity Matrix: 시각적 및 의미적 유사성을 정량화하여 클래스 간의 적절한 객체를 선택.
- Surrounding Region Alignment: 원본 이미지의 의미적 맥락을 유지하며 객체와 주변 영역의 일관성을 보장.
- Instance-Level Filtering: 저품질 이미지를 걸러내어 데이터셋 품질 보장.
실험 결과
- Faster R-CNN, Mask R-CNN, YOLOX에서 각각 +3.4AP, +2.3AP, +6.4AP 성능 향상.
- Objects365와 Open Images의 하위 집합에서 성능 평가. 카테고리 친화도 매트릭스를 적용해 데이터셋 다양성과 의미적 조정을 조화롭게 유지하며 성능 향상.
성능 분석 연구
- Category Affinity Matrix: 데이터 다양성을 증강하면서 객체 탐지 성능에 중요한 역할.
- Surrounding Region Alignment: 의미적 조정을 유지하여 성능 향상에 기여.
- Instance-Level Filtering: 필터링을 통해 객체 탐지 성능을 추가적으로 향상.
결론
논문에서는 확산 모델 기반의 새로운 데이터 증강 방법을 제안했다. 카테고리 친화도 매트릭스와 주변 영역 정렬 전략을 통해 의미적 조정과 데이터셋의 다양성을 균형 있게 유지하며, 인스턴스 수준 필터링을 통해 데이터 품질을 보장한다.