Peer Session Badge Retrospectives Badge

1. 논문 idea 구경하기 (KCCV 2024)

Contrastive Denoising Score for Text-guided Latent Diffusion Image Editing, Select year 2024, CVPR

텍스트 기반의 이미지 편집 연구: Denoising Score와 Cut Loss

‘Denoising Score’와 ‘Cut Loss’ 개념을 다루고 있다. 연구의 주요 목적은 이미지와 텍스트 프롬프트를 입력으로 받아 텍스트에 따라 이미지를 수정하되, 관련 없는 영역은 유지하는 것입니다. 특히, 기존의 방법들이 이미지의 구조를 잘 보존하지 못하는 문제를 해결하기 위해 제안된 새로운 접근법을 소개하며, 이를 통해 현재의 이미지 생성 과정에서 더 나은 구조 보존과 내용 변환의 균형을 이루려는 노력을 강조합니다. 이러한 내용은 텍스트 가이드 이미지 편집의 핵심 원리를 이해하고자 하는 이들에게 유용합니다.

핵심 주제

  • 텍스트 기반 이미지 편집의 효율성을 향상시키기 위한 접근법이 필요하다.
  • 텍스트 가이드 이미지 편집은 텍스트 프롬프트에 따라 이미지를 수정하는 것이지만, 사소한 변경이 큰 결과 차이를 초래할 수 있다.
  • 따라서, SDS(Score Distillation Sampling)와 같은 전략이 편집 성능을 높이기 위한 유망한 방법으로 제시되고 있다.
  • 이 연구는 이러한 문제를 해결하려는 노력으로, 다양한 점수를 비교하고 개선 방안을 모색하고 있다.
  • DDS와 CUT의 차별화된 구조가 이미지 편집 성능에 영향을 미친다.
  • DDS는 스코어 함수 간의 차이에 의존하지만, 구조를 충분히 유지하지 못하는 경향이 있다.
  • ‘컷 손실’ 개념의 도입은 대조적인 패치를 활용하여 구조적 일관성을 확보함으로써 성능 개선에 기여한다.
  • CUT는 입력 구조 유지에 중점을 두어, DDS의 성능 향상을 위한 새로운 아이디어로 여겨진다.
  • 디퓨전 모델에서 셀프 어텐션 기능의 활용이 중요하다.
  • 셀프 어텐션 기능은 컨트라스트 컷 손실을 계산하여 이미지를 최적화하는 데 사용된다.
  • 이 방법은 패치 간의 의미적 유사성을 반영한 정규화 기법을 포함하며 과적합을 피하고 유연성을 높여준다.
  • 결과적으로, 원본 이미지의 구조적 세부사항을 유지하면서 목표 텍스트 프롬프트에 맞게 조정하는 데 도움이 된다.

타임라인

  1. 텍스트 기반 이미지 편집을 위한 연구 소개 헨리 넘이며: 텍스트 가이드 잠재 확산 이미지 편집에서의 노이즈 점수 비교에 대한 연구 발표.
    이 연구는 키안 경과 Y 교수와의 협업으로 진행되었으며, 텍스트 가이드 이미지 편집의 문제를 다루고자 합니다.
    일반적으로 텍스트 기반 이미지 편집은 이미지를 입력으로 받아 텍스트 프롬프트에 맞게 이미지를 수정하는 것을 목표로 합니다.
    하지만 텍스트 프롬프트의 사소한 변경이 완전히 다른 결과를 일으킬 수 있어, 이미지 편집을 직관적으로 제어하기 어려운 상황이 발생합니다.
    SDS(Score Distillation Sampling)는 이 분야에서 유망한 접근 방식 중 하나로, 확산 모델의 풍부한 생성 이전 정보를 활용하여 매개변수 이미지를 최적화할 수 있도록 도와줍니다.

  2. 영상 처리에서 DDS와 CUT의 차이점 설명
    두 개의 이미지와 텍스트 소스를 이용하여 목표 이미지를 점진적으로 업데이트하며, 두 결과의 차이를 활용하여 더 깨끗한 기울기 방향을 제공한다.
    DDS는 유망한 편집 성능을 보였지만, 스코어 함수 간의 차이에만 의존하여 원래 구조를 충분히 유지하지 못하는 경우가 있었다.
    이러한 문제를 해결하기 위해 대비 대안 번역 프레임워크에서 ‘컷 손실’ 개념을 도입했다.
    ‘컷’의 기본 아이디어는 패치 단위 대조를 이용하는 것이며, 생성된 출력은 입력 이미지의 해당 패치와 비슷한 특성을 가진 패치를 만들어야 한다.
    이러한 접근법은 생성기가 자세와 구조와 같은 도메인 불변 개념을 포집하게 해주며, 주기적 일관성을 강제하지 않고도 쌍이 없는 설정에서 일방향 번역을 가능하게 한다.

  3. CUT 알고리즘과 DDS 구조적 변화 조정 CUT는 대조된 컷 손실을 활용하지만, DDS는 재구성 브랜치나 손실 메커니즘이 부족하다.
    CUT의 입력 구조 유지 효과를 바탕으로, DDS의 구조적 변화를 조절하는 핵심 아이디어를 채택하고자 한다.
    그러나 원래의 CUT 알고리즘은 입력 이미지에서 공간 정보를 추출하기 위해 인코더를 훈련해야 하며, 이는 계산 자원 측면에서 비효율적이다.
    이때 우리는 잠재 확산 모델의 잠재 표현에 내포된 공간 정보에 중점을 두었으며, 슬라이드에서 시각화된 자기 주의 특징을 통해 이를 확인할 수 있다.
    이전 연구에 따르면 이러한 특징이 많은 공간 정보를 포함하고 있다.
    우리는 자기 주의 레이어에서 추출한 특징을 사용하여 컷 손실을 계산함으로써 이 문제를 해결하였다.

  4. 디퓨전 모델의 개선된 파이프라인 요약 디퓨전 모델의 추론 과정에서 특정 레이어의 셀프 어텐션 기능을 저장한다.
    이후, 셀프 어텐션 기능을 사용하여 컨트라스트 컷 손실을 계산하고, 원본 DDS 손실과 새로 도입된 컷 손실을 활용해 이미지를 최적화한다.
    우리의 방법은 패치 간의 의미적 유사성에 기반한 정규화를 포함하며, 잘 훈련된 기능 공간에서의 내적을 통해 결정된다.
    이 접근 방식은 의미 정보를 고려하기 때문에, 강제적인 기능 유도 방법보다 과적합을 피하며 더 큰 유연성을 제공한다.
    CD의 제약을 통해 원본 이미지의 구조적 세부사항을 유지하며, 목표 텍스트 프롬프트에 맞게 콘텐츠를 변환하는 균형을 크게 개선할 수 있었다.

CAT-Seg: Cost Aggregation for Open-Vocabulary Semantic Segmentation