Paper Review: GANILLA

Hicsonmez, Samet, et al. “GANILLA: Generative adversarial networks for image to illustration translation.” Image and Vision Computing 95 (2020): 103886.

Introduction

  • 생산적 적대 신경망 (Generative Adversarial Network, GAN) 기반 아동도서의 삽화 (illustration) 스타일 이미지 변환
    • 일반적인 그림과 만화와 다르게 사물이 포함되지만 추상화 수준이 매우 높음
    • 기존 모델 (CycleGAN, DualGAN)을 통해 추상화 스타일과 삽화의 내용 간 균형을 다루는데 한계점 존재
  • Goal: 주어진 일러스트 작가의 스타일을 전달하며 주어진 이미지의 콘텐츠를 보존하는 생성기 개발
    • 정렬되지 않은 두 개의 개별 image dataset $\rightarrow$ Unpaired approach
      • Source domain (natural images)
      • Target (illustrations)
    • 스타일과 콘텐츠의 불균형 문제
      • Residual layer에서 특징 맵을 다운 샘플링하여 새로운 생성기 네트워크 제시
      • 콘텐츠를 더 잘 전송하기 위해 skip connection 및 upsampling 사용 $\rightarrow$ 낮은 수준의 feature을 높은 수준의 feature와 병합
  • Unpaired style transfer approach의 evaluation
    • 일반적으로 image-to-image translation 모델의 평가는 정성적
    • 생성된 이미지에 대해 짝지어진 ground-truth가 존재하지 않아 직접적으로 정량적 평가 불가
    • 콘텐츠 및 스타일 분류기 기반 정량적 평가 프레임워크 제안
  • Highlights
    • Image-to-image style and content transfer의 새로운 연구
    • 24명의 아티스트에 대한 약 9500개의 illustration으로 구성된 dataset 제공
    • 스타일과 콘텐츠의 균형이 맞는 새로운 generator network 제안
    • 콘텐츠와 스타일 측면에서 이미지 생성 모델의 새로운 정량적 평가 프레임워크 제안

GANILLA

  • Preliminary experiments: image-to-illustration translation에 대해 기존 모델인 쌍을 이루지 않은 image-to-image translation 모델이 스타일과 콘텐츠를 동시에 전송하지 못하는 한계점 존재
    • 콘텐츠를 보존하며 스타일을 전달하는 새로운 generator network 제시
    • 2가지 ablation 모델 제시

Generator

  • 저수준 feature를 사용해 스타일을 전송하며 콘텐츠 보존
  • 다운 샘플링 단계와 업 샘플링 단계, 총 두 단계로 구성
    • 다운 샘플링 단계: 수정된 ResNet-18 네트워크 사용
      • 저수준 feature를 통합하기 위해 다운 샘플링의 각 레이어에서 이전 레이어의 feature 연결
      • 저수준 레이어는 형태적 특징, 가장자리 및 모양과 같은 정보 통합
      • 전송된 이미지가 입력 콘텐츠의 하위 구조를 가지도록 설계
    • 업 샘플링 단계: summation layer에 skip connection을 통해 다운 샘플링 단계에서 각 레이어의 출력을 사용하여 하위 수준 feature를 제공하고 업 샘플링 (Nearest Neighbor)
      • 콘텐츠 보존에 이점 존재

Discriminator

  • $70\times70$ PatchGAN: image-to-image translation에 성공적으로 사용된 모델

Training Option

  • Cycle-consistency
    • 첫 번째 세트 ($G$): 소스 이미지를 대상 도메인에 매핑 시도
    • 두 번째 세트 ($F$): 대상 도메인 이미지로 입력 후 순환 방식으로 소스 이미지 생성 시도
  • Loss function: generator 및 discriminator 쌍에 대해 두 가지 손실 사용
    • Minimax loss
    • Cycle consistency loss: 생성된 손실이 소스 도메인에 다시 매핑될 수 있도록 도움 ($L_1$ distance)
  • Dataset
    • 서로 다른 짝을 이루지 않은 image dataset (source domain & target domain)
    • $256\times256$
  • Etc.
    • Learning rate: 0.0002
    • Solver: Adam
    • Epoch: 200

Evaluation

  • 비교 대상 (state-of-the-art GAN methods that use unpaired data)
    • CartoonGAN
    • CycleGAN
    • DualGAN
  • Two main factors which determine the quality of the GAN generated illustrations
    • Style-CNN: Having target style
      • 스타일 전달 측면에서 결과가 얼마나 좋은지 평가
    • Content-CNN: Preserving the content
      • 입력 이미지의 정보 보존 여부 감지

Quantitative Analysis and User Study

  • GANILLA
    • 고유한 아티스트 스타일로 이미지 생성
    • 약간의 결함 존재
  • CycleGAN
    • 스타일을 잘 전달하지만 기존의 콘텐츠 변형 발생
    • 생성 이미지에 소스 illustration의 얼굴, 사물과 같은 것을 환각
  • CartoonGAN & DualGAN
    • 콘텐츠를 잘 보존하지만 다양한 경우에서 스타일 전달 측면에서 저조

Quantitative Analysis

  • Style-CNN
    • 스타일별 분류기를 훈련시키기 위해 스타일을 유지하며 시각적 콘텐츠에서 훈련 이미지 분리
    • Illustration 이미지에서 작은 패치 ($100\times100$ pixel)를 무작위로 자르고 해당 패치를 사용하여 스타일 분류기 Style-CNN 훈련
    • Training set: illustration 아티스트를 위한 10개 클래스와 자연 이미지에 대한 1개의 클래스로 구성
    • 분류기를 테스트하기 위해 생성된 이미지만을 사용
  • Content-CNN
    • 콘텐츠 보존을 평가하기 위해 콘텐츠 분류기 Content-CNN 훈련
    • 특정 장면 범주 (숲, 거리, etc.)를 콘텐츠로 정의
    • 특정 스타일로 산 이미지를 생성한다면 생성 이미지 또한 산 이미지로 분류되어야 함

Ablation Experiments

  • 모델의 효과를 자세히 평가하기 위해 두 가지 절제 실험 수행
    1. 다운 샘플링 부분 (Model 1): 다운 샘플링 CNN을 원본 ResNet-18로 교체하여 수정 효과 확인
    2. 업 샘플링 부분 (Model 2): deconv layer가 존재하는 다운 샘플링 CNN 사용
  • Model 1
    • GANILLA와 유사한 콘텐츠 점수
    • 스타일 점수 저조
    • 기존의 ResNet-18 구조를 수정하여 GANILLA가 입력 이미지를 성공적으로 스타일화할 수 있음을 시사
  • Model 2
    • GANILLA보다 향상된 스타일 점수
    • 매우 저조한 콘텐츠 점수
    • 업 샘플링 부분에서 낮은 수준의 기능을 사용하는 것이 콘텐츠를 보존하는 부분에 큰 도움이 됨을 시사

Conclusion

  • 가장 광범위한 아동도서 illustration dataset과 이미지를 illustration으로 translation하기 위한 새로운 generator network 제시
  • Illustration dataset은 매우 추상적인 대상과 형태를 포함하므로 기존의 generator network는 콘텐츠와 스타일을 동시에 전달하지 못하는 한계점 존재
  • 이를 극복하기 위해 GANILLA는 다운 샘플링 상태와 업 샘플링 부분에서 낮은 수준의 feature 사용
  • Image-to-image translation domain에서 generator 모델을 평가하기 위한 metric이 존재하지 않으므로 해당 문제를 해결하기 위해 평가 프레임워크 제시 $\rightarrow$ 스타일과 콘텐츠 측면을 별도로 측정하는 두 개의 CNN