Hicsonmez, Samet, et al. “GANILLA: Generative adversarial networks for image to illustration translation.” Image and Vision Computing 95 (2020): 103886.

Introduction

  • 생산적 적대 신경망 (Generative Adversarial Network, GAN) 기반 아동도서의 삽화 (illustration) 스타일 이미지 변환
    • 일반적인 그림과 만화와 다르게 사물이 포함되지만 추상화 수준이 매우 높음
    • 기존 모델 (CycleGAN, DualGAN)을 통해 추상화 스타일과 삽화의 내용 간 균형을 다루는데 한계점 존재
  • Goal: 주어진 일러스트 작가의 스타일을 전달하며 주어진 이미지의 콘텐츠를 보존하는 생성기 개발
    • 정렬되지 않은 두 개의 개별 image dataset $\rightarrow$ Unpaired approach
      • Source domain (natural images)
      • Target (illustrations)
    • 스타일과 콘텐츠의 불균형 문제
      • Residual layer에서 특징 맵을 다운 샘플링하여 새로운 생성기 네트워크 제시
      • 콘텐츠를 더 잘 전송하기 위해 skip connection 및 upsampling 사용 $\rightarrow$ 낮은 수준의 feature을 높은 수준의 feature와 병합
  • Unpaired style transfer approach의 evaluation
    • 일반적으로 image-to-image translation 모델의 평가는 정성적
    • 생성된 이미지에 대해 짝지어진 ground-truth가 존재하지 않아 직접적으로 정량적 평가 불가
    • 콘텐츠 및 스타일 분류기 기반 정량적 평가 프레임워크 제안
  • Highlights
    • Image-to-image style and content transfer의 새로운 연구
    • 24명의 아티스트에 대한 약 9500개의 illustration으로 구성된 dataset 제공
    • 스타일과 콘텐츠의 균형이 맞는 새로운 generator network 제안
    • 콘텐츠와 스타일 측면에서 이미지 생성 모델의 새로운 정량적 평가 프레임워크 제안
Read more »

Natural Language Processing

  • 자연어 처리 (Natural Language Processing, NLP): 컴퓨터와 사람의 언어 사이의 상호작용에 대해 연구하는 컴퓨터 과학과 어학의 한 분야
    • 문자 단위 RNN (character RNN): 문장에서 다음 글자를 예측하도록 훈련
1
2
3
4
5
6
7
8
9
from tensorflow.compat.v2 import keras

shakespeare_url = "https://homl.info/shakespeare"
filepath = keras.utils.get_file("shakespeare.txt", shakespeare_url)
with open(filepath) as f:
shakespeare_text = f.read()

tokenizer = keras.preprocessing.text.Tokenizer(char_level = True)
tokenizer.fit_on_texts(shakespeare_text)
  • 셰익스피어 작품을 다운로드 이후 Tokenizer를 통해 모든 글자를 정수로 인코딩
Read more »

CycleGAN

  • pix2pix
    • Self-supervised
    • Loss: Minimize the difference between output $G(x)$ and ground truth $y$
      • $\underset{(x,y)}{\Sigma}||y-G(x)||_1$
    • Ex) 흑백 $\rightarrow$ 컬러
  • GAN
    • Loss: Another deep network point out the difference
      • $\arg\underset{G}{\min}\underset{D}{\max}\mathbb{E}_{x,y}[\log{D(G(x))}+\log(1-D(y))]$
    • $D$ tries to identify the fakes
    • $G$ tries to synthesize fake images that fool $D$
Read more »

Convolution Neural Network

  • 합성곱 신경망 (Convolution Neural Network, CNN)
    • 대뇌의 시각 피질 (cortex) 연구에서 시작
    • 이미지 검색, 자율주행, 영상 분류, 음성인식, 자연어 처리 등 다양한 분야에서 널리 사용

The Architecture of the Visual Cortex

  • 뉴런들이 시야의 일부 범위 안에 있는 시각 자극에만 반응 (local receptive field)
  • 뉴런의 수용장들은 겹칠 수 있고 이를 합치면 전체 시야를 감싸게 됨
  • 동일한 수용장을 가지는 뉴런이여도 다른 각도의 선분에 반응하는 현상 발견
  • 특정 뉴런은 큰 수용장을 지니고 저수준 패턴이 조합된 상대적으로 복잡한 패턴에 반응
Read more »