Computer Vision 정리2/2

2022년 11월 27일

Lecture05-06. Image Understanding

Summary of Important Topics

VGG
- 더 큰 필터를 한 개 사용하는 대신 3x3 Convolution Filter를 여러 개 사용하여 같은 기능을 내고 연산에 필요한 파라미터를 줄임
ResNet
- Residual
- 레이어가 50보다 깊은 경우 bottleNet 구조를 사용
Segmentation
Object Detection

Class Loss + bbox Loss
- Sliding Window
  - Window를 계속 움직여가며 찾고자 하는 대상의 위치를 파악함
- Region Proposals
  - Object Detection을 위해
- R-CNN
  - 모든 Region에 대해 Backbone Network를 통과시킴
- Fast R-CNN
  - Backbone Network를 1번 통과 시켜 얻은 feature로부터 ROI를 얻음. 단, Input과 Feature 사이의 스케일이 달라 Mapping 하는 과정에서 Rough하게 인접한 영역을 골라 정보의 손실이 일어남
- Mask R-CNN
  - Mapping 시 Interpolation을 통해 좀 더 정밀한 ROI를 얻으려고 노력함. Segmentation Mask를 위한 네트워크가 추가되어있음.
- Faster R-CNN
  - Backbone Network를 두 Stage로 나누고 First Stage에 Region Propsal을 수행하는 Network(RPN)를 구현함. 이것을 기반으로 Second Stage에서 Classification를 수행함.
- Single Stage Object Detection
  - 하나의 Stage에 물체가 등장할 수 있을만한 ROI를 위한 Loss와 Classification Loss를 얻음.
- Data Preprocessing
  - 입력 데이터가 작은 변화에도 너무 민감하게 변화하지 않도록 주로 데이터들의 평균(R, G, B)을 빼 원점으로 이동시킴. PCA나 Whitening 기법은 데이터의 특징을 변화시킬 우려가 있고 잘 쓰이지 않음.
- Initialization
  - 평균이 0인 분포로부터 샘플링 한 랜덤 값에 어떤 값을 곱해 스케일링 한 것에 Activation 함수를 통과시켜 정규화한 값으로 각 레이어의 초기 Weight를 설정함. 이 때, 어떤 방식으로 랜덤 값을 만들고, 어떤 Activation 함수를 통과시키느냐에 따라 w의 기울기가 달라져 학습이 안 되거나 잘 될 수도 있음.
- Vanishing gradient
  - Activation 함수의 입력 W의 범위가 0에 조밀하다면 너무 작은 범위에서 기울기를 구하는 탓에 Vanishing gradient 현상이 일어날 수 있음.
    
    tanh 함수를 이용하는 경우, 입력 범위가 크다면 함수의 출력이 -1 또는 1 근처에 조밀하게 되고 로컬 기울기가 0에 가까워 마찬가지로 Vanishing gradient 현상이 일어날 수 있음. 이것을 방지하기 위해 표본에 W의 표준편차 ${1/\sqrt{Din}}\quad(Din=사이즈^2*채널)$을 곱해 좁은 값을 샘플링 하여 깊은 레이어에서도 tanh의 출력이 [-1,1] 범위의 값을 고르게 갖도록 하는 Xavier Initalization 기법이 있음.
    
    급격한 기울기를 갖는 tanh 대신 기울기가 1인 ReLU 함수를 이용하는 경우 W의 음의 값이 모두 0이 되어버리는데 이것을 방지하기 위해 ${\sqrt{2}}$만큼 넓게 샘플링 하여 손실될 샘플만큼 더 샘플링하여 보완함.
- SGD+Momentum
  - SGD가 Local minima 또는 안장점에 빠질 수도 있는 문제를 관성을 추가하여 보완하는 Optimizer
- Transfer Learning
  - ImageNet과 같이 큰 데이터로부터 학습 된 모델 A를 작은, 커스텀 데이터로 학습할 모델 B에 전이시키는 것. Learning Rate는 A보다 0.1배 작게 하는 것이 좋고 A의 가장 마지막의 FC레이어만 변경하여 클래스 수를 맞춰준다. 만약 A에 비해 유사하지 않거나 데이터가 방대하다면 더 많은 레이어를 변경한다.

Additional Survey

ReLU 함수를 이용하는 경우 출력이 0일 때 기울기가 0이라 마찬가지로 학습이 이루어지지 않지 않을까 생각을 했는데 그 때 조금의 기울기를 주는 Leaky ReLU 같은 개선 버전이 있다고 한다. ReLU는 다른 Activation Function에 비해 연산이 단순하여 sigmoid, tanh에 비해 loss 업데이트가 6배 가량 더 빠르다고 한다.

Discussion

오픈 소스 모델을 사용할 때 대다수의 제작자가 Pretrained 모델과 그것을 사용 가능하게 해주는 옵션을 제공해준다. 모델 학습 시 꼭 사용해야 하는 기법이 아닐까라고 여겨졌다.

Lecture07. Generative Models

Summary of Important Topics

Generative Adversarial Networks(GAN)
- 노이즈 입력 z로부터 네트워크를 통과시켜 그럴싸한 샘플(가짜)을 생성해내려고 한다. 이 때 그럴싸한 가짜 샘플을 만드려는 네트워크인 Generator와 가짜 샘플과 진짜 샘플을 잘 구분하려는 네트워크인 Discriminator로 구성되어 있다.
  
  정의역이 (0,1]인 log에 대해 좌항을 보면 Discriminator가 진짜 샘플(x)를 잘 구분해내면 좌항의 크기가 최대가 되므로 Discriminator는 입력이 진짜와 가까운 정도에 따라 1을 출력할 수 있도록 학습한다. 이후, 우항을 보면 Generator가 노이즈 z로부터 생성한 가짜 샘플 G(z)을 Discriminator가 잘 구분해내면(출력이 0에 가까우면) 우항의 크기가 최대가 되므로 Discriminator는 가짜 샘플을 잘 구분할 수 있도록 학습한다. 이후 Generator는 가짜 샘플을 진짜 샘플과 유사하게 생성한다면 우항의 크기가 최대가 되므로 이에 맞춰 학습한다.
- 위와 같이 Discriminator가 가짜 샘플 학습할 때, log(1-D(G(z))가 학습 초반에 느리고 학습 후반에 급격히 빠른 특성이 있으므로 이것을 개선하기 위해 우항을 -log(D(G(z))로 바꿔서 학습한다.
DC GAN
- 기존 GAN이 컬러 이미지에서 해상도가 낮고 mode collapse 현상이 일어나는 문제가 있었는데 DC GAN이 등장하면서 그것 들을 비약적으로 개선했다고 한다.
Cycle-Consistent Adversarial Networks
- x로부터 Generator가 만들어낸 결과 G(x)와 G(x)를 다시 x로 복구시킨 F(G(x))와 x 사이의 거리 또는 y를 x로 복구시킨 F(y)로부터 Generator가 만들어낸 G(F(y))와 y 사이의 거리를 Loss로 하는 네트워크