본문 바로가기
Boostcamp AI Tech/[week 1-5] LEVEL 1

[Week 2 - Day 2] DL Basic - Optimization

by newnu 2021. 8. 10.
반응형

1. 강의 내용

1) DL Basic

3. Optimization

  • Generalization
    • 학습 데이터와 훈련 데이터의 gap
    • 만약 학습 데이터가 안 좋으면 훈련데이터가 좋아도 모델이 좋은 성능이라고 할 수 없다 (학습데이터와 훈련 데이터의 차이이기 떄문에)
  • Under fitting vs. Over fitting
  • Cross validation
    • K-Fold 검증 : 데이터를 k개로 나눠서 k-1개의 훈련데이터, 1개의 test 데이터
  • Bias Variance tradeoff
    • Bias : target에 얼마나 가까운지
    • Varience : 얼마나 일관적인지
    • Bias 와 Varience 가 모두 낮아야 좋은데 하나가 낮으면 하나는 높아짐
  • Bootstrapping
    • random sampling
  • Bagging and boosting
    • Bagging (Bootstrapping aggregating)
    • 모델 여러개 독립적
    • Boosting
    • 여러 개의 모델이 나중에 하나의 strong 모델로 이어짐
    • 이전 모델이 다음 모델에 영향
  • Gradient Descent Methods
    • stochastic gradient descent
    • Momentum
    • 한번 향하기 시작한 방향의 gradient 유지
    • Nesterov accerlerated gradient
    • Adagrad
    • Adadelta
    • RMSprop
    • Adam
  • Regularization
    • Early Stopping
    • Parameter norm penalty
    • Data Augmentation
    • 데이터 조금씩 변형하여 증가
    • Mnist와 같은 경우 라벨이 아예 달라질 수 있음
    • Noise robustness
    • add random noise inputs, weights
    • Label Smoothing
    • Mix-up
      • 2개의 데이터를 섞어 decision boundary 찾기
    • CutMix
      • 두 데이터를 cut & paste
    • Dropout
    • randomly set some neurons to zero
    • 각각의 neuron들이 robust 해진다
    • Batch normalization

2. Peer Session

  1. AI Boost camp
  • DL Basic 3강, Data Viz 2-1 ~ 2-3강
  • DL Basic 3강 Gradient Descent Method 논의
  1. 알고리즘 스터디
  1. Q & A
  • DFS 문제 구현에서 stack과 재귀사용법. BFS와 비교
  • Q : Adagrad의 방법에서 Gt는 어떻게 구할 수 있을까? A : 각각의 parameter들의 합을 벡터나 행렬의 꼴로 저장?
  • Q : Adagrad의 방법에서 G에 현재 갱신된 가중치 gt의 값의 제곱도 더해져 계산될 까?
    • A : 밑의 Adadelta의 식을 보아 현재 gt의 값도 더해져 계산되는 것 같다.
  • Q : Adagrad의 방법에서 gt 값에 관계없이 1보다 작은 값이 곱해지니까 과정이 진행될수록 기존의 gt보다는 작아질 것 같은데, 작게 변화한 파라미터는 빠르게 변화하도록 한다는 의미는 어떻게 이해하면 될까?
    • A : 빠르게 변화한다는 것이 각각의 가중치끼리 비교한 상대적인 빠르기가 아닐까? 혹은, 같은 과정에서 본다면 값이 크게 변화했을 때 보다, 적게 변했을 때 빠르다는 의미 인가?
  • Q : Adadelta의 방법에서 윈도우 사이즈가 파라미터의 수가 많아짐에 따라 탐색하는 것이 왜 불가능해질까?
    • A : 윈도우의 각각의 요소에 대해 파라미터가 적용되어 파라미터가 많아진다면, 탐색이 힘들 것 같다.
  • Q : Adadelta에서 exponentially moving average가 어떻게 윈도우 사이즈의 역할을 할 수 있을까? (윈도우 사이즈는 단순합이고 exp ma는 각 시점에서 가중치가 주어져서, 오래된 시점에 대해서는 조금의 정보만 얻는 것인데)
    • A : 윈도우 사이즈는 오래된 시점을 제외하고 계산하게 되는데, 이것이 exp ma에서 오래된 시점일수록 값이 매우 작아져 무시하는 효과와 같은 것이 아닐까?
  • Q : Adadelta의 방법에서 Ht의 정체는 무엇일까?
반응형