반응형
1. 강의 내용
1) DL Basic
3. Optimization
- Generalization
- 학습 데이터와 훈련 데이터의 gap
- 만약 학습 데이터가 안 좋으면 훈련데이터가 좋아도 모델이 좋은 성능이라고 할 수 없다 (학습데이터와 훈련 데이터의 차이이기 떄문에)
- Under fitting vs. Over fitting
- Cross validation
- K-Fold 검증 : 데이터를 k개로 나눠서 k-1개의 훈련데이터, 1개의 test 데이터
- Bias Variance tradeoff
- Bias : target에 얼마나 가까운지
- Varience : 얼마나 일관적인지
- Bias 와 Varience 가 모두 낮아야 좋은데 하나가 낮으면 하나는 높아짐
- Bootstrapping
- random sampling
- Bagging and boosting
- Bagging (Bootstrapping aggregating)
- 모델 여러개 독립적
- Boosting
- 여러 개의 모델이 나중에 하나의 strong 모델로 이어짐
- 이전 모델이 다음 모델에 영향
- Gradient Descent Methods
- stochastic gradient descent
- Momentum
- 한번 향하기 시작한 방향의 gradient 유지
- Nesterov accerlerated gradient
- Adagrad
- Adadelta
- RMSprop
- Adam
- Regularization
- Early Stopping
- Parameter norm penalty
- Data Augmentation
- 데이터 조금씩 변형하여 증가
- Mnist와 같은 경우 라벨이 아예 달라질 수 있음
- Noise robustness
- add random noise inputs, weights
- Label Smoothing
- Mix-up
- 2개의 데이터를 섞어 decision boundary 찾기
- CutMix
- 두 데이터를 cut & paste
- Dropout
- randomly set some neurons to zero
- 각각의 neuron들이 robust 해진다
- Batch normalization
2. Peer Session
- AI Boost camp
- DL Basic 3강, Data Viz 2-1 ~ 2-3강
- DL Basic 3강 Gradient Descent Method 논의
- 알고리즘 스터디
- Q & A
- DFS 문제 구현에서 stack과 재귀사용법. BFS와 비교
- Q : Adagrad의 방법에서 Gt는 어떻게 구할 수 있을까? A : 각각의 parameter들의 합을 벡터나 행렬의 꼴로 저장?
- Q : Adagrad의 방법에서 G에 현재 갱신된 가중치 gt의 값의 제곱도 더해져 계산될 까?
- A : 밑의 Adadelta의 식을 보아 현재 gt의 값도 더해져 계산되는 것 같다.
- Q : Adagrad의 방법에서 gt 값에 관계없이 1보다 작은 값이 곱해지니까 과정이 진행될수록 기존의 gt보다는 작아질 것 같은데, 작게 변화한 파라미터는 빠르게 변화하도록 한다는 의미는 어떻게 이해하면 될까?
- A : 빠르게 변화한다는 것이 각각의 가중치끼리 비교한 상대적인 빠르기가 아닐까? 혹은, 같은 과정에서 본다면 값이 크게 변화했을 때 보다, 적게 변했을 때 빠르다는 의미 인가?
- Q : Adadelta의 방법에서 윈도우 사이즈가 파라미터의 수가 많아짐에 따라 탐색하는 것이 왜 불가능해질까?
- A : 윈도우의 각각의 요소에 대해 파라미터가 적용되어 파라미터가 많아진다면, 탐색이 힘들 것 같다.
- Q : Adadelta에서 exponentially moving average가 어떻게 윈도우 사이즈의 역할을 할 수 있을까? (윈도우 사이즈는 단순합이고 exp ma는 각 시점에서 가중치가 주어져서, 오래된 시점에 대해서는 조금의 정보만 얻는 것인데)
- A : 윈도우 사이즈는 오래된 시점을 제외하고 계산하게 되는데, 이것이 exp ma에서 오래된 시점일수록 값이 매우 작아져 무시하는 효과와 같은 것이 아닐까?
- Q : Adadelta의 방법에서 Ht의 정체는 무엇일까?
반응형
'Boostcamp AI Tech > [week 1-5] LEVEL 1' 카테고리의 다른 글
[Week 3 - Day 4] DL Basic - RNN, Transformer (0) | 2021.08.12 |
---|---|
[Week 2 - Day 3] DL Basic - CNN (0) | 2021.08.11 |
[Week 2 - Day1] Deep Learning Basic (0) | 2021.08.09 |
[Week 1 - Day 5] AI Math 5-10 확률론, 통계학, CNN, RNN (0) | 2021.08.06 |
[Week 1 - Day 4] AI Math 1-4 벡터, 행렬, 경사하강법 (0) | 2021.08.05 |