본문 바로가기
Boostcamp AI Tech/[week 1-5] LEVEL 1

[Week 1 - Day 5] AI Math 5-10 확률론, 통계학, CNN, RNN

by newnu 2021. 8. 6.
반응형

1. 강의 내용

5. 딥러닝 학습방법 이해하기

신경망 ( 비선형모델 )

 

소프트맥스 함수

 - 모델의 출력을 확률로 해석할 수 있게 변환해주는 연산

 - 분류 문제를 풀 때 선형모델과 소프트맥스 함수를 결합하여 예측

 

신경망은 선형모델과 활성함수를 합성한 함수

 

활성함수 

 - 실수값의 입력을 받아서 실수값으로 출력 (비선형 함수)

 - 시그모이드

 - tanh

 - ReLU : 딥러닝에서 많이 쓰임

 

MLP ( multi layer perceptron) : 신경망이 여러층 합성된 함수

 

층이 깊을수록 목적함수를 근사하는데 필요한 뉴런의 숫자가 훨씬 빨리 줄어들어 효율적으로 학습 가능

 

역전파 알고리즘

 - 각 층 파라미터의 그레디언트 벡터는 윗층부터 역순으로 계산

 - 역전파 알고리즘은 합성함수 미분법인 연쇄법칙 기반 자동 미분 사용

 

6. 확률론 맛보기

 

회귀 분석에서 손실함수로 사용되는 L2 노름은 예측오차의 분산을 가장 최소화하는 방향으로 학습 유도

분류 문제에서 사용되는 교차 엔트로피는 모델 예측의 불확실성을 최소화하는 방향으로 학습 유도

 

분산 및 불확실성을 최소화하기 위해서는 측정하는 방법을 알아야함

 

이산확률변수는 확률변수가 가질 수 있는 경우의 수를 모두 고려하여 확률을 더해서 모델링

연속 확률변수는 데이터 공간에 정의된 확률변수의 밀도 위에서의 적분을 통해 모델링

  - 밀도는 누적확률분포의 변화율을 모델링하며 확률로 해석하면 안됨

 

기대값 : 데이터를 대표하는 통계량, 확률분포를 통해 다른 통계적 범함수 계산하는데 사용

 

몬테카를로 샘플링

 - 확률분포를 모를 때 데이터를 이용하여 기대값 계산

 - 이산형, 연속형 모두 가능

 - 독립추출만 보장된다면 대수의 법칙에 의해 수렴성 보장

 

7. 통계학 맛보기

 

통계적 모델링은 적절한 가정 위에서 확률분포를 추정하는 것이 목표

모수적 방법론 : 데이터가 특정 확률분포를 따른다고 선험적으로 가정한 후 그 분포를 결정하는 모수를 측정하는 방법

비모수적 방법론 : 특정 확률분포를 가정하지 않고 데이터에 따라 모델의 구조 및 모수의 개수가 유연하게 바뀜

 

데이터를 생성하는 원리를 먼저 고려

 

최대가능도 추정법 (MLE)

가장 가능성이 높은 모수 추정 방법 중 하나

주어진 데이터에서 함수를 최적화하는 세타값 찾기

 

8. 베이즈 통계학 

베이즈 정리를 통해 새로운 데이터가 들어왔을 때 앞서 계산한 사후확률을 사전확률로 사용하여 갱신된 사후확률 계산 가능

 

조건부 확률은 유용한 통계적 해석을 제공하지만 인과관계 X

인과관계를 알아내기 위해서는 중첩요인의 효과를 제거하고 원인에 해당하는 변수만의 인과관계를 계산

 

9. CNN 첫걸음

Convolution 연산은 커널을 입력벡터 상에서 움직여 가면서 선형모델과 합성함수가 적용되는 구조

수학적인 의미는 신호를 커널을 이용해 국소적으로 증폭 또는 감소시켜서 정보를 추출 또는 필터링하는 것

 

convolution 연산의 역전파

convolution 연산은 커널이 모든 입력데이터에 공통으로 적용되기 때문에 역전파를 계산할 때도 convolution 연산이 나옴

 

10. RNN 첫걸음

 

시퀀스 데이터 :  소리, 문자열, 주가 등 순차적으로 들어오는 데이터

시퀀스 데이터는 독립동등분포 가정을 잘 위배하기 때문에 순서를 바꾸거나 과거 정보에 손실이 발생하면 데이터의 확률분포도 바뀜

 

이전의 시퀀스의 정보를 가지고 앞으로 발생할 데이터의 확률분포를 다룸

 -> 조건부 확률 , 베이즈 법칙 활용

 

길이가 가변적인 데이터를 다룰 수 있는 모델 필요

자기회귀모델(Autogressive Model) : 고정된 길이만큼의 시퀀스만 사용하는 경우 

잠재 AR 모델 : 이전 정보를 제외한 나머지 정보들을 Ht라는 잠재변수로 인코딩해서 활용

  -> RNN : 잠재변수 Ht를 신경망을 통해 반복해서 사용하여 시퀀스데이터의 패턴을 학습하는 모델

 

BPTT (Backpropagation Through Time) : RNN의 역전파 방법

 - 시퀀스의 길이가 길어지는 경우 역전파 알고리즘의 계산이 불안정 

 -> truncated BPTT : 특정 시점에서 끊기

 

-->LSTM, GRU 사용

2. Peer Session

선택과제 2번 Backpropagation 토의

백준 1138번 토의

3. 과제

5번 Morse Code

 - 정규표현식으로 구현 

is validated english sentence 함수 구현할 때 특수문자가 제대로  제거가 안되어서 모스부호까지 english sentence에 포함되었다.

-> main 함수에서 다시한번 모스부호 확인해줘서 에러가 나지 않았다.

 

특수문자 제거하는 정규표현식 코드

 

 

4. 학습 회고

 - 파이썬, 넘파이 판다스 부분은 새로운 내용은 많이 없었지만 기억나지 않았던 함수들이나 자주 쓰지 않았던 정규표현식 등 부족한 부분 확인할 수 있었다. 특히 정규표현식 부분은 나올 때마다 검색 없이는 잘 해결하지 못했었는데 정리한 내용 계속 반복해서 학습하기

 - AI Math 부분은 생략된 부분이 많아서 따로 더 찾아서 공부 필요

반응형