본문 바로가기
Review

[도서 리뷰] 그로킹 심층 강화학습

by newnu 2022. 8. 28.
반응형

 

 

그로킹 심층 강화학습

미겔 모랄레스 지음

강찬석 옮김

 


목차

 

CHAPTER 1 심층 강화학습의 기초

1.1 심층 강화학습이란 무엇인가?

1.2 심층 강화학습의 과거와 현재 그리고 미래

1.3 심층 강화학습의 적절성

1.4 두 가지의 명확한 기대치 설정

1.5 요약

 

CHAPTER 2 강화학습의 수학적 기초

2.1 강화학습의 구성 요소

2.2 MDP: 환경의 엔진

2.3 요약

 

CHAPTER 3 순간 목표와 장기 목표 간의 균형

3.1 의사결정을 내리는 에이전트의 목적

3.2 이상적인 행동들에 대한 계획

3.3 요약

 

CHAPTER 4 정보의 수집과 사용 간의 균형

4.1 평가가능한 피드백 해석의 어려움

4.2 전략적인 탐색

4.3 요약

 

CHAPTER 5 에이전트의 행동 평가

5.1 정책들의 가치를 추정하는 학습

5.2 여러 단계를 통해서 추정하는 학습

5.3 요약

 

CHAPTER 6 에이전트의 행동 개선

6.1 강화학습 에이전트의 구조

6.2 행동에 대한 정책을 개선하기 위한 학습

6.3 학습에서 행동을 분리하기

6.4 요약

 

CHAPTER 7 조금 더 효율적인 방법으로 목표에 도달하기

7.1 강건한 목표를 활용한 정책 개선 학습

7.2 상호작용, 학습 그리고 계획하는 에이전트

7.3 요약

 

CHAPTER 8 가치 기반 심층 강화학습 개요

8.1 심층 강화학습 에이전트가 사용하는 피드백의 유형

8.2 강화학습을 위한 함수 근사화

8.3 NFQ: 가치 기반 심층 강화학습을 위한 첫 번째 시도

8.4 요약

 

CHAPTER 9 조금 더 안정적인 가치 기반 학습 방법들

9.1 DQN: 강화학습을 지도학습처럼 만들기

9.2 이중 DQN: 행동-가치 함수에 대한 과도추정 극복

9.3 요약

 

CHAPTER 10 샘플 효율적인 가치 기반 학습 방법들

10.1 듀얼링 DDQN: 강화학습에 초점을 맞춘 신경망 구조

10.2 PER: 유의미한 경험 재현에 대한 우선순위 부여

10.3 요약

 

CHAPTER 11 정책-경사법과 액터-크리틱 학습법

11.1 REINFORCE: 결과기반 정책 학습

11.2 VPG: 가치함수 학습하기

11.3 A3C: 병렬적 정책 갱신

11.4 GAE: 강력한 이점 추정

11.5 A2C: 동기화된 정책 갱신

11.6 요약

 

CHAPTER 12 발전된 액터-크리틱 학습법

12.1 DDPG: 결정적 정책에 대한 근사화

12.2 TD3: DDPG를 넘어선 성능을 보이는 개선점들

12.3 SAC: 기대 반환값과 엔트로피를 최대화하기

12.4 PPO: 최적화 과정을 제한하기

12.5 요약

 

CHAPTER 13 범용 인공지능을 향한 길

13.1 다룬 내용과 다루지 못한 내용

13.2 범용 인공지능에 대한 조금 더 발전된 개념들

13.3 이후의 내용들

13.4 요약

 

부록 A 구글 콜랩에서의 실습 환경


REVIEW

 

머신러닝을 공부하면서 지도학습, 비지도학습은  접할 기회가 많았지만 강화학습 부분은 접할 기회가 많지 않았는데 이 책을 통해서 학습해볼 수 있었다. 이 책에서는 강화학습 중에서도 신경망을 활용하는 심층 강화학습을 다루고 있다. 처음 접하는 내용인데도 이해할 수 있도록 자세한 설명을 담고 있고, 첫 장에서 전체적인 강화학습 과정의 소개 후 2장부터 수학적 기초, 각 단계별 설명을 하고 있다. 많은 챕터 수만큼 많은 내용을 담고 있어 강화학습을 처음 접하고, 이해하는데 좋을 것 같다. 또 이 책의 장점 중 하나는 그림과 수식, 코드 부분을 잘 활용하여 이해를 도울뿐만 아니라, 각 내용을 이해하기 쉽도록 그림, 수식, 코드에서의 과정마다 작은 글씨로 친절한 부연 설명이 되어있다는 점이다. 인공지능, 머신러닝에 대한 지식을 어느정도 가지고 있는 강화학습을 처음 학습하려는 독자들에게 추천한다.

 

 

  한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

반응형