본문 바로가기
Review

[도서 리뷰] 머신러닝 실무 프로젝트

by newnu 2022. 4. 22.
반응형

Machine Learning at Work

머신러닝 실무 프로젝트

실전에 필요한 MLOps, 머신러닝 모델 검증, 슬롯머신 알고리즘, 온라인 광고에서의 머신러닝

 

아리가 미치아키, 나카야마 신타, 니시바야시 다카시 지음

김모세 옮김


목차

 

PART1 머신러닝 실무 노하우

 

CHAPTER 1 머신러닝 프로젝트 처음 시작하기

1.1 머신러닝은 어떻게 사용되는가

1.2 머신러닝 프로젝트 과정

1.3 운용 시스템에서의 머신러닝 문제점 대처 방법

1.4 머신러닝 시스템을 성공적으로 운영하기 위한 조건

1.5 정리

 

CHAPTER 2 머신러닝으로 할 수 있는 일

2.1 머신러닝 알고리즘 선택 방법

2.2 분류

2.3 회귀

2.4 클러스터링과 차원 축소

2.5 기타

2.6 정리

 

CHAPTER 3 학습 결과 평가하기

3.1 분류 평가

3.2 회귀 평가

3.3 머신러닝을 통합한 시스템의 A/B 테스트

3.4 정리

 

CHAPTER 4 기존 시스템에 머신러닝 통합하기

4.1 기존 시스템에 머신러닝을 통합하는 과정

4.2 시스템 설계

4.3 훈련 데이터를 얻기 위한 로그 설계

4.4 정리

 

CHAPTER 5 학습 리소스 수집하기

5.1 학습 리소스 수집 방법

5.2 공개된 데이터셋이나 모델 활용

5.3 개발자가 직접 훈련 데이터 작성

5.4 동료나 지인에게 데이터 입력 요청

5.5 크라우드소싱 활용 

5.6 서비스에 통합해서 사용자가 입력

5.7 정리

 

CHAPTER 6 지속적인 머신러닝 활용을 위한 기반 구축하기

6.1 머신러닝 시스템만의 독특한 어려움

6.2 지속적인 학습과 MLOps

6.3 머신러닝 인프라 구축 단계

6.4 지속적인 예측 결과 서빙

6.5 정리

 

CHAPTER 7 효과 검증: 머신러닝 기반 정책 성과 판단하기

7.1 효과 검증

7.2 인과 효과 추정

7.3 가설 검정 프레임

7.4 A/B 테스트 설계 및 수행

7.5 오프라인 검증

7.6 A/B 테스트를 수행할 수 없을 경우

7.7 정리

7.8 쉬어가기: 무조건 성공하는 A/B 테스트, A/B 테스트 모집단 조작

 

CHAPTER 8 머신러닝 모델 해석하기

8.1 구글 콜랩에 설치된 라이브러리 버전 업데이트

8.2 학습용 파일 업로드 및 확인

8.3 선형 회귀 계수를 이용한 원인 해석

8.4 로지스틱 회귀 계수로 원인 해석

8.5 회귀 계수 p값 구하기

8.6 결정 트리를 시각화해 원인 해석

8.7 랜덤 포레스트의 Feature Importance 시각화

8.8 SHAP을 활용한 기여도 시각화

8.9 SHAP을 활용한 직원 만족도 시각화

8.10 정리

 

 

PART2 머신러닝 실무 프로젝트

 

CHAPTER 9 킥스타터 분석하기: 머신러닝을 사용하지 않는 선택지

9.1 킥스타터 API 확인하기

9.2 킥스타터 크롤러 만들기

9.3 JSON 데이터를 CSV로 변환하기

9.4 엑셀로 데이터 살펴보기

9.5 피벗 테이블로 다양하게 파악하기

9.6 목표를 달성했지만 취소된 프로젝트 확인하기

9.7 국가별로 살펴보기

9.8 보고서 작성하기

9.9 이후 작업

9.10 정리

 

CHAPTER 10 업리프트 모델링을 이용한 마케팅 리소스 효율화

10.1 업리프트 모델링의 사분면

10.2 A/B 테스트 확장을 통한 업리프트 모델링

10.3 업리프트 모델링용 데이터셋 만들기

10.4 두 가지 예측 모델을 이용한 업리프트 모델링

10.5 AUUC로 업리프트 모델링 평가

10.6 실제 문제에 적용

10.7 업리프트 모델링을 서비스에 적용

10.8 정리

 

CHAPTER 11 슬롯머신 알고리즘을 활용한 강화 학습 입문

11.1 슬롯머신 알고리즘 용어 정리

11.2 확률분포에 관한 사고

11.3 사후 분포에 관한 사고

11.4 사후 분포의 신뢰 구간 상한을 이용한 구현 사례 

11.5 UCB1

11.6 확률적 슬롯머신 알고리즘

11.7 다양한 슬롯머신 알고리즘 비교

11.8 부트스트랩 알고리즘을 이용한 콘텍스트 기반 슬롯머신 구현

11.9 현실 과제

11.10 A/B 테스트, 업리프트 모델링, 슬롯머신 알고리즘의 관계

11.11 정리

 

CHAPTER 12 온라인 광고에서의 머신러닝

12.1 온라인 광고 비즈니스

12.2 문제 정식화

12.3 예측의 역할 및 구현

12.4 광고 송출 로그의 특징

12.5 머신러닝 예측 모델 운영 

12.6 정리

 

REVIEW

 

이 책은 PART 1. 머신러닝 실무 노하우, PART 2. 머신러닝 실무 프로젝트의 두 부분으로 나누어진다.

PART1. 머신러닝 실무 노하우에서는 비즈니스에서의 머신러닝 프로젝트 과정을 전체적으로 담고 있다.

이 책에서의 머신러닝 프로젝트 과정은 다음과 같다.

 

1. 비즈니스 문제를 머신러닝 문제로 정의
2. 논문을 중심으로 유시한 문제 조사
3. 머신러닝을 사용하지 않는 방법은 없는지 조사
4. 시스템 설계 고려
5. 특징량, 훈련 데이터와 로그를 설계
6. 실제 데이터 수집 및 전처리
7. 탐색적 데이터 분석과 알고리즘 선정
8. 학습 수행 및 파라미터 튜닝
9. 시스템 통합
10. 예측 정확도, 비즈니스 지표 모니터링

 

머신러닝 실무 프로젝트인만큼 머신러닝 학습 과정뿐만 아니라 학습 전후로 비즈니스에 활용하는 과정까지 담고 있다. 각 과정을 chap 1 ~ chap 8 까지 각각 하나의 챕터로 실무에 유용한 내용들을 담고 있다.  얇은 책 두께에 비해 각 과정에서 활용할 수 있는 알고리즘, 도구, 발생할 수 있는 문제 등 생각보다 자세하게 설명하고 있으며 추가적인 학습을 위한 링크, 책들도 다수 소개한다. 생각보다는 자세하게 각 개념에 대해 설명하고 있지만 수식 등 확실한 이해를 위해서는 추가적인 검색 및 학습이 필요하다.  제목을 보고 프로젝트에 초점을 맞춘 책으로 생각해서 이론적인 부분에 대해서는 기대를 안했지만, 생각과 달리 프로젝트 부분 보다는 프로젝트에 필요한 이론들을 설명하고 있는 부분의 비중이 더 커서 프로젝트 실습을 해보기 전 관련내용을 학습하고 정리할 수 있어 좋았다.

 

PART2. 머신러닝 실무 프로젝트 에서는

9장. 킥스타터 분석하기 : 머신러닝을 사용하지 않는 선택지

10장. 업리프트 모델링을 이용한 마케팅 리소스 효율화

11장. 슬롯머신 알고리즘을 활용한 강화 학습 입문

12장. 온라인 광고에서의 머신러닝

으로 4개의 실습 프로젝트를 학습해 볼 수 있다.

 

앞의 PART1에서 설명한 개념들을 바탕으로 프로젝트가 이루어져 있다. 프로젝트 관련 코드는 모두 깃헙에서 확인할 수 있다. 각 프로젝트의 목표, 어떤 점을 중점으로 설계해야하는지, 어떤 기능이 필요한지 명확하게 설명한다. 그동안 머신러닝을 학습하면서 비즈니스에 활용할 수 있는 전체적인 과정보다는 머신러닝 알고리즘 학습에만 초점을 맞춰서 학습했는데 이 책을 통해 실무에서의 프로젝트 과정을 경험해 볼 수 있어 좋았다. 

 

한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

 

반응형