책소개
프로젝트로 배우는 심층 강화학습의 이론과 실제!이 책 『심층 강화학습 인 액션』은 환경이 제공하는 직접적인 피드백에 기반해서 환경에 적응하고 자신을 개선해 나가는 에이전트의 구현 방법을 설명한다. 흐름이 있는 하나의 강좌 형태로 구성된 이 책에서 여러분은 심층 강화학습의 기본 기법과 고급 기법을 미로 탈출이나 비디오 게임 플레이 같은 흥미로운 예제를 통해서 배우게 된다. 그 과정에서 심층 Q 신경망과 정책 기울기 방법을 포함한 여러 핵심 알고리즘을 익힐 수 있고, PyTorch와 OpenAI Gym 같은 업계 표준에 해당하는 라이브러리에도 익숙해질 것이다.
목차
PART I 기초 1CHAPTER 1 강화학습이란? 31.1 심층 강화학습에서 ‘심층’의 의미 41.2 강화학습 61.3 동적 계획법과 몬테카를로 방법 91.4 강화학습의 틀 121.5 강화학습으로 할 수 있는 일 161.6 왜 심층 강화학습인가? 181.7 이 책의 주요 설명 수단: 끈 그림 211.8 앞으로의 여정 22요약 24CHAPTER 2 강화학습 문제의 모형화: 마르코프 결정 과정 252.1 끈 그림과 이 책의 교육 방식 252.2 여러 팔 강도 문제의 해법 302.3 여러 팔 강도 문제를 광고 배치 최적화에 적용 412.4 PyTorch로 신경망 만들기 432.5 문맥적 강도 문제의 해법 472.6 마르코프 성질 522.7 향후 보상의 예측: 가치와 정책 함수 55요약 59CHAPTER 3 가장 나은 동작의 선택: 심층 Q 신경망(DQN) 613.1 Q 함수 623.2 Q 학습 개요 643.3 파국적 망각 방지: 경험 재현 853.4 목표망을 이용한 안정성 개선 923.5 정리 99요약 102CHAPTER 4 정책 기울기 방법 1034.1 신경망을 이용한 정책 함수 구현 1044.2 좋은 동작의 강화: 정책 기울기 알고리즘 1084.3 OpenAI Gym 다루기 1144.4 REINFORCE 알고리즘 117요약 125CHAPTER 5 좀 더 어려운 문제 풀기: 행위자-비평자 모형 1275.1 가치 함수와 정책 함수의 결합 1295.2 분산 훈련 1355.3 이익 행위자-비평자 1415.4 N-단계 행위자-비평자 151요약 157PART I I 더 높은 곳을 향하여 159CHAPTER 6 또 다른 최적화 방법: 진화 알고리즘 1616.1 강화학습의 또 다른 접근 방식 1626.2 진화를 이용한 강화학습 1636.3 CartPole을 위한 유전 알고리즘 1726.4 진화 알고리즘의 장단점 1806.5 규모가변적 대안으로서의 진화 알고리즘 1826.5.6 기울기 기반 접근 방식의 규모 확장 189요약 189CHAPTER 7 모든 가능성의 탐색: 분포 심층 Q 신경망 1917.1 기댓값 Q 학습의 문제점 1927.2 다시 살펴보는 확률과 통계 1977.3 벨먼 방정식 2047.4 분포 Q 학습 2067.5 확률분포의 비교 2197.6 가상의 데이터에 대한 분포 DQN 2257.7 분포 DQN을 이용한 아타리 프리웨이 학습 231요약 237CHAPTER 8 호기심 주도 탐험 2398.1 예측 부호화를 이용한 희소 보상 문제 해결 2418.2 역방향 동역학 예측 2448.3 슈퍼 마리오브라더스 환경 설정 2478.4 Q 신경망 전처리 2508.5 Q 신경망과 정책 함수 설정 2538.6 ICM(내재적 호기심 모듈) 2578.7 그 밖의 내재적 보상 메커니즘들 271요약 274CHAPTER 9 다중 에이전트 강화학습 2779.1 단일 에이전트에서 다중 에이전트로 2789.2 이웃 Q 학습 2829.3 1차원 이징 모형 2869.4 평균장 Q 학습과 2차원 이징 모형 2989.5 혼합 협조-경쟁 게임 309요약 323CHAPTER 10 해석 가능한 강화학습: 주의 모형과 관계 모형 32510.1 주의와 관계 편향을 이용한 기계학습 해석성 개선 32610.2 주의 메커니즘을 이용한 관계 추론 33010.3 MNIST 이미지 분류를 위한 자가 주의 모형 구현 34210.4 다중 헤드 주의 모형과 관계 DQN 35610.5 이중 Q 학습 36510.6 훈련과 주의 시각화 367요약 376CHAPTER 11 결론: 돌아보기와 내다보기 37911.1 핵심 정리 38011.2 심층 강화학습 분야의 미개척 주제들 38211.3 마치며 386APPENDIX A 수학, 심층학습, PyTorch 387A.1 선형대수 388A.2 미적분 390A.3 심층학습 396A.4 PyTorch 397참고문헌 402찾아보기 406