책소개
텐서플로 코드로 입문하는 강화학습의 세계 알파고의 기반인 강화학습은 게임 AI나 자율주행 등 업계 활용성이 높아 인공지능의 미래로 단연 주목받고 있다. 이 책은 복잡한 이론을 두루뭉술하게 설명하는 대신, 예제 코드를 직접 돌려보며 강화학습 알고리즘을 익히게 도와준다. 기본적인 텐서플로 사용법은 알지만 강화학습은 처음인 개발자를 대상으로, 주요 강화학습 알고리즘이 어떤 원리이며 어떻게 구현할 수 있는지 알려준다. 오픈AI 짐의 카트-폴, 얼어붙은 강 같은 고전 문제부터 [둠] 같은 3D 게임까지 이르기까지 흥미로운 예제를 통해 Q 러닝, MDP, DQN, A3C 등 주요 강화학습 알고리즘을 알차게 배울 수 있다.
저자소개
딥러닝 및 인지과학 연구자. 오리건 대학교에서 심리학 석사 학위를 취득하고 현재는 인지뇌과학 박사 과정을 밟고 있다. 강화학습, 공간인지, 비주얼 콘셉트 개발, 지각 행동 교차 등에 관심이 많다.
목차
PART I 주요 알고리즘 및 구현CHAPTER 1 강화학습 소개CHAPTER 2 밴딧 문제 2.1 정책 경사2.2 멀티암드 밴딧의 구현CHAPTER 3 콘텍스트 밴딧3.1 콘텍스트 밴딧 구현CHAPTER 4 마르코프 결정 과정4.1 기본적인 정책 경사 에이전트 구현CHAPTER 5 Q 러닝5.1 테이블 환경에 대한 테이블식 접근법5.2 신경망을 통한 Q 러닝CHAPTER 6 딥 Q 네트워크6.1 개선 1: 합성곱 계층6.2 개선 2: 경험 리플레이6.3 개선 3: 별도의 타깃 네트워크6.4 DQN을 넘어서6.5 더블 DQN6.6 듀얼링 DQN6.7 모든 것을 조합하기6.8 개선된 딥 Q 네트워크 구현CHAPTER 7 부분관찰성과 순환 신경망7.1 부분관찰성 문제7.2 제한되고 변화하는 세계 이해하기7.3 순환 신경망7.4 텐서플로 구현을 위한 변경점7.5 제한된 그리드 세계7.6 DRQN 구현CHAPTER 8 비동기적 어드밴티지 액터-크리틱8.1 A3C의 세 가지 A8.2 A3C 구현8.3 [둠] 게임 플레이하기PART II 심화 주제CHAPTER 9 에이전트의 생각과 액션 시각화9.1 컨트롤 센터의 인터페이스9.2 에이전트의 머릿속 들여다보기9.3 강화학습 컨트롤 센터 이용CHAPTER 10 환경 모델 활용하기10.1 모델 기반의 강화학습 구현CHAPTER 11 탐험을 위한 액션 선택 전략11.1 탐험은 왜 하는 것인가요?11.2 그리디 접근법11.3 랜덤 접근법11.4 엡실론-그리디 접근법11.5 볼츠만 접근법11.6 베이지언 접근법(드롭아웃)11.7 각 전략의 성능 비교 및 구현11.8 고급 기법CHAPTER 12 정책 학습을 위한 정책 학습12.1 메타 에이전트 만들기12.2 메타 실험12.3 마치며