이 책은 딥러닝이나 강화학습 예제를 코딩하면서 그 배경 알고리즘의 유도 과정을 궁금해하는 사람을 위한 책이다. 술술 읽히는 책은 아니지만, 그렇다고 심하게 어려운 책도 아니다. 수학의 선수 지식으로 대학 2학년 때 배우는 공업수학을 이수한 정도면 충분하고, 딥러닝의 선수 지식으로는 텐서플로 또는 파이토치를 사용하여 MNIST와 같은 간단한 딥러닝 예제를 따라해 본 정도면 충분하다.
이 책은 강화학습뿐만 아니라 다른 머신러닝과 딥러닝의 기초가 되는 확률이론과 추정론에 대한 기본적인 이해를 바탕으로 강화학습의 여러 알고리즘을 처음부터 끝까지 생략하지 않고 수식으로 유도했다.
강화학습이 추구하는 기본 목표로부터 A2C, A3C, PPO, DDPG, SAC 및 모델 기반 강화학습 등 강화학습의 알고리즘이 무엇이고 어떤 목적으로 개발됐는지, 어떻게 수학적으로 유도했는지, 그리고 어떻게 코드로 구현해 적용했는지를 구체적으로 설명한다.
★ 이 책에서 다루는 내용 ★
- 강화학습을 이해하기 위한 기본 수학: 확률론, 추정론, 최적화, 벡터/행렬의 미분
- 강화학습 알고리즘: A2C, A3C, PPO, DDPG, SAC
- 최적제어 알고리즘: 반복적 LQR, 가우시안 LQR
- 로컬 모델 기반 강화학습: GMM, 모델 피팅 방법, LQR을 이용한 강화학습
작가 소개
박성수
서울대학교 항공우주공학과에서 학사, 동 대학교 대학원에서 석사, 그리고 국비유학으로 미국 UC Berkeley에서 박사학위를 받았다. 유학가기 전에 국방과학연구소에서 연구원으로 일했으며, 박사후에는 UC Berkeley ITS 연구소에서 포스트닥 연구원으로 일했다. 현재 세종대학교 항공우주공학과 교수이며, 유도항법제어 및 AI for Dynamics and Control 분야를 연구하고 있다.
개인 블로그: https://pasus.tistory.com/
리뷰
0.0
구매자 별점
0명 평가
이 작품을 평가해 주세요!
건전한 리뷰 정착 및 양질의 리뷰를 위해 아래 해당하는 리뷰는 비공개 조치될 수 있음을 안내드립니다.
타인에게 불쾌감을 주는 욕설
비속어나 타인을 비방하는 내용
특정 종교, 민족, 계층을 비방하는 내용
해당 작품의 줄거리나 리디 서비스 이용과 관련이 없는 내용
의미를 알 수 없는 내용
광고 및 반복적인 글을 게시하여 서비스 품질을 떨어트리는 내용
저작권상 문제의 소지가 있는 내용
다른 리뷰에 대한 반박이나 논쟁을 유발하는 내용
* 결말을 예상할 수 있는 리뷰는 자제하여 주시기 바랍니다.
이 외에도 건전한 리뷰 문화 형성을 위한 운영 목적과 취지에 맞지 않는 내용은 담당자에 의해 리뷰가 비공개 처리가 될 수 있습니다.
아직 등록된 리뷰가 없습니다. 첫 번째 리뷰를 남겨주세요!
'구매자' 표시는 유료 작품 결제 후 다운로드하거나 리디셀렉트 작품을 다운로드 한 경우에만 표시됩니다.
무료 작품 (프로모션 등으로 무료로 전환된 작품 포함)
'구매자'로 표시되지 않습니다.
시리즈 내 무료 작품
'구매자'로 표시되지 않습니다. 하지만 같은 시리즈의 유료 작품을 결제한 뒤 리뷰를 수정하거나 재등록하면 '구매자'로 표시됩니다.