본문 바로가기

리디 접속이 원활하지 않습니다.
강제 새로 고침(Ctrl + F5)이나 브라우저 캐시 삭제를 진행해주세요.
계속해서 문제가 발생한다면 리디 접속 테스트를 통해 원인을 파악하고 대응 방법을 안내드리겠습니다.
테스트 페이지로 이동하기

강화학습 기본 완성과 PyTorch 상세페이지

강화학습 기본 완성과 PyTorch

  • 관심 0
소장
종이책 정가
23,000원
전자책 정가
23,000원
판매가
23,000원
출간 정보
  • 2026.02.12 전자책 출간
  • 2026.01.21 종이책 출간
듣기 기능
TTS(듣기) 지원
파일 정보
  • PDF
  • 255 쪽
  • 14.8MB
지원 환경
  • PC뷰어
  • PAPER
ISBN
9791158088163
UCI
-
강화학습 기본 완성과 PyTorch

작품 정보

강화학습 알고리즘을 코드 구현 중심으로 설명하고 실제 학습 가능한 코드를 제공하는 서적은 드물다. 이러한 어려움을 해소하고자 2023년에 첫 번째 책 『강화학습 기본과 PyTorch』를 출간하였고, 이어 2024년에는 두 번째 책 『강화학습 기본 다지기와 PyTorch』를 출판했다. 그리고 이번에는 세 번째 책 『강화학습 기본 완성과 PyTorch』를 독자 여러분께 선보이게 되었다.
첫 번째 책에서는 환경과 에이전트의 예제를 시작으로 Bellman 방정식을 소개하고, 전통적인 가치 기반(value-based) 강화학습인 DQN(Deep Q Network), Double DQN, Dueling DQN, PER(Prioritized Experience Replay) 등을 다루었다. 두 번째 책에서는 N-step DQN, NoisyNet, Categorical DQN(C51), QRDQN(Quantile Regression DQN), IQN(Implicit Quantile Network), FQF(Fully parameterized Quantile Function), Rainbow와 같은 다양한 알고리즘을 소개하며, 가치 기반 강화학습의 폭넓은 기법들을 설명하였다.
세 번째 책인 이번 시리즈에서는 정책 기반(policy based) 강화학습을 본격적으로 다룬다. REINFORCE-MCPG(Monte Carlo Policy Gradient), REINFORCE- Baseline, A2C(Advantage Actor Critic), A3C(Asynchronous Advantage Actor Critic), DDPG(Deep Deterministic Policy Gradient), TD3(Twin Delayed Deep Deterministic Policy Gradient), TRPO(Trust Region Policy Optimization), PPO(Proximal Policy Optimization), SAC(Soft Actor Critic) 알고리즘을 깊이 있게 다루고 있다.
이 책은 다음의 세 가지 원칙을 바탕으로 작성되었다.
1. 구현된 코드가 실제로 학습 가능해야 한다.
2. 알고리즘 설명은 코드 구현을 중심으로 한다.
3. 이해를 돕기 이해 가능한 한 그림을 적극적으로 활용한다.
알고리즘이 구현된 코드로 학습이 되지 않으면, 그 알고리즘은 실질적으로 사용할 수 없으므로 첫 번째 원칙이 필요하다. 또한, 알고리즘의 이해는 코드 구현으로 완성되므로, 두 번째 원칙에 따라 코드 구현을 중심에 두고 알고리즘을 설명하였다. 마지막으로, 다양한 그림을 사용하여 독자가 알고리즘을 직관적으로 이해할 수 있도록 했다.
이 책에서 다루는 내용은 아래 분류 그림과 같이 점선에 있는 알고리즘으로 Model-Free RL의 Policy Optimization과 Q-Learning에 속한다.
위 그림에서 보듯이 점선이 있는 마지막 일곱 개의 강화학습 기법은 모두 정책 신경망을 포함하고 있으므로 Policy Optimization에 속한다. 그리고 REINFORCE(-MCPG, -Baseline), A2C/A3C, TRPO, PPO에는 행동-가치 신경망이 없으므로 Q-Learning이 아니지만, DDPG, TD3, SAC에는 행동-가치 신경망도 있으므로 Q-Learning으로 분류했다. 참고로 REINFORCE-Baseline, A2C/A3C, TRPO, PPO에는 상태-가치 신경망이 있으므로 V-Learning 범주에 속한다고 볼 수 있다.
이 책에서 다루는 알고리즘의 수식은 각 장의 부록에 정리하였다. 특히, TRPO와 SAC에는 수식이 자주 등장하므로 아래와 같은 과정으로 기술되었다고 생각하면 도움이 된다.
이론(Theory) ⇒ 이론의 근사화(Approximation of Theory) ⇒ 코딩(Coding)
여기서 이론(Theory) 단계에서는 코딩과 무관하게 진행되어 최종적인 수식을 도출한다. 이후 이 수식을 실제 코드로 옮길 수 있도록 단순화·근사화하여 근사 수식(Approximation of Theory)을 얻는다. 마지막으로 이 근사 수식을 바탕으로 알고리즘을 코딩(Coding)한다. 비록 근사 수식을 사용하지만, 실행 결과는 원래 이론에서 기대하는 내용과 잘 부합함을 확인할 수 있다. 참고로, 이 책의 코드는 Colab에서 실행했고 주요 패키지와 버전은 다음과 같다: matplotlib(3.10.0), moviepy(1.0.3), numpy(2.0.2), Pillow(11.3.0), torch(22.8.0+cu126), gym(0.25.2), gymnasium(1.2.0)
출간 후 나올 수 있는 수정사항이나 참고자료 등은 자유아카데미 홈페이지 자료실(www.freeaca.com)을 통해 게시할 것이니 참고하기를 바란다. 이번 책은 『강화학습 시리즈 1(2023년)』과 『강화학습 시리즈 2(2024년)』에 이어지는 세 번째 책(시리즈 3)으로, 정책 기반(policy-based)의 강화학습을 집중적으로 다루고 있다. 이에 본서를 끝으로 Model-Free RL에 대한 소개를 마무리하고자 한다.

작가

추상목
작가 프로필 수정 요청
작가의 대표 작품더보기
  • 강화학습 기본 완성과 PyTorch (추상목)
  • 강화학습 기본 다지기와 PyTorch (추상목)
  • 강화학습 기본과 PyTorch (추상목)

리뷰

0.0

구매자 별점
0명 평가

이 작품을 평가해 주세요!

건전한 리뷰 정착 및 양질의 리뷰를 위해 아래 해당하는 리뷰는 비공개 조치될 수 있음을 안내드립니다.
  1. 타인에게 불쾌감을 주는 욕설
  2. 비속어나 타인을 비방하는 내용
  3. 특정 종교, 민족, 계층을 비방하는 내용
  4. 해당 작품의 줄거리나 리디 서비스 이용과 관련이 없는 내용
  5. 의미를 알 수 없는 내용
  6. 광고 및 반복적인 글을 게시하여 서비스 품질을 떨어트리는 내용
  7. 저작권상 문제의 소지가 있는 내용
  8. 다른 리뷰에 대한 반박이나 논쟁을 유발하는 내용
* 결말을 예상할 수 있는 리뷰는 자제하여 주시기 바랍니다.
이 외에도 건전한 리뷰 문화 형성을 위한 운영 목적과 취지에 맞지 않는 내용은 담당자에 의해 리뷰가 비공개 처리가 될 수 있습니다.
아직 등록된 리뷰가 없습니다.
첫 번째 리뷰를 남겨주세요!
'구매자' 표시는 유료 작품 결제 후 다운로드하거나 리디셀렉트 작품을 다운로드 한 경우에만 표시됩니다.
무료 작품 (프로모션 등으로 무료로 전환된 작품 포함)
'구매자'로 표시되지 않습니다.
시리즈 내 무료 작품
'구매자'로 표시되지 않습니다. 하지만 같은 시리즈의 유료 작품을 결제한 뒤 리뷰를 수정하거나 재등록하면 '구매자'로 표시됩니다.
영구 삭제
작품을 영구 삭제해도 '구매자' 표시는 남아있습니다.
결제 취소
'구매자' 표시가 자동으로 사라집니다.

강화학습 시리즈더보기

  • 강화학습 기본과 PyTorch (추상목)
  • 강화학습 기본 다지기와 PyTorch (추상목)

교재/수험서 베스트더보기

  • 2026 시대에듀 빅데이터분석기사 필기 한권으로 끝내기 (정혜정, 장희선)
  • 법학적성시험 문제 해설: LEET 언어이해 Ⅱ (2021-2016학년도) (법학전문대학원협의회)
  • 2026 변민재 교육학 핵인싸 핵심 INSIDE+별책 (변민재)
  • 서강한국어 Student's Book 1A (영어판) 3rd edition (서강대학교 한국어교육원)
  • 한양 한국어 1-1 (한양대학교 국제교육원)
  • 개정판 | 네트워크 해킹과 보안 (양대일, 홍성혁)
  • 2026 시나공 정보처리 기사 필기 기본서 (길벗 R&D)
  • 2026 시대에듀 화재감식평가기사·산업기사 실기 필답형 (문옥섭, 박정주)
  • 2026 시대에듀 임상심리사 2급 2차 실기합격 단기완성 한권으로 끝내기 (이용석)
  • 2026 시대에듀 경찰공무원(순경) 공채 대비 전과목 FINAL 모의고사 (시대경찰시험연구소)
  • 2026 시대에듀 직업상담사 2급 2차 실기 직업상담실무 이론서 (직업상담연구소)
  • 2026 최신판 시대에듀 한국공항공사 통합기본서 (SDC)
  • 2026 박문각 공무원 진가영 영어 진족보 마무리 합격노트 (진가영)
  • 2026 최신간 기분좋은 KFI 한국식품정보원이 집필한 식품안전기사 필기 요약이론+기출문제+ 파이널 (#요기파) (한국식품정보원, 박현수)
  • 2026 시대에듀 유선배 SQL개발자(SQLD) 합격노트 (정미나)
  • 워드 시프트 (최정숙)
  • 디지털증거법 (이관희)
  • 해커스 한국사능력검정시험 심화(1·2·3급) 시대별 기출문제집 (해커스 한국사연구소)
  • 보이는 통계학 with 파이썬 (손원)
  • 2026 시대에듀 검색광고마케터 1급 7일 단기완성 (시대마케팅연구소)

본문 끝 최상단으로 돌아가기

spinner
앱으로 연결해서 다운로드하시겠습니까?
닫기 버튼
대여한 작품은 다운로드 시점부터 대여가 시작됩니다.
앱으로 연결해서 보시겠습니까?
닫기 버튼
앱이 설치되어 있지 않으면 앱 다운로드로 자동 연결됩니다.
모바일 버전