Name: 강화학습 기본 완성과 PyTorch
Price: 23000 KRW
Availability: OnlineOnly
Author: 추상목

강화학습 기본 완성과 PyTorch 상세페이지

출간 정보

2026.02.12 전자책 출간
2026.01.21 종이책 출간

듣기 기능

TTS(듣기) 미지원

파일 정보

PDF
255 쪽
14.8MB

지원 환경

앱
웹
PC뷰어
PAPER

ISBN

9791158088163

UCI

강화학습 기본 완성과 PyTorch

작품 정보

강화학습 알고리즘을 코드 구현 중심으로 설명하고 실제 학습 가능한 코드를 제공하는 서적은 드물다. 이러한 어려움을 해소하고자 2023년에 첫 번째 책 『강화학습 기본과 PyTorch』를 출간하였고, 이어 2024년에는 두 번째 책 『강화학습 기본 다지기와 PyTorch』를 출판했다. 그리고 이번에는 세 번째 책 『강화학습 기본 완성과 PyTorch』를 독자 여러분께 선보이게 되었다.
첫 번째 책에서는 환경과 에이전트의 예제를 시작으로 Bellman 방정식을 소개하고, 전통적인 가치 기반(value-based) 강화학습인 DQN(Deep Q Network), Double DQN, Dueling DQN, PER(Prioritized Experience Replay) 등을 다루었다. 두 번째 책에서는 N-step DQN, NoisyNet, Categorical DQN(C51), QRDQN(Quantile Regression DQN), IQN(Implicit Quantile Network), FQF(Fully parameterized Quantile Function), Rainbow와 같은 다양한 알고리즘을 소개하며, 가치 기반 강화학습의 폭넓은 기법들을 설명하였다.
세 번째 책인 이번 시리즈에서는 정책 기반(policy based) 강화학습을 본격적으로 다룬다. REINFORCE-MCPG(Monte Carlo Policy Gradient), REINFORCE- Baseline, A2C(Advantage Actor Critic), A3C(Asynchronous Advantage Actor Critic), DDPG(Deep Deterministic Policy Gradient), TD3(Twin Delayed Deep Deterministic Policy Gradient), TRPO(Trust Region Policy Optimization), PPO(Proximal Policy Optimization), SAC(Soft Actor Critic) 알고리즘을 깊이 있게 다루고 있다.
이 책은 다음의 세 가지 원칙을 바탕으로 작성되었다.
1. 구현된 코드가 실제로 학습 가능해야 한다.
2. 알고리즘 설명은 코드 구현을 중심으로 한다.
3. 이해를 돕기 이해 가능한 한 그림을 적극적으로 활용한다.
알고리즘이 구현된 코드로 학습이 되지 않으면, 그 알고리즘은 실질적으로 사용할 수 없으므로 첫 번째 원칙이 필요하다. 또한, 알고리즘의 이해는 코드 구현으로 완성되므로, 두 번째 원칙에 따라 코드 구현을 중심에 두고 알고리즘을 설명하였다. 마지막으로, 다양한 그림을 사용하여 독자가 알고리즘을 직관적으로 이해할 수 있도록 했다.
이 책에서 다루는 내용은 아래 분류 그림과 같이 점선에 있는 알고리즘으로 Model-Free RL의 Policy Optimization과 Q-Learning에 속한다.
위 그림에서 보듯이 점선이 있는 마지막 일곱 개의 강화학습 기법은 모두 정책 신경망을 포함하고 있으므로 Policy Optimization에 속한다. 그리고 REINFORCE(-MCPG, -Baseline), A2C/A3C, TRPO, PPO에는 행동-가치 신경망이 없으므로 Q-Learning이 아니지만, DDPG, TD3, SAC에는 행동-가치 신경망도 있으므로 Q-Learning으로 분류했다. 참고로 REINFORCE-Baseline, A2C/A3C, TRPO, PPO에는 상태-가치 신경망이 있으므로 V-Learning 범주에 속한다고 볼 수 있다.
이 책에서 다루는 알고리즘의 수식은 각 장의 부록에 정리하였다. 특히, TRPO와 SAC에는 수식이 자주 등장하므로 아래와 같은 과정으로 기술되었다고 생각하면 도움이 된다.
이론(Theory) ⇒ 이론의 근사화(Approximation of Theory) ⇒ 코딩(Coding)
여기서 이론(Theory) 단계에서는 코딩과 무관하게 진행되어 최종적인 수식을 도출한다. 이후 이 수식을 실제 코드로 옮길 수 있도록 단순화·근사화하여 근사 수식(Approximation of Theory)을 얻는다. 마지막으로 이 근사 수식을 바탕으로 알고리즘을 코딩(Coding)한다. 비록 근사 수식을 사용하지만, 실행 결과는 원래 이론에서 기대하는 내용과 잘 부합함을 확인할 수 있다. 참고로, 이 책의 코드는 Colab에서 실행했고 주요 패키지와 버전은 다음과 같다: matplotlib(3.10.0), moviepy(1.0.3), numpy(2.0.2), Pillow(11.3.0), torch(22.8.0+cu126), gym(0.25.2), gymnasium(1.2.0)
출간 후 나올 수 있는 수정사항이나 참고자료 등은 자유아카데미 홈페이지 자료실(www.freeaca.com)을 통해 게시할 것이니 참고하기를 바란다. 이번 책은 『강화학습 시리즈 1(2023년)』과 『강화학습 시리즈 2(2024년)』에 이어지는 세 번째 책(시리즈 3)으로, 정책 기반(policy-based)의 강화학습을 집중적으로 다루고 있다. 이에 본서를 끝으로 Model-Free RL에 대한 소개를 마무리하고자 한다.

작가

추상목

2024.02.08 업데이트

작가의 대표 작품더보기

리뷰

0.0

구매자 별점

0명 평가

별점 분포 보기

이 작품을 평가해 주세요!

리뷰 작성 유의사항

건전한 리뷰 정착 및 양질의 리뷰를 위해 아래 해당하는 리뷰는 비공개 조치될 수 있음을 안내드립니다.

타인에게 불쾌감을 주는 욕설
비속어나 타인을 비방하는 내용
특정 종교, 민족, 계층을 비방하는 내용
해당 작품의 줄거리나 리디 서비스 이용과 관련이 없는 내용
의미를 알 수 없는 내용
광고 및 반복적인 글을 게시하여 서비스 품질을 떨어트리는 내용
저작권상 문제의 소지가 있는 내용
다른 리뷰에 대한 반박이나 논쟁을 유발하는 내용

* 결말을 예상할 수 있는 리뷰는 자제하여 주시기 바랍니다.

이 외에도 건전한 리뷰 문화 형성을 위한 운영 목적과 취지에 맞지 않는 내용은 담당자에 의해 리뷰가 비공개 처리가 될 수 있습니다.

아직 등록된 리뷰가 없습니다.
첫 번째 리뷰를 남겨주세요!

구매자 표시 기준은 무엇인가요?

'구매자' 표시는 유료 작품 결제 후 다운로드하거나 리디셀렉트 작품을 다운로드 한 경우에만 표시됩니다.

무료 작품 (프로모션 등으로 무료로 전환된 작품 포함): '구매자'로 표시되지 않습니다.
시리즈 내 무료 작품: '구매자'로 표시되지 않습니다. 하지만 같은 시리즈의 유료 작품을 결제한 뒤 리뷰를 수정하거나 재등록하면 '구매자'로 표시됩니다.
영구 삭제: 작품을 영구 삭제해도 '구매자' 표시는 남아있습니다.
결제 취소: '구매자' 표시가 자동으로 사라집니다.

강화학습 시리즈더보기

교재/수험서 베스트더보기

성인 인증 안내

성인 재인증 안내

성인 인증 안내

성인 재인증 안내

청소년보호법에 따라 성인 인증은 1년간
유효하며, 기간이 만료되어 재인증이 필요합니다.
성인 인증 후에 이용해 주세요. 해당 작품은 성인 인증 후 보실 수 있습니다.
성인 인증 후에 이용해 주세요.

청소년보호법에 따라 성인 인증은 1년간
유효하며, 기간이 만료되어 재인증이 필요합니다.
성인 인증 후에 이용해 주세요. 해당 작품은 성인 인증 후 선물하실 수 있습니다.
성인 인증 후에 이용해 주세요.

본문 끝 최상단으로 돌아가기

무료이용권

무료이용권을 사용하시겠습니까?

사용 가능 : 장

<>부터 총 화
무료이용권으로 대여합니다.

무료이용권

무료이용권으로
총 화 대여 완료했습니다.

남은 작품 : 총 화 (원)

도움말

강화학습 기본 완성과 PyTorch

- 본 작품은 1일마다 1편씩 무료입니다.
- 최근 10편은 해당 이용권으로 볼 수 없습니다.
- 해당 이용권으로는 무료로 3일간 볼 수 있습니다.

무료로 보기

작품 제목

대여 기간 : 일

이용권 선택

결제하기

작품 제목

결제 금액 : 원

리디포인트 사용: 0원 (원 보유)
리디캐시 사용: 100원 (원 보유)

결제하기

결제 가능한 리디캐시, 포인트가 없습니다.

리디캐시 충전하고 결제없이 편하게 감상하세요.
매월 1~3일에는 리디포인트가 2배 적립됩니다.

결제하기

이미 구매한 작품입니다.

결제 방법 선택

작품 제목

원하는 결제 방법을 선택해주세요.

이어보기

작품 제목

대여 기간이 만료되었습니다.
다음화를 보시겠습니까?

앱으로 연결해서 다운로드하시겠습니까?

대여한 작품은 다운로드 시점부터 대여가 시작됩니다.

앱으로 연결해서 보시겠습니까?

앱이 설치되어 있지 않으면 앱 다운로드로 자동 연결됩니다.

모바일 버전

강화학습 기본 완성과 PyTorch

작품 정보

작품 소개

목차

작가

작가 프로필

작가 소개

리뷰

0.0

이 작품을 평가해 주세요!

강화학습 시리즈더보기

교재/수험서 베스트더보기

성인 인증 안내

성인 재인증 안내