본문 바로가기

리디 접속이 원활하지 않습니다.
강제 새로 고침(Ctrl + F5)이나 브라우저 캐시 삭제를 진행해주세요.
계속해서 문제가 발생한다면 리디 접속 테스트를 통해 원인을 파악하고 대응 방법을 안내드리겠습니다.
테스트 페이지로 이동하기

기초부터 시작하는 강화학습/신경망 알고리즘 상세페이지

컴퓨터/IT 개발/프로그래밍

기초부터 시작하는 강화학습/신경망 알고리즘

데이터 사이언스 시리즈 044 | AI는 어떻게 게임을 할까?
소장종이책 정가27,000
전자책 정가30%18,900
판매가18,900
기초부터 시작하는 강화학습/신경망 알고리즘 표지 이미지

기초부터 시작하는 강화학습/신경망 알고리즘작품 소개

<기초부터 시작하는 강화학습/신경망 알고리즘>

강화학습을 어떻게 시작해야 할지 모르는 분들을 위해서 준비했습니다!

강화학습은 인간이 학습하는 과정과 비슷한 인공지능 분야 중 하나입니다. 로봇의 행동학습, 자율주행 자동차의 행동학습에 대표적으로 사용되며, 알파고의 핵심 알고리즘으로 유명해졌습니다.

이 책은 강화학습에 관심이 있지만 어디서 어떻게 시작해야 할지 모르는 분들을 위해 가장 기초적인 상태가치함수/행동가치함수의 정의부터 시작해서 신경망을 이용한 DQN까지 강화학습의 기본 알고리즘을 충분히 이해할 수 있게 구성했습니다.

실습 예제로 고전게임 틱택토(Tic Tac Toe)를 플레이하는 알파고 제로(AlphaGo Zero)와 같은 인공지능 플레이어를 만들어 봄으로써 인공지능이 어떻게 게임을 플레이하는가를 알아봅니다.

이 책으로 차근차근 실습을 진행한다면 강화학습의 기본 알고리즘을 충분히 이해할 수 있을 것이며, 이를 바탕으로 여러 가지 인공지능 시스템을 만들 수 있으리라 생각합니다.


저자 소개

손민규
소니 반도체에서 데이터 분석 업무를 통해 알고리즘 및 시스템 개발 업무와 사원 대상 통계 알고리즘 강의를 진행했으며, 현재 삼성전자에서 데이터 분석 업무를 하고 있다. 일본 큐슈대학교에서 인공지능의 한 분야인 Reinforcement Learning 알고리즘 개발로 박사학위를 받았으며, 관심 분야는 Reinforcement Learning, Neural Network, Genetic Algorithm 등 Machine Learning Algorithm을 활용한 시스템 개발이다.

저서: 데이터 분석을 떠받치는 수학(2018)
감수: 정석으로 배우는 딥러닝(2017)
번역: 가장 쉬운 딥러닝 입문 교실(2018), 실전! 딥러닝(2019)

목차

01장: 인공지능이란?

머신러닝의 종류
__지도학습
__비지도학습
__강화학습
강화학습과 신경망
이 책의 구성

02장: 강화학습

강화학습의 기본 요소
__환경
__상태 (S)
__에이전트
__행동 (A)
__상태전이확률 (P)
__보상 (R)
__수익 (G)
__정책 (r)
__에피소드
__마르코프 의사결정과정 (MDP)
환경과 에이전트 준비
가치함수 : 상태/행동의 가치 계산
__상태가치함수 : Vr
__행동가치함수 : Qr
동적계획법 : 최적 정책 선택
__정책 평가
__반복 정책 평가
__정책 개선
__정책 반복
__가치 반복
몬테카를로 방법
__몬테카를로 방법의 Prediction
__몬테카를로 방법의 Control
시간차 학습
__시간차 학습의 Prediction
__시간차 학습의 Control : SARSA(On-policy)
__시간차 학습의 Control : Q-learning(Off-policy)
__Double Q-learning
__정책 그레이디언트 : 액터-크리틱
함수 근사
함수 근사 : TD(0) Prediction
함수 근사 : Q-learning

03장: 인공신경망

퍼셉트론
손실함수
__평균제곱오차
__교차엔트로피오차
경사하강법
퍼셉트론의 학습
__숫자 외우기
__선형 함수 근사
__비선형 함수 근사
다층 퍼셉트론
활성화 함수
__시그모이드 함수
__하이퍼볼릭탄젠트 함수
__ReLU 함수
__소프트맥스 함수
오차역전파법
__오차역전파법이란?
__중간층과 출력층 사이의 가중치와 편향 학습
__입력층과 중간층 사이의 가중치와 편향 학습
__비선형 함수 근사
학습 최적화
__일정 비율 감소
__모멘텀
__AdaGrad
__RMSProp
__Adam
__드롭아웃
__배치 정규화
__그 밖의 방법
배치 경사하강법, 확률적 경사하강법, 미니배치 경사하강법
__배치 경사하강법
__확률적 경사하강법
__미니 배치 경사하강법
__에폭
케라스를 이용한 신경망 구현
합성곱신경망
__합성곱신경망이란?
__합성곱층
__채널
__스트라이드
__패딩
__풀링층
__플래튼층
케라스를 이용한 합성곱신경망 구현
__손글씨 데이터
__손글씨 데이터 전처리
__합성곱신경망 구축
__학습과 결과 확인

04장: 인공지능 만들기: 틱택토 게임

틱택토 준비
인간 플레이어
랜덤 플레이어
게임 진행 함수
몬테카를로 플레이어
Q-learning 플레이어
DQN 플레이어

부록A: 참고 자료

A.1 미분
A.2 편미분
A.3 연쇄법칙


리뷰

구매자 별점

0.0

점수비율
  • 5
  • 4
  • 3
  • 2
  • 1

0명이 평가함

리뷰 작성 영역

이 책을 평가해주세요!

내가 남긴 별점 0.0

별로예요

그저 그래요

보통이에요

좋아요

최고예요

별점 취소

구매자 표시 기준은 무엇인가요?

'구매자' 표시는 리디에서 유료도서 결제 후 다운로드 하시거나 리디셀렉트 도서를 다운로드하신 경우에만 표시됩니다.

무료 도서 (프로모션 등으로 무료로 전환된 도서 포함)
'구매자'로 표시되지 않습니다.
시리즈 도서 내 무료 도서
'구매자’로 표시되지 않습니다. 하지만 같은 시리즈의 유료 도서를 결제한 뒤 리뷰를 수정하거나 재등록하면 '구매자'로 표시됩니다.
영구 삭제
도서를 영구 삭제해도 ‘구매자’ 표시는 남아있습니다.
결제 취소
‘구매자’ 표시가 자동으로 사라집니다.

데이터 사이언스 시리즈


이 책과 함께 구매한 책


이 책과 함께 둘러본 책



본문 끝 최상단으로 돌아가기

spinner
모바일 버전