본문 바로가기

리디 접속이 원활하지 않습니다.
강제 새로 고침(Ctrl + F5)이나 브라우저 캐시 삭제를 진행해주세요.
계속해서 문제가 발생한다면 리디 접속 테스트를 통해 원인을 파악하고 대응 방법을 안내드리겠습니다.
테스트 페이지로 이동하기

한국어 임베딩 상세페이지

한국어 임베딩

자연어 처리 모델의 성능을 높이는 핵심 비결 Word2Vec에서 ELMo, BERT까지

  • 관심 0
소장
종이책 정가
35,000원
전자책 정가
20%↓
28,000원
판매가
28,000원
출간 정보
  • 2019.12.27 전자책 출간
  • 2019.09.27 종이책 출간
듣기 기능
TTS(듣기) 지원
파일 정보
  • PDF
  • 352 쪽
  • 16.3MB
지원 환경
  • PC뷰어
  • PAPER
ISBN
9791161753898
ECN
-
한국어 임베딩

작품 정보

이 책은 다양한 임베딩 기법을 소개한다. 크게 단어 수준 임베딩과 문장 수준 임베딩을 다룬다. 각각 단어와 문장을 벡터로 변환하는 기법이다. 여기서 설명하는 단어 수준 임베딩으로는 Word2Vec, GloVe, FastText, Swivel 등이 있다. 문장 수준 임베딩은 ELMo, BERT 등이 있다.
이 책에서는 각 임베딩 기법의 이론적 배경을 살펴본 후 한국어 말뭉치로 실제 임베딩을 구축하는 과정을 설명한다. 각 기법을 설명할 때는 가급적 원 논문의 수식과 표기를 따른다. 코드 또한 논문 저자의 공식 리포지터리에서 가져와 소개할 예정이다.
말뭉치 전처리(preprocess), 임베딩 파인 튜닝(fine-tuning) 역시 이 책이 다루는 중요한 주제다. 전자는 임베딩 구축 전에, 후자는 임베딩 구축 후에 거쳐야 하는 과정이다. 전처리의 경우 KoNLPy, soynlp, 구글 센텐스피스(sentencepiece) 등 오픈소스 사용법을 설명한다. 긍정, 부정 등 문서의 극성(polarity)을 예측하는 문서 분류 과제를 예로 들어 임베딩을 파인 튜닝하는 방법을 실습한다.

각 장별 주요 내용은 다음과 같다.
1장, '서론'에서는 임베딩의 정의, 역사와 종류 등을 살핀다. 도커(docker) 등 개발 환경을 구성하는 과정 역시 설명한다.
2장, ‘벡터가 어떻게 의미를 가지게 되는가’에서는 자연어의 의미를 임베딩에 어떻게 함축시킬 수 있는지에 대한 내용을 소개한다. 각 임베딩 기법들은 크고 작은 차이가 있지만 말뭉치의 통계적 패턴(statistical pattern) 정보를 반영한다는 점에서 공통점을 지닌다는 사실을 짚는다.
3장, ‘한국어 전처리’에서는 임베딩 학습을 위한 한국어 데이터의 전처리 과정을 다룬다. 웹 문서나 json 파일 같은 형태의 데이터를 순수 텍스트 파일로 바꾸고 여기에 형태소 분석을 실시하는 방법을 설명한다. 띄어쓰기 교정 등도 소개한다.
4장, ‘단어 수준 임베딩’에서는 다양한 단어 수준 임베딩 모델을 설명한다. NPLM, Word2Vec, FastText 등은 예측 기반 모델, LSA, GloVe, Swivel 등은 행렬 분해(matrix factorization) 기반의 기법들이다. 가중 임베딩(weighted embedding)은 단어 임베딩을 문장 수준으로 확장하는 방법이다.
5장, ‘문장 수준 임베딩’에서는 문장 수준 임베딩을 다룬다. 행렬 분해(matrix factorization), 확률 모형, 뉴럴 네트워크 기반 모델 등 세 가지 종류를 소개한다. 잠재 의미 분석(LSA)은 행렬 분해, 잠재 디리클레 할당(LDA)은 확률 모델, Doc2Vec, ELMo, BERT 등은 뉴럴 네트워크가 중심인 방법들이다. 특히 BERT는 셀프 어텐션(self-attention) 기반의 트랜스포머 네트워크(transformer network)가 그 뼈대를 이루고 있다.
6장, ‘임베딩 파인 튜닝’에서는 단어, 문장 수준 임베딩을 파인 튜닝하는 방법을 다룬다. 네이버 영화 리뷰 말뭉치를 가지고 극성을 분류하는 과제를 수행한다.
‘부록’에서는 이 책을 이해하는 데 필요한 기초 지식을 간략하게 살펴본다. 선형대수학, 확률론, 뉴럴 네트워크, 국어학 등의 주요 개념을 설명한다.

작가

이기창
학력
고려대학교 대학원 공학 석사
서울대학교 국어국문학과 학사
작가 프로필 수정 요청
작가의 대표 작품더보기
  • Do it! BERT와 GPT로 배우는 자연어 처리 : 트랜스포머 핵심 원리와 허깅페이스 패키지 활용법 (이기창)
  • 한국어 임베딩 (이기창)

리뷰

4.0

구매자 별점
4명 평가

이 작품을 평가해 주세요!

건전한 리뷰 정착 및 양질의 리뷰를 위해 아래 해당하는 리뷰는 비공개 조치될 수 있음을 안내드립니다.
  1. 타인에게 불쾌감을 주는 욕설
  2. 비속어나 타인을 비방하는 내용
  3. 특정 종교, 민족, 계층을 비방하는 내용
  4. 해당 작품의 줄거리나 리디 서비스 이용과 관련이 없는 내용
  5. 의미를 알 수 없는 내용
  6. 광고 및 반복적인 글을 게시하여 서비스 품질을 떨어트리는 내용
  7. 저작권상 문제의 소지가 있는 내용
  8. 다른 리뷰에 대한 반박이나 논쟁을 유발하는 내용
* 결말을 예상할 수 있는 리뷰는 자제하여 주시기 바랍니다.
이 외에도 건전한 리뷰 문화 형성을 위한 운영 목적과 취지에 맞지 않는 내용은 담당자에 의해 리뷰가 비공개 처리가 될 수 있습니다.
  • 각'장'에서 다루는 주제 때문일 수 있겠지만, 초반부 내용은 굉장히 친절한(?) 설명을 해주지만, 중반 이후로 넘어가면 초반의 친절함이 많이 사라진 모습을 느꼈다. 하지만, 그럼에도 불구하고, 단어 임베딩 부터 BERT 까지 전반적으로 내용을 확인할 수 있는, '한국어로된' or '한국어'를 주제로 다루고 있는 흔치 않은 도서임은 분명하다. 이 책으로 인해 NLP 에 대한 많은 영감과 도움을 받았다. 저자의 노고에 박수를 보낸다. 계속 업데이트를 해 주신다면, 한국어 NLP 연구 생태계에 큰 자산이 될 것 이다.

    mei***
    2020.07.28
  • 이 책 엄청나네요. 머신 러닝 및 자연어 처리 입문을 위해서는 어렵게 느껴질 수 있겠지만, 마치 잘 쓰여진 리뷰 논문을 보는 것 같습니다. 이 책에서 제시하는 큰 그림을 따라가면서 레퍼런스들을 챙겨 읽는다면 확률 통계 등의 기본 배경 지식은 물론 자연어 처리의 최신 연구 성과들을 따라잡는 것도 가능해 보입니다. 큰 연구 분야 하나를 딱 한 권으로 너무나 잘 정리해 주셔서 별을 몇백 개를 드려도 아깝지 않을 것 같습니다. XLNet 을 포함한 2판도 기대되네요.

    bre***
    2020.06.07
'구매자' 표시는 유료 작품 결제 후 다운로드하거나 리디셀렉트 작품을 다운로드 한 경우에만 표시됩니다.
무료 작품 (프로모션 등으로 무료로 전환된 작품 포함)
'구매자'로 표시되지 않습니다.
시리즈 내 무료 작품
'구매자'로 표시되지 않습니다. 하지만 같은 시리즈의 유료 작품을 결제한 뒤 리뷰를 수정하거나 재등록하면 '구매자'로 표시됩니다.
영구 삭제
작품을 영구 삭제해도 '구매자' 표시는 남아있습니다.
결제 취소
'구매자' 표시가 자동으로 사라집니다.

개발/프로그래밍 베스트더보기

  • 핸즈온 LLM (제이 알아마르, 마르턴 흐루턴도르스트)
  • 모던 소프트웨어 엔지니어링 (데이비드 팔리, 박재호)
  • 러닝 랭체인 (메이오 오신, 누노 캄포스)
  • 개정4판 | 스위프트 프로그래밍 (야곰)
  • LLM 엔지니어링 (막심 라본, 폴 이우수틴)
  • 주니어 백엔드 개발자가 반드시 알아야 할 실무 지식 (최범균)
  • 미래를 선점하라 : AI Agent와 함께라면 당신도 디지털 천재 (정승원(디지털 셰르파))
  • 잘되는 머신러닝 팀엔 이유가 있다 (데이비드 탄, 에이다 양)
  • 요즘 우아한 AI 개발 (우아한형제들)
  • 개정판 | 개발자 기술 면접 노트 (이남희)
  • Do it! LLM을 활용한 AI 에이전트 개발 입문 (이성용)
  • 스테이블 디퓨전 실전 가이드 (시라이 아키히코, AICU 미디어 편집부)
  • 개정판|혼자 공부하는 파이썬 (윤인성)
  • [리얼타임] 버프스위트 활용과 웹 모의해킹 (김명근, 조승현)
  • 컴퓨터 밑바닥의 비밀 (루 샤오펑, 김진호)
  • 실리콘밸리에서 통하는 파이썬 인터뷰 가이드 (런젠펑, 취안수쉐)
  • 7가지 프로젝트로 배우는 LLM AI 에이전트 개발 (황자, 김진호)
  • 개발자를 위한 쉬운 쿠버네티스 (윌리엄 데니스, 이준)
  • 혼자 만들면서 공부하는 딥러닝 (박해선)
  • 전략적 모놀리스와 마이크로서비스 (반 버논, 토마스 야스쿨라)

본문 끝 최상단으로 돌아가기

spinner
앱으로 연결해서 다운로드하시겠습니까?
닫기 버튼
대여한 작품은 다운로드 시점부터 대여가 시작됩니다.
앱으로 연결해서 보시겠습니까?
닫기 버튼
앱이 설치되어 있지 않으면 앱 다운로드로 자동 연결됩니다.
모바일 버전