한국어 임베딩 상세페이지

출간 정보

2019.12.27 전자책 출간
2019.09.27 종이책 출간

듣기 기능

TTS(듣기) 미지원

파일 정보

PDF
352 쪽
16.3MB

지원 환경

앱
웹
PC뷰어
PAPER

ISBN

9791161753898

ECN

한국어 임베딩

작품 정보

이 책은 다양한 임베딩 기법을 소개한다. 크게 단어 수준 임베딩과 문장 수준 임베딩을 다룬다. 각각 단어와 문장을 벡터로 변환하는 기법이다. 여기서 설명하는 단어 수준 임베딩으로는 Word2Vec, GloVe, FastText, Swivel 등이 있다. 문장 수준 임베딩은 ELMo, BERT 등이 있다.
이 책에서는 각 임베딩 기법의 이론적 배경을 살펴본 후 한국어 말뭉치로 실제 임베딩을 구축하는 과정을 설명한다. 각 기법을 설명할 때는 가급적 원 논문의 수식과 표기를 따른다. 코드 또한 논문 저자의 공식 리포지터리에서 가져와 소개할 예정이다.
말뭉치 전처리(preprocess), 임베딩 파인 튜닝(fine-tuning) 역시 이 책이 다루는 중요한 주제다. 전자는 임베딩 구축 전에, 후자는 임베딩 구축 후에 거쳐야 하는 과정이다. 전처리의 경우 KoNLPy, soynlp, 구글 센텐스피스(sentencepiece) 등 오픈소스 사용법을 설명한다. 긍정, 부정 등 문서의 극성(polarity)을 예측하는 문서 분류 과제를 예로 들어 임베딩을 파인 튜닝하는 방법을 실습한다.

각 장별 주요 내용은 다음과 같다.
1장, '서론'에서는 임베딩의 정의, 역사와 종류 등을 살핀다. 도커(docker) 등 개발 환경을 구성하는 과정 역시 설명한다.
2장, ‘벡터가 어떻게 의미를 가지게 되는가’에서는 자연어의 의미를 임베딩에 어떻게 함축시킬 수 있는지에 대한 내용을 소개한다. 각 임베딩 기법들은 크고 작은 차이가 있지만 말뭉치의 통계적 패턴(statistical pattern) 정보를 반영한다는 점에서 공통점을 지닌다는 사실을 짚는다.
3장, ‘한국어 전처리’에서는 임베딩 학습을 위한 한국어 데이터의 전처리 과정을 다룬다. 웹 문서나 json 파일 같은 형태의 데이터를 순수 텍스트 파일로 바꾸고 여기에 형태소 분석을 실시하는 방법을 설명한다. 띄어쓰기 교정 등도 소개한다.
4장, ‘단어 수준 임베딩’에서는 다양한 단어 수준 임베딩 모델을 설명한다. NPLM, Word2Vec, FastText 등은 예측 기반 모델, LSA, GloVe, Swivel 등은 행렬 분해(matrix factorization) 기반의 기법들이다. 가중 임베딩(weighted embedding)은 단어 임베딩을 문장 수준으로 확장하는 방법이다.
5장, ‘문장 수준 임베딩’에서는 문장 수준 임베딩을 다룬다. 행렬 분해(matrix factorization), 확률 모형, 뉴럴 네트워크 기반 모델 등 세 가지 종류를 소개한다. 잠재 의미 분석(LSA)은 행렬 분해, 잠재 디리클레 할당(LDA)은 확률 모델, Doc2Vec, ELMo, BERT 등은 뉴럴 네트워크가 중심인 방법들이다. 특히 BERT는 셀프 어텐션(self-attention) 기반의 트랜스포머 네트워크(transformer network)가 그 뼈대를 이루고 있다.
6장, ‘임베딩 파인 튜닝’에서는 단어, 문장 수준 임베딩을 파인 튜닝하는 방법을 다룬다. 네이버 영화 리뷰 말뭉치를 가지고 극성을 분류하는 과제를 수행한다.
‘부록’에서는 이 책을 이해하는 데 필요한 기초 지식을 간략하게 살펴본다. 선형대수학, 확률론, 뉴럴 네트워크, 국어학 등의 주요 개념을 설명한다.

작가

이기창

학력

고려대학교 대학원 공학 석사

서울대학교 국어국문학과 학사

링크

공식 사이트

2021.12.01 업데이트

작가 프로필 수정 요청

작가의 대표 작품더보기

Do it! BERT와 GPT로 배우는 자연어 처리 : 트랜스포머 핵심 원리와 허깅페이스 패키지 활용법 (이기창)
한국어 임베딩 (이기창)

리뷰

4.0

구매자 별점

4명 평가

별점 분포 보기

이 작품을 평가해 주세요!

리뷰 작성 유의사항

건전한 리뷰 정착 및 양질의 리뷰를 위해 아래 해당하는 리뷰는 비공개 조치될 수 있음을 안내드립니다.

타인에게 불쾌감을 주는 욕설
비속어나 타인을 비방하는 내용
특정 종교, 민족, 계층을 비방하는 내용
해당 작품의 줄거리나 리디 서비스 이용과 관련이 없는 내용
의미를 알 수 없는 내용
광고 및 반복적인 글을 게시하여 서비스 품질을 떨어트리는 내용
저작권상 문제의 소지가 있는 내용
다른 리뷰에 대한 반박이나 논쟁을 유발하는 내용

* 결말을 예상할 수 있는 리뷰는 자제하여 주시기 바랍니다.

이 외에도 건전한 리뷰 문화 형성을 위한 운영 목적과 취지에 맞지 않는 내용은 담당자에 의해 리뷰가 비공개 처리가 될 수 있습니다.

각'장'에서 다루는 주제 때문일 수 있겠지만, 초반부 내용은 굉장히 친절한(?) 설명을 해주지만, 중반 이후로 넘어가면 초반의 친절함이 많이 사라진 모습을 느꼈다. 하지만, 그럼에도 불구하고, 단어 임베딩 부터 BERT 까지 전반적으로 내용을 확인할 수 있는, '한국어로된' or '한국어'를 주제로 다루고 있는 흔치 않은 도서임은 분명하다. 이 책으로 인해 NLP 에 대한 많은 영감과 도움을 받았다. 저자의 노고에 박수를 보낸다. 계속 업데이트를 해 주신다면, 한국어 NLP 연구 생태계에 큰 자산이 될 것 이다.
mei***
2020.07.28
이 책 엄청나네요. 머신 러닝 및 자연어 처리 입문을 위해서는 어렵게 느껴질 수 있겠지만, 마치 잘 쓰여진 리뷰 논문을 보는 것 같습니다. 이 책에서 제시하는 큰 그림을 따라가면서 레퍼런스들을 챙겨 읽는다면 확률 통계 등의 기본 배경 지식은 물론 자연어 처리의 최신 연구 성과들을 따라잡는 것도 가능해 보입니다. 큰 연구 분야 하나를 딱 한 권으로 너무나 잘 정리해 주셔서 별을 몇백 개를 드려도 아깝지 않을 것 같습니다. XLNet 을 포함한 2판도 기대되네요.
bre***
2020.06.07

구매자 표시 기준은 무엇인가요?

'구매자' 표시는 유료 작품 결제 후 다운로드하거나 리디셀렉트 작품을 다운로드 한 경우에만 표시됩니다.

무료 작품 (프로모션 등으로 무료로 전환된 작품 포함): '구매자'로 표시되지 않습니다.
시리즈 내 무료 작품: '구매자'로 표시되지 않습니다. 하지만 같은 시리즈의 유료 작품을 결제한 뒤 리뷰를 수정하거나 재등록하면 '구매자'로 표시됩니다.
영구 삭제: 작품을 영구 삭제해도 '구매자' 표시는 남아있습니다.
결제 취소: '구매자' 표시가 자동으로 사라집니다.

개발/프로그래밍 베스트더보기

객체지향 시스템 디자인 원칙 (마우리시오 아니체, 오현석)
AI 에이전트 인 액션 (마이클 래넘, 류광)
코드 너머, 회사보다 오래 남을 개발자 (김상기, 배문교)
개정2판 | 파인만의 컴퓨터 강의 (리처드 파인만, 서환수)
주니어 백엔드 개발자가 반드시 알아야 할 실무 지식 (최범균)
멀티패러다임 프로그래밍 (유인동)
테디노트의 랭체인을 활용한 RAG 비법노트_기본편 (이경록(테디노트))
시스템 설계 면접 완벽 가이드 (지용 탄, 나정호)
생성형 AI를 위한 프롬프트 엔지니어링 (제임스 피닉스, 마이크 테일러)
7가지 프로젝트로 배우는 LLM AI 에이전트 개발 (황자, 김진호)
조코딩의 AI 비트코인 자동 매매 시스템 만들기 (조동근)
Do it! LLM을 활용한 AI 에이전트 개발 입문 (이성용)
개정판 | 밑바닥부터 시작하는 딥러닝 1 (사이토 고키, 이복연)
개정2판 | 시작하세요! 도커/쿠버네티스 (용찬호)
따라 하며 배우는 유니티 게임 개발 (아라카와 다쿠야, 아사노 유이치)
실무에서 SQL을 다루는 기술 (마크 사이먼, 조은옥)
이것이 스프링 부트다 with 자바 (김희선)
핸즈온 LLM (제이 알아마르, 마르턴 흐루턴도르스트)
모던 소프트웨어 엔지니어링 (데이비드 팔리, 박재호)
개발자를 위한 필수 수학 (토머스 닐드, 박해선)

성인 인증 안내

성인 재인증 안내

성인 인증 안내

성인 재인증 안내

청소년보호법에 따라 성인 인증은 1년간
유효하며, 기간이 만료되어 재인증이 필요합니다.
성인 인증 후에 이용해 주세요. 해당 작품은 성인 인증 후 보실 수 있습니다.
성인 인증 후에 이용해 주세요.

청소년보호법에 따라 성인 인증은 1년간
유효하며, 기간이 만료되어 재인증이 필요합니다.
성인 인증 후에 이용해 주세요. 해당 작품은 성인 인증 후 선물하실 수 있습니다.
성인 인증 후에 이용해 주세요.

본문 끝 최상단으로 돌아가기

무료이용권

무료이용권을 사용하시겠습니까?

사용 가능 : 장

<>부터 총 화
무료이용권으로 대여합니다.

무료이용권

무료이용권으로
총 화 대여 완료했습니다.

남은 작품 : 총 화 (원)

도움말

한국어 임베딩

- 본 작품은 1일마다 1편씩 무료입니다.
- 최근 10편은 해당 이용권으로 볼 수 없습니다.
- 해당 이용권으로는 무료로 3일간 볼 수 있습니다.

무료로 보기

작품 제목

대여 기간 : 일

이용권 선택

결제하기

작품 제목

결제 금액 : 원

리디포인트 사용: 0원 (원 보유)
리디캐시 사용: 100원 (원 보유)

결제하기

결제 가능한 리디캐시, 포인트가 없습니다.

리디캐시 충전하고 결제없이 편하게 감상하세요.
리디포인트 적립 혜택도 놓치지 마세요!

결제하기

이미 구매한 작품입니다.

결제 방법 선택

작품 제목

원하는 결제 방법을 선택해주세요.

이어보기

작품 제목

대여 기간이 만료되었습니다.
다음화를 보시겠습니까?

앱으로 연결해서 다운로드하시겠습니까?

대여한 작품은 다운로드 시점부터 대여가 시작됩니다.

앱으로 연결해서 보시겠습니까?

앱이 설치되어 있지 않으면 앱 다운로드로 자동 연결됩니다.

모바일 버전

한국어 임베딩

자연어 처리 모델의 성능을 높이는 핵심 비결 Word2Vec에서 ELMo, BERT까지

작품 정보

작품 소개

목차

출판사 서평

작가

작가 프로필

작가 소개

리뷰

4.0

이 작품을 평가해 주세요!

개발/프로그래밍 베스트더보기

성인 인증 안내

성인 재인증 안내