본문 바로가기

리디 접속이 원활하지 않습니다.
강제 새로 고침(Ctrl + F5)이나 브라우저 캐시 삭제를 진행해주세요.
계속해서 문제가 발생한다면 리디 접속 테스트를 통해 원인을 파악하고 대응 방법을 안내드리겠습니다.
테스트 페이지로 이동하기

빅데이터 시대의 언어 연구 상세페이지

빅데이터 시대의 언어 연구

  • 관심 0
소장
종이책 정가
29,800원
전자책 정가
20%↓
23,840원
판매가
23,840원
출간 정보
  • 2015.08.20 전자책 출간
  • 2015.08.17 종이책 출간
듣기 기능
TTS(듣기) 지원
파일 정보
  • EPUB
  • 약 13.2만 자
  • 58.3MB
지원 환경
  • PC뷰어
  • PAPER
ISBN
9788950961152
UCI
-
빅데이터 시대의 언어 연구

작품 정보

◎ 도서 소개

언어 빅데이터와 디지털 기술이
언어학 연구의 도구와 양상을 바꾼다!

역대 대통령들의 취임사를 언어기호의 사용과 빈도 데이터를 기준으로 분석하면 흥미로운 결과가 나온다. 김대중 대통령과 노무현 대통령의 취임사가 가장 근접성이 높다. 그런데 놀랍게도 박근혜 대통령의 취임사는 이 두 대통령의 취임사와 높은 근접성을 나타낸다. 이로써 정책 비전의 제시에서 보수와 진보라는 이념적 기준이 절대적으로 작용하기보다는 시대정신이 핵심적 역할을 수행함을 엿볼 수 있다.
이런 분석은 어떻게 가능할까? 대통령 취임사라는 ‘언어 집합체’를 컴퓨터 기술을 활용해 파고든 결과이다. 구체적인 언어생활을 통해 형성된 일종의 언어학적 빅데이터를 기반으로 삼음으로써 다양한 언어학 연구를 할 수 있게 된 것이다.
현대인의 실제 언어생활은 그 자체로 빅데이터이다. 특히 한 편의 연설, 시집이나 소설책 1권 등과 같이 일정한 분량과 체계를 갖춘 말의 덩어리는 그 속에서 여러 언어 특성을 추출하고 분석하는 기반이 된다. 이런 말의 덩어리를 코퍼스(corpus)라 하는데 이를 디지털 기술과 도구를 통해 언어학 연구에 활용할 수 있다. 코퍼스를 기반으로 하는 언어 연구에서는 검색 엔진의 구축이 필수적이다. 이 책은 언어학 연구자가 자신의 연구 목적에 맞게끔 검색 엔진을 만들고 활용할 수 있도록 돕는다. 또한, 다양한 연구 분야에 걸쳐 상세한 방법론과 함께 다양한 사례를 제시함으로써 연구에 체계적으로 적용할 수 있도록 했다.




◎ 출판사 서평

언어학적 관점에서 박근혜 대통령의 취임사는
김대중 · 노무현 대통령의 취임사와 근접성이 높다!

현대 사회를 빅데이터 시대라 한다. 디지털 환경을 살아가는 현대인들은 일상을 통해 엄청난 양과 다양한 종류의 흔적을 남기는데 이것의 분석을 통해 여론과 정서, 행동 양상과 변화의 흐름을 파악할 수 있다. 사람들의 언어생활에서도 수없는 빅데이터가 생성된다. 언어학에서의 빅데이터는 ‘말뭉치’ 또는 ‘코퍼스(corpus)’로 불린다. 이것은 말 그대로 말의 뭉치를 뜻하는데, 한 덩어리로 볼 수 있는 언어의 집합체로 보면 된다. 언어학에서는 “일정 분량 이상이 되고 내용상으로 다양성과 균형이 확보된 언어 자료의 집합체”로 정의하고 있다.
이러한 코퍼스를 발전된 컴퓨터 기술을 통하여 분석함으로써 언어 사용의 양상과 현실 등 언어학 연구를 위한 유용한 자료를 체계적으로 획득할 수 있다. 1990년대 초반 이후로 코퍼스를 이용해 언어의 특성을 밝히는 연구가 연구방법론의 중요한 트렌드를 형성하고 있다.
코퍼스 기반 언어 연구에서는 디지털화된 언어 텍스트를 검색하고 분석하는 기능이 핵심이 되며 이를 위한 검색엔진 구축이 매우 중요하다. 그런데 언어학 연구자에게 검색엔진을 직접 만드는 일은 생소하게 느껴지는 분야이다. 이런 점에서 『빅데이터 시대의 언어 연구』(이민행 지음, 21세기북스)는 언어학 연구자에게 매우 유용한 지식을 선사한다. 쉽고 체계적으로 디지털화된 텍스트를 CWB 검색 시스템으로 구축할 수 있는 방법론을 제공하기 때문이다. 그리고 이 검색 시스템을 통해 다양한 정보를 추출하고 활용하는 방안과 사례를 함께 제시한다. CWB는 독일 슈투트가르트대학에서 개발하여 오픈소스로 공개한 코퍼스 작업대(Corpus WorkBench)를 줄여서 말한 것이다.
이 책은 6개 언어(영어·한국어·독일어·프랑스어·스페인어·인도네시아어)를 대상으로 삼아 파생어, 연어 관계, 구문과 어휘의 상관관계, 텍스트의 핵심도와 문서 유사도 등의 언어현상을 탐구한다. 또한 코퍼스로부터 추출한 빈도와 용례를 기초로 하여 6개 언어에 대해 여러 층위의 언어현상을 분석했으며 필요에 따라 Perl-스크립트와 R-스크립트를 이용하여 통계적 분석을 추가했다.
공연구조적 분석, 변별적 공연어휘소 분석, 군집분석 및 대응분석 방법론 등의 연구방법론을 적용한 이 연구서는 일반 언어학자들과 외국어 교육자들이 자신들의 연구나 교육에 필요한 다양한 데이터 및 용례를 효율적으로 추출하는 데 유용한 지식을 제공해줄 것이다.




◎ 본문 중에서

CWB 기반 코퍼스는 몇 가지 장점을 가지고 있다. 그중의 하나는 대용량 데이터를 처리할 수 있는 효율적인 검색 시스템 CQP를 내장하고 있다는 점이다. 이 검색 시스템은 2GB까지 처리 가능하다. 두 번째 장점은 유니코드를 지원하기 때문에 여러 언어의 코퍼스 구축을 가능하게 하여 언어 보편적으로 활용된다는 것이다. 세 번째 장점은 원천 텍스트의 포맷을 폭넓게 수용하기 때문에 부가되는 언어적 정보에 있어 차이가 있는 자료들도 하나의 코퍼스로 통합할 수 있다는 데서 찾을 수 있다. 넷째는 검색 시에 정규 표현식을 지원한다는 장점을 갖는다. 이러한 여러 가지 장점 때문에 많은 언어들이 이미 CWB 기반 코퍼스로 구축되어 웹을 통해 서비스되고 있다. 예를 들어 BNCweb이라는 이름으로 웹상에서 서비스되고 있는 영어 코퍼스 BNC는 바로 CWB 기반 코퍼스이다.

위의 예에서 확인할 수 있듯이 존재를 표현하는 ‘there’와 함께 한 문장 내에 나타나는 동사들 가운데 출현빈도가 높은 것은 ‘seem’, ‘appear’, ‘remain’이다. 이 통계를 뒷받침하는 용례들 가운데 일부는 앞서 50에 제시된 바 있다. 위의 검색식 60에 쓰인 준거점(target) 바로 뒤에는 ‘hw’가 나타나 있는데, ‘hw’ 대신에 ‘word’나 ‘pos’ 등 위치속성이 쓰일 수도 있다. 이와 관련한 선택은 검색을 통해 달성하고자 하는 검색의 목적과 결부되어 있다.

이 표에 따르면 소통동사(vc4), 심리동사(vc9) 및 사회관계동사(vc13) 부류가 into 사역구문과 공연하는 정도가 매우 높은 것으로 나타난다. 이 부류의 동사들은 워드넷 내에서의 평균값과 비교하여 2∼3배 정도 자주 이 구문에 출현한다. 선구적으로 이 구문에 대한 연구를 시작했던 Huston·Francis (2000)에서도 frighten, scare 및 terrify 등 부정적인 심리동사들이 이 구문을 매우 선호한다는 점을 지적한 바 있다. 이들은 이외에도 coax나 charm 등 비이성적인 설득을 시도하는 소통동사와 force나 coerce 등 강요를 의미하는 동사들도 이 구문에 빈번히 나타난다는 사실을 밝혀낸 바 있다.

여기에서 우리는 한국어의 네 가지 구문과 어휘의 상관관계에 대해 논의했다. 여기서 다룬 구문들은 이중목적어 구문, ‘밀다·끌다’ 구문, ‘크기·수량’ 구문, ‘-게 만들다’ 구문이었다. 분석을 통해 공통으로 확인한 사실은 각 구문의 특정 슬롯에 출현하는 어휘들은 제한된 범위 내에서만 선택적이라는 점이다. 구문과 어휘와의 호응관계를 결정하는 데 중요한 요인은 무엇보다도 어휘들이 어떠한 의미부류에 속하느냐이다. 따라서 의미 있는 일반화를 이끌어내기 위해서는 한국어도 영어의 워드넷에서 제공하는 것과 같은 탄탄한 의미분류 체계가 필요하다는 결론을 내릴 수 있다.

각 언어의 코퍼스를 활용하여 분석을 시도하는 영역은 크게 네 가지다. 어휘 층위의 통계적 분석, 형태론 층위, 연어관계 및 구문과 어휘의 상관관계이다. 코퍼스로부터 추출한 빈도와 용례를 기초로 하여 6개 언어에 대해 각 영역과 관련된 언어현상을 분석했다. 필요에 따라 Perl 스크립트와 R 스크립트를 이용하여 분석을 더 깊이 있고 넓게 만들었다. 누적백분율을 구할 때와 영어 워드넷(WordNet)의 명사 의미부류 체계와 동사 의미부류 체계를 이용하여 심화분석을 시도할 때 Perl 스크립트를 실행했다. 한편 구문과 어휘의 상관관계를 분석하고 문서유사도를 구할 때와 단어구름을 그릴 때에는 R 스크립트를 실행시켰다.

작가

이민행
학력
1991년 독일 뮌헨대학교 대학원 언어학 박사
서울대학교 대학원 독어독문학
서울대학교 인문대학 독어독문학과 학사
경력
한국독어학회 '독어학' 편집위원장
한국언어학회 부회장
연세대학교 독어독문학과 교수
국립 제주대학교 조교수
옌칭연구소 방문학자
작가 프로필 수정 요청
작가의 대표 작품더보기
  • 빅데이터 시대의 언어 연구 (이민행)

리뷰

1.0

구매자 별점
1명 평가

이 작품을 평가해 주세요!

건전한 리뷰 정착 및 양질의 리뷰를 위해 아래 해당하는 리뷰는 비공개 조치될 수 있음을 안내드립니다.
  1. 타인에게 불쾌감을 주는 욕설
  2. 비속어나 타인을 비방하는 내용
  3. 특정 종교, 민족, 계층을 비방하는 내용
  4. 해당 작품의 줄거리나 리디 서비스 이용과 관련이 없는 내용
  5. 의미를 알 수 없는 내용
  6. 광고 및 반복적인 글을 게시하여 서비스 품질을 떨어트리는 내용
  7. 저작권상 문제의 소지가 있는 내용
  8. 다른 리뷰에 대한 반박이나 논쟁을 유발하는 내용
* 결말을 예상할 수 있는 리뷰는 자제하여 주시기 바랍니다.
이 외에도 건전한 리뷰 문화 형성을 위한 운영 목적과 취지에 맞지 않는 내용은 담당자에 의해 리뷰가 비공개 처리가 될 수 있습니다.
아직 등록된 리뷰가 없습니다.
첫 번째 리뷰를 남겨주세요!
'구매자' 표시는 유료 작품 결제 후 다운로드하거나 리디셀렉트 작품을 다운로드 한 경우에만 표시됩니다.
무료 작품 (프로모션 등으로 무료로 전환된 작품 포함)
'구매자'로 표시되지 않습니다.
시리즈 내 무료 작품
'구매자'로 표시되지 않습니다. 하지만 같은 시리즈의 유료 작품을 결제한 뒤 리뷰를 수정하거나 재등록하면 '구매자'로 표시됩니다.
영구 삭제
작품을 영구 삭제해도 '구매자' 표시는 남아있습니다.
결제 취소
'구매자' 표시가 자동으로 사라집니다.

인문 베스트더보기

  • 최소한의 삼국지 (최태성, 이성원)
  • 넥서스 (유발 하라리, 김명주)
  • 이상한 문장 그만 쓰는 법 (이주윤)
  • 어두울 때에야 보이는 것들이 있습니다 (슈테판 츠바이크, 배명자)
  • 사피엔스 (유발 하라리, 조현욱)
  • 초역 부처의 말 (코이케 류노스케, 박재현)
  • 편안함의 습격 (마이클 이스터, 김원진)
  • 한국이란 무엇인가 (김영민)
  • 위버멘쉬 (니체, 어나니머스)
  • 손자병법 (손자, 소준섭)
  • 팩트풀니스 (한스 로슬링, 올라 로슬링)
  • 길을 찾는 책 도덕경 (켄 리우, 노자)
  • 내면소통 (김주환)
  • 나는 왜 남들보다 쉽게 지칠까 (최재훈)
  • 개정판 | 빅터 프랭클의 죽음의 수용소에서 (빅터 프랭클, 이시형)
  • 사랑의 기술(5판) (에리히 프롬, 황문수)
  • 내가 틀릴 수도 있습니다 (비욘 나티코 린데블라드, 토마스 산체스)
  • 죽고 싶다면 법구경 세트 (전 8권) (법구)
  • [50년 대여] 익명의 독서 중독자들 (전 2권) (이창현, 유희)
  • 신에 관하여 (한병철)

본문 끝 최상단으로 돌아가기

spinner
앱으로 연결해서 다운로드하시겠습니까?
닫기 버튼
대여한 작품은 다운로드 시점부터 대여가 시작됩니다.
앱으로 연결해서 보시겠습니까?
닫기 버튼
앱이 설치되어 있지 않으면 앱 다운로드로 자동 연결됩니다.
모바일 버전