데이터 과학작품 소개

<데이터 과학> 핵심 개념부터 활용법과 성공 원칙, 윤리적 문제까지
인공지능, 빅데이터 시대를 살아가는 시민의 필수 교양
한 권으로 개념 잡는 데이터 사이언스

시민 교양으로서의 데이터 과학 개론서. 빅데이터, 인공지능, 딥러닝, 기계학습 같은 데이터 과학의 개념과 기술들이 어느새 업무는 물론 정치와 개인의 일상에까지 깊이와 너비에서 전례 없는 영향을 미치고 있다. 아일랜드 더블린공과대학교에서 데이터 과학을 가르치는 존 켈러허와 브렌던 티어니가 함께 쓴 이 책은 비전문가를 위해 전문적인 주제의 핵심 지식을 원리에 기초해 설명하는 〈MIT Essential Knowledge〉 시리즈 중 한 권으로, ‘데이터 과학은 무엇이고, 왜 중요한가? 기계학습, 딥러닝, 신경망은 무엇이고, 서로 어떤 관계인가? 데이터 과학자는 실제로 어떤 일을 하는가? 데이터 과학은 어떤 단계로, 어떻게 작동하는가? 데이터 과학 프로젝트가 성공하기 위한 원칙은? 데이터 과학의 발달에 따른 윤리적 문제는 무엇인가? 데이터 과학이 펼쳐보일 미래는 어떤 모습인가?’ 등 빅데이터 시대에 중심을 잡기 위한 중요한 질문들에 답한다. 두 저자가 굳건한 이론적 토대를 깔고 데이터 과학을 소개하고 있어, 장밋빛 미래에 대한 환상을 심어주거나 데이터 관련 기술이 인간과 사회를 어떻게 바꾸고 있는지 정도만 소개하는 책들과는 분명한 차별점이 있다. 데이터 과학을 처음 접하는 독자라면 이 책을 통해 핵심 개념부터 활용법과 성공 원칙, 윤리적 문제까지 데이터 과학 전반에 대한 기초 지식을 습득할 수 있을 것이고, 어느 정도 지식이 있는 독자도 대충 넘어갔던 부분을 보다 깊이 이해하고 데이터 과학 생태계 전반을 꿸 수 있을 것이다.

출판사 서평

핵심 개념부터 활용법과 성공 원칙, 윤리적 문제까지
인공지능, 빅데이터 시대를 살아가는 시민의 필수 교양
한 권으로 개념 잡는 데이터 사이언스

데이터 과학을 이해하기 위한 근본적인 아이디어와 개념 등을 개괄하는 책이다. 빅데이터, 인공지능, 딥러닝, 기계학습 같은 데이터 과학의 개념과 기술들이 어느새 업무는 물론 정치와 개인의 일상에까지, 깊이와 너비에서 전례 없는 영향을 미치고 있다. 자연히 데이터 과학에 관한 책도 많이 나와 있는데, 이런 책들은 크게 세 부류로 나눌 수 있다. 데이터 분석과 관련 프로그래밍 등에 대한 기술적인 내용을 주로 다루는 실용서, 빅데이터 시대를 소개하며 이른바 ‘4차 산업혁명’을 어떻게 맞아야 하는지 다루는 경영 및 자기계발서, 데이터와 디지털 문화의 위험과 이런 기술이 사회와 인간에 미치는 영향을 검토한 비판서가 그것이다.

아일랜드 더블린공과대학교에서 데이터 과학을 가르치는 존 켈러허와 브렌던 티어니가 함께 쓴 이 책은 균형 감각을 갖추고 이 세 분야를 모두 아우르고 있다. 두 저자가 굳건한 이론적 토대를 깔고 데이터 과학을 소개하고 있어 데이터 과학의 장밋빛 미래에 대한 환상을 심어주거나, 데이터 관련 기술이 인간과 사회를 어떻게 바꾸고 있는지 정도만 소개하는 책들과는 분명한 차별점이 있다. 인공지능과 빅데이터 시대를 살아가는 시민으로서 각자가 속한 조직과 사회, 가족이 어떤 종류의 데이터 세계에 살길 원하는지에 관해 목소리를 내려면 데이터 과학이 무엇이고 왜 중요하며, 어떻게 작동하고, 무엇을 할 수 있고 할 수 없는지 알아야 한다. 그 핵심 토대를 제공하는 흔치 않은 책이 바로 이 책 『데이터 과학』이다.

알고리즘은 모든 문제를 해결할 수 있다?
데이터 과학에 대한 오해와 진실

정치 분석, 사회 연구, 도시 계획, 마케팅과 조직 효율화 등 데이터 과학이 사회 각 분야에서 점점 더 많이 쓰이다 보니 이에 따른 과장과 미신 역시 적지 않다. 이 책에서 살펴보는 데이터 과학의 오해와 진실 몇 가지만 적어보면 다음과 같다.

- 자동화된 데이터 과학 프로세스에 데이터를 맡기기만 하면 모든 문제에 답을 준다?

실제 데이터 과학은 각 단계마다 이를 감독할 노련한 데이터 과학자가 필요하다. 인간이 문제를 규정하고, 필요한 데이터를 설계 및 준비하고, 어떤 알고리즘이 가장 적합한지 결정하고, 분석 결과를 비판적으로 해석하고, 이를 바탕으로 실행 계획을 세우지 않으면 데이터 과학 프로젝트는 실패할 수밖에 없다
.
- 데이터 과학에 편향(bias)이 있어서는 안 된다?

어떤 데이터 세트를 선택하는지가 그 이후의 분석에 가져오는 편향을 표본 편향이라고 한다. 표본 편향은 데이터 과학자가 피해야 하는 편향이다. 데이터 세트가 대상 집단을 잘 대표하지 못한다면 알고리즘이 만들어내는 모델이 정확할 리 없기 때문이다. 한편 학습 편향이라는 것도 있는데, 기계학습의 여러 분석 알고리즘이 저마다 가지고 있는, '대상을 일반화하는 독특한 방식이나 한계'를 뜻한다. 예를 들어 선형회귀 알고리즘은 데이터를 선형으로 일반화, 추상화하기 때문에 비선형 관계로 나타내는 것이 더 적절하다 해도 그런 가능성을 무시한다. 다시 말하면 편향 없이는 학습도 일어날 수 없으며 모든 상황에 다 맞는 최고의 알고리즘 따위는 없다는 뜻이다. 중요한 것은 어떤 알고리즘을 쓰는 것이 좋을지에 대한 인간의 판단이다.

- 모든 데이터 과학 프로젝트는 빅데이터가 필요하며 딥러닝 기술을 써야만 한다?

많은 데이터보다는 맞는, 적합한 데이터를 갖고 있는 게 더 중요하다. 데이터 과학 프로젝트는 구글, 바이두, 마이크로소프트 같은 회사에 비해 훨씬 작은 데이터와 컴퓨터 연산력을 가지고 있는 조직에서도 자주 이뤄진다. 꼭 테라바이트 단위의 데이터를 다룰 수 있는 조직만 데이터 과학을 하는 것은 아니다.

- 데이터 과학은 숫자에 바탕을 두고 있기 때문에 인간의 편견이 결정에 영향을 미치지 않으니 객관적이다?

데이터 과학 알고리즘은 객관적이기보다는 무도덕적이다. 데이터 과학은 데이터에서 패턴을 추출하는데, 만약 데이터가 편견에서 비롯된 관계를 담고 있으면 알고리즘이 내놓는 결과 역시 편견을 담고 있다. 예를 들어 언제 어디서 범죄가 발생할 것인지를 예측하기 위해 고안된 예방 치안(Predictive Policing)은 편견과 차별을 강화할 위험이 있다.

일상과 업무에 깊숙이 관여하고 있는 데이터 과학
데이터 범람의 시대에 중심을 잡기 위한 핵심 지식

이 책의 목적은 데이터 과학에서 핵심적인 요소들의 기초를 깊이 들여다봄으로써 독자가 원칙에 기초하여 데이터 과학을 이해하도록 하는 데 있다. 각 장에서 다루는 내용을 살펴보면 다음과 같다.

1장 [데이터 과학은 무엇인가?]에서는 데이터 과학이 현장에서 어떻게 쓰이는지 소개하고, 데이터 과학의 발전과 진화에 관한 간략한 역사를 살펴본다. 더불어 데이터 과학에 대한 그릇된 믿음을 밝히고 그 정체를 파헤쳐본다. 저자들에 따르면, 지금처럼 데이터 과학을 잘못하기 쉬운 때도 없다.

2장 [데이터와 데이터 세트란 무엇인가?]은 데이터, 데이터 세트, 데이터베이스 등 데이터 과학에서 근본적인 개념들을 소개한다. 또 비즈니스에 대한 이해, 데이터에 대한 이해, 데이터 준비, 모델링, 검토, 적용 등 데이터 과학 프로젝트의 전형적인 단계를 설명한다. 보통 모델링 단계에 가장 많은 시간이 소요될 것 같지만 실제로는 전체 프로젝트에 투여되는 시간의 약 80퍼센트가 데이터 준비에 들어간다.

3장 [데이터 과학 생태계]는 빅데이터가 불러온 과제들, 여러 출처로부터 온 데이터를 어떻게 통합하는지 등에 초점을 맞춘다. 전형적인 데이터 과학의 기반 구조에 대한 설명으로 시작해, 큰 데이터 세트를 데이터 구조 사이에 옮기는 과제를 해결하기 위해 주목받는 솔루션들을 제시한다
.
4장 [기계학습 101]에서는 기계학습의 영역들을 소개하고 가장 널리 쓰이는 신경망, 딥러닝, 의사결정 나무 모델 등의 기계학습 알고리즘과 모델들을 설명한다. 기계학습은 큰 데이터 세트에서 모델을 생성하는 여러 알고리즘을 제공하지만 이런 모델이 유용한지에 대한 판단은 데이터 과학자의 전문 지식에 달려 있다.

5장 [표준적인 데이터 과학 업무]는 사업 중 발생하는 여러 기본적인 문제들과 기계학습으로 이를 어떻게 해결하는지에 대한 설명을 통해 기계학습의 전문 분야와 실제 세계 문제들의 연결에 초점을 맞춘다. 대부분의 데이터 과학 프로젝트는 군집화, 이상 탐지, 연관 규칙 마이닝, 예측, 네 부류 중 하나에 속한다.

6장 [프라이버시와 윤리]에서는 데이터 과학이 윤리에 미치는 영향, 데이터 규제의 최근 동향, 개인의 프라이버시를 보호하는 새로운 기술적 접근법 등을 살펴본다. 여러 분야의 다양한 맥락에서 개인에 대한 데이터를 수집하고 사용하는 것에 대해 어떻게 접근하는 것이 합리적일까? 물론 정답은 없다.

마지막 7장 [미래 동향과 성공의 원칙]에서는 가까운 미래에 데이터 과학이 상당한 영향을 몰고 올 개인화된 의료와 스마트 도시 두 영역을 알아보고, 데이터 과학 프로젝트가 성공하는 데 결정적 역할을 하는 중요한 원칙 몇 가지를 제시한다.

[옮긴이의 말] 중에서

이 책은 학문적 기초, 기술적 응용, 윤리 세 측면을 적절한 황금 비율로 다루고 있다는 점에서 다른 책들과 다르다. 디지털, 정보통신(IT)과 과학 분야 출입 기자로서의 경험 및 컴퓨터와 저널리즘 융합 학위 연수 등 지난 6년여 동안 데이터 과학 분야의 여러 책을 보아왔는데 이런 책들은 대개 세 부류 가운데 하나로 나눌 수 있는 것 같다. 첫째, 컴퓨터 기술 활용에 대한 실용서적이다. 데이터 분석과 관련 프로그래밍 등에 대한 기술적인 내용을 주로 다루는 책이다. 둘째, 빅데이터 시대를 소개하는 경영 및 자기계발 분야 서적이다. 주로 상업적 기획에 초점을 맞추면서 이른바 ‘4차 산업혁명’을 어떻게 맞아야 하는지에 대한 내용을 다룬다. 셋째, 데이터와 디지털 문화의 위험을 다룬 책이다. 이런 기술이 사회와 인간에 미치는 영향을 검토한 비판서들이다. 이 책은 균형 감각을 갖추고 이런 세 분야를 모두 아우르고 있다.

무엇이든 새로운 것을 접할 때는 시작이 어렵다. 시작부터 너무 자세한 부분까지 깊숙이 들어가면 벗어나고 싶은 생각이 커지기 마련이다. 그렇다고 너무 얕으면 하나마나하다는 생각이 든다. 이 책은 깊이에서도 적절한 균형을 잡고 있다. 데이터 과학 전반에 대한 소개뿐 아니라 선형회귀나 신경망, 의사결정 나무 등 기계학습의 주요 알고리즘과 개념 등에 대해 설명하는 대목에선 수학적인 내용까지 다루고 있지만 고등학교 수학 과정을 공부한 사람이면 이해할 수 있을 정도로 적절한 선을 유지했다. 이런 학문적 개념까지 다루고 있기 때문에 단지 “기계학습이 이런 놀라운 일을 할 수 있다”나 “빅데이터 분석이 사회를 이렇게 바꾸고 있다” 정도만 다루는 책들과 분명한 차별점을 지닌다.

저자 프로필

저자
- 존 켈러허
- 브렌던 티어니
번역
- 권오성

존 켈러허 John Kelleher

2019.10.24. 업데이트 작가 프로필 수정 요청

대표 저서

10%할인 상세페이지 바로가기

4.3점3명참여

저자 소개

저 : 존 켈러허 (John Kelleher)
더블린공과대학교 컴퓨터과학부 교수이자 부속기관인 정보통신 및 엔터테인먼트 연구소 소장. 인공지능, 기계학습 분야에서 세계적으로 인정받는 전문가다. 더블린시립대학교, 유럽미디어연구소, 독일인공지능연구센터 등 여러 대학과 연구소에서 일했다. 지은 책으로 『딥러닝』『데이터 예측을 위한 머신 러닝』(공저)이 있다.

저 : 브렌던 티어니 (Brendan Tierney)
더블린공과대학교 컴퓨터과학부 강사로, 데이터 과학, 데이터베이스, 빅데이터에 관해 강의한다. 오라클의 에이스 디렉터이자 디벨로퍼 챔피온 프로그램의 멤버이기도 하다. 데이터 과학 분야에서 25년 이상의 경력을 지닌 전문가로 세계 여러 나라의 프로젝트를 수행했다. 3권의 오라클 기술 교재를 집필했다.

역 : 권오성
한겨레신문사 데이터분석센터 준비팀장. 2007년 입사하여 사회부, 국제부, 온라인영상팀, IT 등의 영역을 두루 거쳤다. 과학 분야를 맡던 중 뉴욕 시러큐스대학교로 연수를 떠나 컴퓨터 기술과 저널리즘의 융합 전공인 컴퓨테이셔널 저널리즘 석사 과정을 마쳤다. 미디어의 미래, 인공지능이 사회에 가져올 영향 등에 관심이 많다. 지은 책으로 『미래와 과학』(공저)이 있다.

감사의 말
들어가는 말
1장 데이터 과학은 무엇인가?
2장 데이터와 데이터 세트란 무엇인가?
3장 데이터 과학 생태계
4장 기계학습 101
5장 표준적인 데이터 과학 업무
6장 프라이버시와 윤리
7장 미래 동향과 성공의 원칙
옮긴이의 말
용어설명
주
더 읽을거리
참고문헌
찾아보기

리뷰

구매자 별점

4.3 점

점수비율

5
4
3
2
1

3명이 평가함

리뷰 작성 영역

이 책을 평가해주세요!

내가 남긴 별점 0.0

별로예요

그저 그래요

보통이에요

최고예요

별점 취소

별 1개 별 2개 별 3개 별 4개 별 5개

스포일러가 있습니다.

구매자 표시 기준은 무엇인가요?

'구매자' 표시는 리디에서 유료도서 결제 후 다운로드 하시거나 리디셀렉트 도서를 다운로드하신 경우에만 표시됩니다.

무료 도서 (프로모션 등으로 무료로 전환된 도서 포함): '구매자'로 표시되지 않습니다.
시리즈 도서 내 무료 도서: '구매자’로 표시되지 않습니다. 하지만 같은 시리즈의 유료 도서를 결제한 뒤 리뷰를 수정하거나 재등록하면 '구매자'로 표시됩니다.
영구 삭제: 도서를 영구 삭제해도 ‘구매자’ 표시는 남아있습니다.
결제 취소: ‘구매자’ 표시가 자동으로 사라집니다.

소장	종이책 정가	14,800원
	전자책 정가	32%10,000원
	판매가	10%9,000원

데이터 과학