빅데이터작품 소개

<빅데이터> 람다 아키텍처로 알아보는

실시간 빅데이터 구축의 핵심 원리와 기법

소셜 네트워크, 웹 분석, 그리고 지능적 전자 상거래와 같은 서비스에서는 종종 전통적인 데이터베이스로 처리하기에는 너무 큰 규모의 데이터를 관리해야 합니다. 확장되고 요구가 늘어남에 따라 복잡성은 증가하고, 빅데이터를 다루는 것은 단지 RDBMS의 규모를 두 배로 늘리거나 유행하는 새로운 기술을 내놓는 것만큼 간단하지는 않습니다. 다행히 확장성과 단순성은 서로 배타적이지 않습니다. 단지 다른 접근법을 취할 필요가 있을 뿐입니다. 빅데이터 시스템은 병렬로 동작하는 여러 대의 장비를 사용하여 데이터를 저장하고 처리하며, 대부분의 개발자들이 빅데이터 시스템을 다루려면 익숙하지 않은 근본적인 도전을 마주해야 합니다.

빅데이터는, 클러스터링된 하드웨어와 웹 규모의 데이터를 모으고 분석할 수 있도록 특화 설계된 새로운 도구들을 이용하는 아키텍처를 사용하여 이러한 시스템을 구축하는 방법을 알려줍니다. 작은 팀으로도 구축하고 운영할 수 있는 빅데이터 시스템으로의 확장성 있고 이해하기 쉬운 접근법을 설명합니다. 이 책은 현실적인 예제를 따라가면서 빅데이터 시스템에 관한 이론과 빅데이터 시스템을 실제로 구축하는 방법을 독자들에게 안내합니다.

빅데이터를 읽기 위해 대규모 데이터 분석이나 NoSQL 도구에 대한 경험이 필요하지는 않습니다. 전통적인 데이터베이스에 익숙하면 도움이 되지만 필수는 아닙니다. 이 책의 목적은 데이터 시스템에 관한 사고를 하는 방법과 어려운 문제를 쪼개서 단순한 해결책을 찾는 방법을 여러분에게 가르쳐 주는 것입니다. 기본 원칙으로 시작하여 그로부터 아키텍처의 각 구성요소에 필요한 속성을 이끌어 낼 것입니다.

출판사 서평

빅데이터 시스템을 소개하고, 웹 규모 데이터의 실시간 처리 안내

하둡, 카산드라, 스톰 같은 도구들과 전통적 데이터베이스 기술의 확장

소셜 네트워크, 실시간 분석, 전자 상거래 사이트와 같은 웹 규모의 애플리케이션은 상당한 양의 데이터를 다룹니다. 그 데이터의 속도와 양은 전통적인 데이터베이스 시스템의 처리 한계를 넘습니다. 이런 애플리케이션들은 어떤 크기의 데이터라도 빠르게 저장하고 처리할 수 있도록 여러 장비를 클러스터 형태로 엮어서 사용하는 아키텍처가 필요합니다. 다행히 규모와 단순성은 서로 배타적이지 않습니다.

이 책은 웹 규모의 데이터를 획득하고 분석하기 위해 특별히 설계된 아키텍처를 사용해서 빅데이터 시스템 구축 방법을 소개합니다. 이 책에서 설명하는 람다 아키텍처는 확장 가능하고 이해하기 쉬운 접근법으로 적은 인원의 팀으로도 구축과 운영이 가능합니다. 빅데이터 시스템의 이론과 실제적인 구현 방법과, 빅데이터를 처리하기 위한 일반적인 프레임워크를 발견하고 하둡과 스톰, 그리고 NoSQL 데이터베이스와 같은 특정 기술들을 알려줍니다.

빅데이터에 관심을 갖고 이것저것 궁금한 입문자, 실무에서 직접 활용 중인 사람 모두에게 딱 필요한 도서입니다. 또한 본문 내 ‘용어 대역 원칙 및 용어 대역표’를 추가함으로써 실무자가 현장에서 직접 사용되는 원어를 쉽게 찾아볼 수 있습니다.

저자 프로필

네이선 마츠 Nathan Marz

경력 캐스캘로그 경영자
2011년 백타입 리드엔지니어

2016.01.26. 업데이트 작가 프로필 수정 요청

대표 저서

상세페이지 바로가기

4.8점5명참여

저자 소개

지은이 | 네이선 마츠(Nathan Marz)
2011년 백타입이 트위터에 인수되기 전까지 백타입에서 리드엔지니어로 근무했다. 트위터에서는 스트리밍 컴퓨팅 팀을 조직하여 트위터 전사에 걸친 여러 중요 실시간 애플리케이션들을 지원하는 공유 인프라를 개발 지원했다. 현재는 새로운 스타트업에서 일하고 있다. 오픈소스 프로젝트인 캐스캘로그와 스톰의 창시자이고, 이 프로젝트들은 야후!, 트위터, 그루폰, 웨더 채널, 타오바오 등 많은 회사에서 널리 사용되고 있다.

지은이 | 제임스 워렌(James Warren)
스톰8의 분석 아키텍트이고, 빅데이터 처리, 기계학습, 계산과학의 경력을 가지고 있다.

옮긴이 | 김영준
아주대학교에서 컴퓨터 공학을 전공했다. 네이버에서 검색 서비스 개발, 모니터링 시스템 개발 등의 업무를 거쳐 현재는 네이버 증분 검색 시스템에 사용되는 솔루션을 개발하고 있다.

옮긴이 | 이도경
서울대학교 컴퓨터 공학부를 졸업하였고 동 대학원에서 석사 학위를 취득하였다. 네이버에서 검색 관련 개발과 운영을 해왔고 최근에는 검색 문서 정제를 위한 대용량 실시간 데이터 처리 시스템을 개발하고 있다. 개발 생산성 향상 방법, 동료와 같이 성장하는 협업 방법에도 관심이 많다.

옮긴이 | 정재부
현재 네이버에서 다양한 분산 오픈소스 솔루션들을 이용해서 검색 문서 정제 플랫폼을 만들고 있다. 하둡, H베이스 기반의 멀티 테넌트 분산 플랫폼 구축과 스톰, 스파크를 이용한 검색 문서 정제 프레임워크 개발에 관심이 많다.

감수 | 곽용재
2004년에 고려대학교 컴퓨터학과에서 전산학 박사 학위를 받고 현재 네이버의 검색시스템센터에서 검색서비스 개발 및 관련 검색 플랫폼 개발을 책임지고 있다. 최근 대규모 서비스 플랫폼에 대한 다차원적인 관리 체계를 구축하는 데에 많은 시간을 쏟고 있다. 1997년부터 컴퓨터 프로그래밍 서적 번역가 및 기술저술가로 활동해 왔다.

1장 빅데이터를 위한 새로운 패러다임
1.1 이 책의 구성
1.2 전통적인 데이터베이스를 사용하여 확장하기
1.3 NoSQL은 만병통치약이 아닙니다.
1.4 기본 원칙
1.5 빅데이터 시스템에 요구되는 속성
1.6 완전 증분 아키텍처의 문제점
1.7 람다 아키텍처
1.8 최근의 기술 동향
1.9 예제 애플리케이션: SuperWebAnalytics.com
1.10 요약

2장 빅데이터를 위한 데이터 모델
2.1 데이터의 속성
2.2 데이터 표현을 위한 팩트 기반 모델
2.3 그래프 스키마
2.4 SuperWebAnalytics.com에 대한 최종 데이터 모델
2.5 요약

3장 빅데이터를 위한 데이터 모델: 사례
3.1 어째서 직렬화 프레임워크인가요?
3.2 아파치 스리프트
3.3 직렬화 프레임워크의 한계
3.4 요약

4장 일괄처리 계층의 데이터 저장소
4.1 마스터 데이터 집합 저장소의 요구 사항
4.2 일괄처리 계층을 위한 저장소 솔루션 선택
4.3 분산 파일시스템의 동작 방식
4.4 분산 파일시스템을 사용하여 마스터 데이터 집합을 저장하기
4.5 수직 분할
4.6 분산 파일시스템의 하위 수준 속성
4.7 SuperWebAnalytics.com의 마스터 데이터 집합을 분산 파일시스템에 저장하기
4.8 요약

5장 일괄처리 계층의 데이터 저장소: 사례
5.1 하둡 분산 파일시스템 사용하기
5.2 페일을 사용하여 일괄처리 계층에 데이터를 저장하기
5.3 SuperWebAnalytics.com의 마스터 데이터 집합 저장하기
5.4 요약

6장 일괄처리 계층
6.1 일괄처리의 구실로 좋은 예제
6.2 일괄처리 계층에서 계산을 수행하기
6.3 재계산 알고리즘 대 증분 알고리즘
6.4 일괄처리 계층에서의 확장성
6.5 맵리듀스: 빅데이터 계산을 위한 패러다임
6.6 맵리듀스의 하위 수준 속성

7장 일괄처리 계층: 사례
7.1 사례가 되는 보기
7.2 데이터 처리 코드에서 생기는 흔한 함정
7.3 J캐스캘로그 소개
7.4 합성
7.5 요약

8장 일괄처리 계층 예제: 아키텍처와 알고리즘
8.1 SuperWebAnalytics.com 일괄처리 계층의 설계
8.2 전체 작업흐름
8.3 새 데이터 채워 넣기
8.4 URL 정규화
8.5 사용자 식별자 정규화
8.6 페이지뷰의 중복 제거
8.7 일괄처리 뷰 계산
8.8 요약

9장 일괄처리 계층 예제: 구현
9.1 시작점
9.2 작업흐름 구현 준비
9.3 새 데이터 채워 넣기
9.4 URL 정규화
9.5 사용자 식별자 정규화
9.6 페이지뷰의 중복 제거
9.7 일괄처리 뷰 계산
9.8 요약

10장 서빙 계층
10.1 서빙 계층에 대한 성능 측정기준
10.2 정규화/비정규화 문제에 대한 서빙 계층의 해결책
10.3 서빙 계층 데이터베이스에 대한 요구 사항
10.4 SuperWebAnalytics.com을 위한 서빙 계층 설계
10.5 완전 증분 솔루션과의 대조
10.6 요약

11장 서빙 계층: 사례
11.1 엘리펀트DB의 기본
11.2 SuperWebAnalytics.com의 서빙 계층 구축하기
11.3 요약

12장 실시간 뷰
12.1 실시간 뷰 계산하기
12.2 실시간 뷰 저장하기
12.3 증분식 계산의 어려운 점
12.4 비동기식 대 동기식 갱신
12.5 실시간 뷰 만료시키기
12.6 요약

13장 실시간 뷰: 사례
13.1 카산드라의 데이터 모델
13.2 카산드라 사용하기
13.3 요약

14장 큐잉과 스트림 처리
14.1 큐잉
14.2 스트림 처리
14.3 ‘한 번에 하나’ 방식의 상위 수준 스트림 처리
14.4 SuperWebAnalytics.com 속도 계층
14.5 요약

15장 큐잉과 스트림 처리: 사례
15.1 아파치 스톰으로 토폴로지 정의하기
15.2 아파치 스톰 클러스터와 배포
15.3. 메시지 처리 보장하기
15.4 SuperWebAnalytics.com의 시간대별 순방문자 수를 구하는 속도 계층 구현하기
15.5 요약

16장 ‘미세 일괄’ 스트림 처리
16.1 ‘정확히 한 번’ 의미구조 달성하기
16.2 ‘미세 일괄’ 처리의 핵심 개념
16.3 ‘미세 일괄’ 처리용으로 파이프 다이어그램을 확장하기
16.4 SuperWebAnalytic.com을 위한 속도 계층 완성하기
16.5 다른 관점에서 보는 이탈률 분석 예제
16.6 요약

17장 ‘미세 일괄’ 스트림 처리: 사례
17.1 트라이던트 사용하기
17.2 SuperWebAnalytic.com을 위한 속도 계층 완성하기
17.3 완전한 내결함성을 가진, 인-메모리 방식 ‘미세 일괄’ 처리
17.4 요약

18장 람다 아키텍처, 더 깊이 살펴보기
18.1 데이터 시스템을 정의하기
18.2 일괄처리 계층과 서빙 계층
18.3 속도 계층
18.4 질의 계층
18.5 요약

리뷰

구매자 별점

4.8 점

점수비율

5
4
3
2
1

5명이 평가함

리뷰 작성 영역

이 책을 평가해주세요!

내가 남긴 별점 0.0

별로예요

그저 그래요

보통이에요

최고예요

별점 취소

별 1개 별 2개 별 3개 별 4개 별 5개

스포일러가 있습니다.

구매자 표시 기준은 무엇인가요?

'구매자' 표시는 리디에서 유료도서 결제 후 다운로드 하시거나 리디셀렉트 도서를 다운로드하신 경우에만 표시됩니다.

무료 도서 (프로모션 등으로 무료로 전환된 도서 포함): '구매자'로 표시되지 않습니다.
시리즈 도서 내 무료 도서: '구매자’로 표시되지 않습니다. 하지만 같은 시리즈의 유료 도서를 결제한 뒤 리뷰를 수정하거나 재등록하면 '구매자'로 표시됩니다.
영구 삭제: 도서를 영구 삭제해도 ‘구매자’ 표시는 남아있습니다.
결제 취소: ‘구매자’ 표시가 자동으로 사라집니다.

소장	종이책 정가	20,000원
	전자책 정가	30%14,000원
	판매가	14,000원

빅데이터

빅데이터작품 소개

출판사 서평

저자 프로필

네이선 마츠 Nathan Marz

저자 소개

목차

리뷰

리뷰 및 사용자 신고하기

댓글 및 사용자 신고하기

사용자 차단

사용자 차단 해제

이 책과 함께 구매한 책

이 책과 함께 둘러본 책

성인 인증 안내

성인 재인증 안내