본문 바로가기

리디 접속이 원활하지 않습니다.
강제 새로 고침(Ctrl + F5)이나 브라우저 캐시 삭제를 진행해주세요.
계속해서 문제가 발생한다면 리디 접속 테스트를 통해 원인을 파악하고 대응 방법을 안내드리겠습니다.
테스트 페이지로 이동하기

실무 예제로 배우는 데이터 공학 상세페이지

컴퓨터/IT 개발/프로그래밍

실무 예제로 배우는 데이터 공학

파이썬과 오픈소스 프로젝트로 만드는 나만의 데이터 공학
소장종이책 정가27,000
전자책 정가30%18,900
판매가18,900
실무 예제로 배우는 데이터 공학 표지 이미지

실무 예제로 배우는 데이터 공학작품 소개

<실무 예제로 배우는 데이터 공학> 실시간 데이터 파이프라인을 구축, 모니터링 및 관리하고,
Apache 프로젝트를 사용하여 효율적인 데이터 엔지니어링 인프라를 생성한다!

이 책을 다 읽고 나면 파이썬과 오픈소스 프로젝트들을 이용한 데이터 공학이 어떤 것인지 확실하게 이해하게 될 것이며, 데이터를 추출하고, 그 품질을 점검하고, 용도에 맞게 적절히 변환하는 데이터 파이프라인을 구축해 낼 수 있는 자신감이 생길 것이다.


출판사 서평

실시간 데이터 파이프라인을 구축, 모니터링 및 관리하고,
Apache 프로젝트를 사용하여 효율적인 데이터 엔지니어링 인프라를 생성한다!

이 책은 데이터 공학의 기초를 소개하고, 대형 데이터 집합을 다루는 데이터 파이프라인을 구축하는 데 필요한 다양한 기술과 프레임워크를 개괄한다. 여러 예제를 통해 데이터를 정제하고 변환하는 방법과 데이터를 분석해서 데이터에서 최대한 많은 것을 얻는 방법을 배우게 될 것이다. 또한, 이 책은 복잡하고 덩치 큰 데이터를 다루는 방법과 실무 환경에 적합한 데이터 파이프라인을 구축하고 관리하는 방법도 설명한다. 현실적인 예제를 통해서는 데이터 파이프라인을 위한 기반 구조를 구축하고 실무 환경에 데이터 파이프라인을 배치하는 방법을 배우게 될 것이다.

이 책을 다 읽고 나면 파이썬과 오픈소스 프로젝트들을 이용한 데이터 공학이 어떤 것인지 확실하게 이해하게 될 것이며, 데이터를 추출하고, 그 품질을 점검하고, 용도에 맞게 적절히 변환하는 데이터 파이프라인을 구축해낼 수 있는 자신감이 생길 것이다.

이 책의 특징 및 구성

- 데이터 과학 및 분석 작업을 지원하는 데이터 공학자의 역할과 임무
- 파일과 데이터베이스에서 데이터를 추출하는 방법과 데이터를 정제하고, 변환하고, 증강하는 방법
- 다양한 형식의 파일을 읽고 쓰는 방법과 SQL 및 NoSQL 데이터베이스를 다루는 방법
- 데이터 파이프라인을 구축하고 대시보드를 이용해서 데이터 흐름을 시각화하는 방법
- 데이터를 웨어하우스에 적재하기 전에 스테이징과 검증 단계를 이용해서 데이터를 점검하는 방법
- 데이터를 검증하고 장애를 처리하는 스테이징 단계를 가진 실시간 데이터 파이프라인 구축 방법
- 데이터 파이프라인을 실무 환경에 배치하는 방법과 주의 사항

이 책의 대상 독자

- 데이터 공학자나 IT 전문가가 되고자 하는 학생
- 데이터 공학 분야에 진입하고자 하는 현업 개발자
- 실무에서 데이터를 추출-변환-적재해야 하는 현업 개발자
- 파이썬을 자신의 업무에 적용하고자 하는 기존 데이터 공학자 또는 데이터 분석가



저자 소개

저 : 폴 크리커드 (Paul Crickard)

폴 크리커드는 《Leaflet.js Essentials: Community Experience Distilled》(2014, Packt)의 저자이자 《Mastering Geospatial Analysis with Python》(2018, Packt)의 공동 저자이며, 미국 뉴멕시코 주 앨버커키에 소재한 제2지방검찰청의 최고 정보 책임자(CIO)로 있다.
정치학 석사 학위 소지자이면서 공동체 및 지역 개발 경력을 지닌 저자는 사회과학 이론과 기법을 기술 프로젝트와 접목하는 전문가이기도 하다. ‘New Mexico Big Data and Analytics Summit’과 ‘Experience IT NM Conference’에 참여했고, ‘New Mexico Big Data Working Group’, ‘Sandia National Labs’, ‘New Mexico Geographic Information Council’에서 강연자로 나서기도 했다.


역 : 류광

25년 이상의 번역 경력을 가진 전문 번역가로, 커누스 교수의 『컴퓨터 프로그래밍의 예술』(The Art of Computer Programming) 시리즈와 스티븐스의 『UNIX 고급 프로그래밍』(Advanced Programming in UNIX Environment) 제2판 및 제3판을 포함하여 60여 권의 다양한 IT 전문서를 번역했다.
번역과 프로그래밍 외에 소프트웨어 문서화에도 많은 관심이 있으며, 수많은 오픈소스 프로젝트의 표준 문서 형식으로 쓰이는 DocBook의 국내 사용자 모임인 닥북 한국(docbook.kr)의 일원이다. 홈페이지 occam’s Razor(occamsrazr.net)와 게임 개발 사이트 GpgStudy(www.gpgstudy.com)를 운영한다.

목차

PART I 데이터 파이프라인 구축: 추출, 변환, 적재
CHAPTER 1 데이터 공학이란?
1.1 데이터 공학자가 하는 일
1.2 데이터 공학 대 데이터 과학
1.3 데이터 공학 도구들
1.4 요약

CHAPTER 2 데이터 공학 기반구조 구축
2.1 아파치 NiFi의 설치와 설정
2.2 아파치 에어플로의 설치와 설정
2.3 일래스틱서치의 설치와 설정
2.4 키바나의 설치와 설정
2.5 PostgreSQL의 설치와 설정
2.6 pgAdmin 4 설치
2.6.1 pgAdmin 4 둘러보기
2.7 요약

CHAPTER 3 파일 읽고 쓰기
3.1 파이썬으로 파일 쓰고 읽기
3.2 아파치 에어플로 데이터 파이프라인 구축
3.3 NiFi 처리기를 이용한 파일 다루기
3.4 요약

CHAPTER 4 데이터베이스 다루기
4.1 파이썬을 이용한 관계형 데이터 삽입 및 추출
4.2 파이썬을 이용한 NoSQL 데이터베이스 데이터 삽입 및 추출
4.3 데이터베이스를 위한 아파치 에어플로 데이터 파이프라인 구축
4.4 NiFi 처리기를 이용한 데이터베이스 처리
4.4.1 PostgreSQL에서 데이터 추출 / 4.4.2 데이터 파이프라인 실행
4.5 요약

CHAPTER 5 데이터의 정제, 변환, 증강
5.1 파이썬을 이용한 탐색적 데이터 분석
5.2 pandas를 이용한 공통적인 데이터 문제점 처리
5.3 에어플로를 이용한 데이터 정제
5.4 요약

CHAPTER 6 실습 프로젝트: 311 데이터 파이프라인 만들기
6.1 데이터 파이프라인 구축
6.2 키바나 대시보드 만들기
6.3 요약

PART II 실무 환경 데이터 파이프라인 배치
CHAPTER 7 실무용 데이터 파이프라인의 특징
7.1 데이터의 스테이징과 검증
7.2 멱등적 데이터 파이프라인 구축
7.3 원자적 데이터 파이프라인 구축
7.4 요약

CHAPTER 8 NiFi 레지스트리를 이용한 버전 관리
8.1 NiFi 레지스트리의 설치과 설정
8.2 NiFi에서 레지스트리 사용
8.3 데이터 파이프라인 버전 관리
8.4 NiFi 레지스트리에서 git-persistence 활용
8.5 요약

CHAPTER 9 데이터 파이프라인 모니터링
9.1 NiFi GUI를 이용한 데이터 파이프라인 모니터링
9.2 NiFi 처리기를 이용한 데이터 파이프라인 모니터링
9.3 파이썬과 REST API를 이용한 데이터 파이프라인 모니터링
9.4 요약

CHAPTER 10 데이터 파이프라인 배치
10.1 실무 배치를 위한 데이터 파이프라인 마무리 작업
10.2 NiFi 변수 레지스트리 활용
10.3 데이터 파이프라인 배치
10.4 요약

CHAPTER 11 실습 프로젝트: 실무용 데이터 파이프라인 구축
11.1 검사 환경과 실무 환경 구축
11.2 실무용 데이터 파이프라인 구축
11.3 데이터 파이프라인을 실무 환경에 배치
11.4 요약

PART III 일괄 처리를 넘어서: 실시간 데이터 파이프라인 구축
CHAPTER 12 아파치 카프카 클러스터 구축
12.1 주키퍼 및 카프카 클러스터 생성
12.2 카프카 클러스터 시험 운영
12.3 요약

CHAPTER 13 카프카를 이용한 데이터 스트리밍
13.1 로깅의 기초
13.2 카프카의 로그 활용 방식
13.3 카프카와 NiFi를 이용한 데이터 파이프라인 구축
13.4 스트림 처리와 일괄 처리의 차이
13.5 파이썬을 이용한 메시지 생산 및 소비
13.6 요약

CHAPTER 14 아파치 스파크를 이용한 데이터 처리
14.1 아파치 스파크의 설치와 설정
14.2 PySpark의 설치와 설정
14.3 PySpark를 이용한 데이터 처리
14.4 요약
CHAPTER 15 MiNiFi, 카프카, 스파크를 이용한 실시간 엣지 데이터 처리
15.1 MiNiFi 설치 및 설정
15.2 MiNiFi 데이터 파이프라인 구축 및 연동
15.3 요약

APPENDIX A NiFi 클러스터 구축


리뷰

구매자 별점

0.0

점수비율
  • 5
  • 4
  • 3
  • 2
  • 1

0명이 평가함

리뷰 작성 영역

이 책을 평가해주세요!

내가 남긴 별점 0.0

별로예요

그저 그래요

보통이에요

좋아요

최고예요

별점 취소

구매자 표시 기준은 무엇인가요?

'구매자' 표시는 리디에서 유료도서 결제 후 다운로드 하시거나 리디셀렉트 도서를 다운로드하신 경우에만 표시됩니다.

무료 도서 (프로모션 등으로 무료로 전환된 도서 포함)
'구매자'로 표시되지 않습니다.
시리즈 도서 내 무료 도서
'구매자’로 표시되지 않습니다. 하지만 같은 시리즈의 유료 도서를 결제한 뒤 리뷰를 수정하거나 재등록하면 '구매자'로 표시됩니다.
영구 삭제
도서를 영구 삭제해도 ‘구매자’ 표시는 남아있습니다.
결제 취소
‘구매자’ 표시가 자동으로 사라집니다.

이 책과 함께 구매한 책


이 책과 함께 둘러본 책



본문 끝 최상단으로 돌아가기

spinner
모바일 버전