본문 바로가기

리디 접속이 원활하지 않습니다.
강제 새로 고침(Ctrl + F5)이나 브라우저 캐시 삭제를 진행해주세요.
계속해서 문제가 발생한다면 리디 접속 테스트를 통해 원인을 파악하고 대응 방법을 안내드리겠습니다.
테스트 페이지로 이동하기

[리얼타임 ]Think Stats : 프로그래머를 위한 통계 및 데이터 분석 방법 상세페이지

리디 info

도서 이용 안내
서점에서 판매 중인 리얼타임 시리즈는 DRM-Free 도서가 아닙니다.
DRM-Free 도서는 한빛미디어 홈페이지에서 별도 구매하셔야 합니다.
도서 이용에 참고 부탁드립니다.


[리얼타임 ]Think Stats : 프로그래머를 위한 통계 및 데이터 분석 방법작품 소개

<[리얼타임 ]Think Stats : 프로그래머를 위한 통계 및 데이터 분석 방법> "데이터를 분석하려면 통계 개념을 알아야 한다!

몇 년 전부터, 여러 곳에서 미래의 유망 직종으로 '데이터 사이언티스트'라는 신종 직업을 언급하고 있다. 데이터 사이언티스트란 분석과 개발이 명확히 구분되던 과거와 달리, 데이터 분석과 개발을 동시에 할 수 있는 고급 인력을 뜻한다. 특히 요즘처럼 빅데이터가 주목받는 시대에는 빅데이터를 자유자재로 다루는 것은 물론, 그 데이터를 분석하여 데이터 속의 숨은 가치를 찾아 주는 데이터 사이언티스트의 수요가 늘어날 수밖에 없다. 하지만 기존 분석가들에게는 개발이라는 장벽이, 기존 개발자들에게는 통계학이라는 장벽이 존재한다. 개발 회사 및 연구소에 근무하면서 통계학이라는 장벽을 넘지 못하여 좌절하는 개발자가 종종 있다.

데이터를 분석하려면 통계 개념을 잘 알고 있어야 한다. 또한, 데이터 분석 도구의 개념도 잘 알아야 한다. 이 책은 데이터를 수집하거나 패턴 및 테스트 가설을 세우는 일 등의 사례를 배우면서 데이터 분석 프로세스와 데이터 분석 방법의 이해를 하는 데 도움이 될 것이다."

"데이터 사이언티스트를 꿈꾸는 프로그래머를 위한 통계 및 확률 입문서
이 책은 통계와 확률을 학습하는 데 어려움을 겪고 있는 개발자들에게 데이터를 분석하는 데 필요한 통계적 이론을 개발자의 관점에서 쉽게 설명해 준다. 과거, 통계학 입문 서적은 복잡한 수식을 통한 이론 설명에 집중하여 개발자가 쉽게 접근할 수 없었다. 이에 반해, 이 책은 복잡한 수식을 배제하고 파이썬 코드를 이용해 개발자적인 관점에서 이론 부분을 설명함으로써, 개발자들도 복잡한 통계 이론을 쉽게 이해할 수 있도록 돕는다. 물론 통계 전문 용어를 그대로 사용하기 때문에, 초반에는 개발자들이 조금 어렵고 낯설게 느낄 수도 있다. 하지만 매 장 부록마다 해당 장에서 다룬 통계 전문 용어를 설명해 주고 있어서, 큰 문제가 되지는 않을 것이라 확신한다.

이 책은 확률과 통계 입문 수업을 위한 새로운 종류의 교과서로, 크기가 큰 데이터 세트를 분석하는 데 통계를 어떻게 사용하는지에 초점을 맞췄다. 이 책은 또한 컴퓨터를 이용한 접근 방식을 취하는데, 여기에는 다음과 같은 장점이 있다.

프로그램을 작성해 봄으로써 자신이 이해한 부분을 발전시켜 보고 검증해 볼 수 있다. 예를 들어, 최소제곱법, 잔차, 그리고 결정계수를 계산하는 함수를 작성할 수 있다. 코드를 작성하고 검증하기 위해서는 이와 관련된 개념을 이해해야 하며, 잘못 이해하고 있었던 부분은 무조건 바로 잡아야 한다.
독자는 통계학적 거동을 검증하기 위해 실험을 해 볼 수 있다. 예를 들어, 몇몇 분포에서 샘플(표본)을 생성해 보면서 중심극한정리를 탐구해 볼 수 있다. 파레토 분포에서 생성한 변수의 합이 정규로 수렴하지 않는 것을 보면서는 CLT의 기본 가정을 기억하게 된다.
시뮬레이션을 통해 수학적으로 이해하기 힘든 개념을 쉽게 이해할 수 있다. 예를 들어, 몬테카를로 시뮬레이션으로 p-value의 근사치를 계산함으로써 p-value의 의미를 더 잘 이해할 수 있다.
이산 분포와 컴퓨터를 이용한 계산을 통해 베이지안 추정 같은, 입문 수업에서 다루기 힘든 주제를 논할 수 있다. 예를 들어 '독일 탱크 문제'와 관련하여 사후 분포를 계산해 보라고 한다면? 이 문제는 수리적 또는 해석학적으로는 풀기 어렵지만 컴퓨터로 계산하면 놀라울 정도로 쉽게 답을 구할 수 있다.
파이썬 같은 범용 프로그래밍 언어를 사용하기 때문에 어떤 종류의 데이터든 대부분 불러올 수 있다. 특정 통계 툴에 맞게 포맷 변경과 정제 작업을 거친 데이터도 아무 제약 없이 사용할 수 있다.
이 책은 프로젝트 중심으로 구성했다. 실제 강의에서 필자는 학생들에게 한 학기 동안 통계적 문제 해결 방식이 필요한 프로젝트를 주고, 그에 알맞은 데이터를 찾게 하였다. 여러분은 여러 통계적 기술을 데이터에 직접 적용해 봄으로써 데이터에 대해 배울 수 있다."


저자 프로필

앨런 B. 다우니

  • 학력 UC 버클리 대학교 박사
    MIT 석사
    MIT 학사
  • 경력 올린 공과대학(Olin College of Engineering) 전산학과 부교수

2018.06.12. 업데이트 작가 프로필 수정 요청


저자 소개

"[지은이] 앨런 B. 다우니
MIT에서 학사와 석사 학위를 취득하였고, UC 버클리 대학(U.C Berkeley0에서 박사 학위를 받았다. 현재 올린 공과대학(Olin College of Engineering) 전산학과 부교수로 재직 중이며, 웰즐리 대학(Wellesley College), 콜비 대학(Colby College), UC 버클리 대학 전산학과에서도 강의를 하고 있다.


[옮긴이] 김석우
데이터를 사랑하고 데이터 속에서 무엇을 발견할지 항상 고민하는 분석가 겸 개발자다. 학부 때는 수치 해석 및 수학적 최적화 방법에 매료되어 수학을 전공했고, 석사 때는 통계적 데이터 마이닝에 매료되어 통계학 석사를 취득하였다. 이후 Daum Communications 검색 본부 데이터 마이닝 팀을 거쳐 현재는 SK플래닛 데이터 기술연구소의 Data Analytics 팀에서 근무하고 있다. Daum에 근무할 때부터 최근 화두가 되고 있는 빅데이터를 유용하게 분석하여 가치를 뽑아내는 것에 대해 고민해 왔으며, 단순히 분석뿐만 아니라 개발에 어떻게 활용할 수 있을지 연구하고 있다. 개발자들에게 분석 및 통계 이론을 전파하려고 노력하며, 분석가들에게는 분석을 위한 개발 방법과 최신 기술을 전파하기 위해 노력 중이다."

목차

"1. 프로그래머를 위한 통계적 사고
1.1 첫아이는 예정일보다 늦게 태어날까?
1.2 통계적 접근
1.3 전미 가족 성장 조사
1.4 테이블과 레코드
1.5 유의성
1.6 용어 정리

2. 기술 통계
2.1 평균값과 평균
2.2 분산
2.3 분포
2.4 히스토그램으로 표현하기
2.5 히스토그램 그리기
2.6 PMF 표현하기
2.7 PMF 그리기
2.8 극단값
2.9 그 외의 시각화 방법
2.10 상대 위험도
2.11 조건부 확률
2.12 결과 해석하기
2.13 용어 정리

3. 누적 분포 함수
3.1 학생 대 교수 비율의 역설
3.2 PMF의 한계
3.3 백분위수
3.4 누적 분포 함수
3.5 CDF 표현하기
3.6 다시 설문 조사 데이터 살펴보기
3.7 조건부 분포
3.8 난수
3.9 요약 통계 다시 짚어 보기
3.10 용어 정리

4. 연속 분포
4.1 지수 분포
4.2 파레토 분포
4.3 정규 분포
4.4 정규 확률 그림
4.5 로그 정규 분포
4.6 왜 모델링을 해야 하는가?
4.7 난수 생성하기
4.8 용어 정리

5. 확률
5.1 확률 법칙
5.2 몬티 홀
5.3 푸앵카레
5.4 그 외의 확률 법칙
5.5 이항 분포
5.6 스트리크와 핫스팟
5.7 베이즈 정리
5.8 용어 정리

6. 분포에 대한 연산
6.1 왜도
6.2 확률변수
6.3 확률밀도함수, PDF
6.4 합성곱
6.5 왜 정규 분포인가?
6.6 중심극한 정리
6.7 분포 프레임워크
6.8 용어 정리

7. 가설 검정(검증)
7.1 평균차 검정하기
7.2 분계점 선택
7.3 효과에 대한 정의
7.4 결과에 대한 해석
7.5 교차입증
7.6 베이즈주의 확률에 대한 보고
7.7 카이 제곱 검정
7.8 효율적 재표본추출(재표집)
7.9 검정력
7.10 용어 정리

8. 추정
8.1 추정 게임
8.2 분산 추정
8.3 오차 이해하기
8.4 지수 분포
8.5 신뢰 구간
8.6 베이지안 추정
8.7 베이지안 추정 구현하기
8.8 중도절단 자료
8.9 기관차 문제
8.10 용어 정리

9. 상관
9.1 표준 점수
9.2 공분산
9.3 상관
9.4 pyplot으로 산포도 그리기
9.5 스피어먼 순위 상관
9.6 최소제곱법
9.7 적합도
9.8 상관관계와 인과관계
9.9 용어 정리"


리뷰

구매자 별점

5.0

점수비율
  • 5
  • 4
  • 3
  • 2
  • 1

2명이 평가함

리뷰 작성 영역

이 책을 평가해주세요!

내가 남긴 별점 0.0

별로예요

그저 그래요

보통이에요

좋아요

최고예요

별점 취소

구매자 표시 기준은 무엇인가요?

'구매자' 표시는 리디에서 유료도서 결제 후 다운로드 하시거나 리디셀렉트 도서를 다운로드하신 경우에만 표시됩니다.

무료 도서 (프로모션 등으로 무료로 전환된 도서 포함)
'구매자'로 표시되지 않습니다.
시리즈 도서 내 무료 도서
'구매자’로 표시되지 않습니다. 하지만 같은 시리즈의 유료 도서를 결제한 뒤 리뷰를 수정하거나 재등록하면 '구매자'로 표시됩니다.
영구 삭제
도서를 영구 삭제해도 ‘구매자’ 표시는 남아있습니다.
결제 취소
‘구매자’ 표시가 자동으로 사라집니다.

Realtime


[리얼타임]


이 책과 함께 구매한 책


이 책과 함께 둘러본 책



본문 끝 최상단으로 돌아가기

spinner
모바일 버전