데이터로부터 통찰을 얻으려면 데이터를 정제해야 한다. 데이터를 적절히 정제하지 않고 곧바로 분석에 들어갔다가는 잘못된 결과를 얻게 될 수 있기 때문이다. 《파이썬 데이터 클리닝 쿡북》은 파이썬으로 데이터를 다루고 정제할 때 사용할 수 있는 도구와 기법을 보여준다.
먼저 통상적인 데이터 소스로부터 데이터를 얻고 형태를 확인하는 일상적인 작업을 하는 법을 보여준다. 그런 다음, 데이터를 유용한 형태로 바꾸는 법을 가르친다. 원하는 데이터를 골라내고 요약함으로써 통찰을 얻는 법, 도출된 문제점을 해결하는 법도 알려준다. 이어서 누락값 처리, 오류 검사, 중복 데이터 제거, 이상값과 날짜를 다루는 법으로 진행한다. 지도학습으로 예상치 못한 값과 분류 오류를 식별하고, 탐색적 데이터 분석(EDA)을 위한 시각화를 통해 예상치 못한 값을 식별한다. 끝으로, 새로운 데이터에 대해서도 수정 없이 재사용할 수 있는 함수와 클래스를 작성한다.
이 책을 마친 후에는 데이터를 정제하고 문제를 진단하는 주요 기술을 갖게 될 것이다.
★ 이 책에서 다루는 내용 ★
* 다양한 데이터 소스로부터 데이터를 읽고 분석하는 법
* 데이터프레임, 열, 행의 어트리뷰트를 요약하는 법
* 데이터를 필터링하고 주어진 요건을 충족하는 열을 선택
* 날짜, 누락값이 있는 데이터 등 지저분한 데이터를 다루기
* 메서드 체이닝으로 파이썬 판다스 작업 생산성을 향상
* 시각화를 통해 통찰을 얻고 잠재적인 데이터 이슈를 식별
* 데이터의 변동을 파악하는 능력을 향상
* 사용자 정의 함수 및 클래스를 작성해 데이터 정제를 자동화