세계 최대 규모 데이터 분석 경진 대회 플랫폼인 캐글에서는 일반적이지 않은 데이터 처리 기법이 많이 활용된다. 이를 이해하고 체득하여 활용하는 것은 대회뿐만 아니라 데이터 분석 실무에서도 모델 정확도를 높이는 데 매우 유용하다. 특징(feature)을 만드는 방법, 앙상블, 평가지표, 사이킷런, xgboost 등 기존에는 잘 다루지 않았던 기법과 사례를 이 책 한 권에 정리했다. 경진 대회에 참여할 계획이 있거나, 캐글을 경험해봤지만 더 높은 상위 랭킹에 도전하고 싶다면 지금 바로 읽어보기를 권한다.
주요 내용
정밀도가 높은 모델 구축하기
데이터에서 특징 추출하기
변수를 변환해 특징 생성하기
평가지표를 이용해 예측 결과 최적화하기
하이퍼파라미터 튜닝
여러 모델을 조합해 예측하는 앙상블 기법과 스태킹(stacking)
시계열 데이터 종류와 취급 방법
추천사
캐글 시작에 앞서 든든한 책 한 권이 있어야 한다면 이 책을 추천합니다. 저자가 상당한 내공을 모아 든든한 한 권으로 묶어낸 만큼 다 소화한다면 데이터 관련 대회들이 조금은 쉽게 느껴질 겁니다. 최근 진행 중인 캐글 대회에도 이 책을 적극적으로 활용하면 좋은 성과를 얻을 수 있으리라 생각합니다.
_Heroseo, Kaggle Notebooks Master
머신러닝 기초를 공부하고 캐글에 이제 막 발을 내딛는 사람과 캐글 경험이 있지만 대회 코드 작성에 어려움을 느낀 사람에게 훌륭한 길잡이 역할을 해줍니다. 상위권에 랭크된 노트북의 솔루션을 꼼꼼하게 리뷰해준 덕분에 여러 대회에 다양한 기법으로 접근해볼 수 있습니다.
_신홍재, 학생
머신러닝을 가장 빨리, 재미있게 학습하는 방법은 캐글 대회에 참여하는 것이라 생각합니다. 그렇지만 입문 대회라도 생각보다 점수를 올리기가 쉽지 않고 대회마다 평가 기준이 달라 입문자로서는 벽이 높게 느껴집니다. 이러한 어려움을 이 책에서는 매우 친절하고 쉽게 설명합니다.
_김태헌, DB Inc.
흔히 사용하거나 검색으로 쉽게 찾을 수 있는 방법론 외에 다양한 대안들을 소개하는 유니크한 도서입니다. 특히 각 기법에 대해 상세한 수식과 예제 코드를 함께 제시하여 이해와 활용성을 동시에 잡아 백과사전과 같이 유용합니다. 기본 이론, 방법론 학습은 완료했지만 캐글 상위권 공략을 위해 아직 2% 부족하다고 느껴지는 분들에게 추천합니다.
_김사무엘, 데이터사이언스랩
캐글에 처음 도전할 때 가장 어려운 점은 자신이 수행할 수 있는 스킬과 대회에서 필요한 스킬의 단계 차이가 크게 나는 것이라고 생각합니다. 이 책은 머신러닝 기초부터 다양한 대회에서 기법이 실제로 적용되는 부분까지 세세하게 알려주기 때문에 많은 데이터를 직접 만지며 스킬의 단계 차이를 줄일 수 있습니다.
_이창우, 학생
캐글 최신 트렌드에 뒤처지지 않으면서도 번역상의 문제로 이해가 되지 않는 부분이 없었습니다. 캐글에 관심 있는 분은 물론 실무에서 직접 캐글 코드를 참고하여 모델링을 고려하는 분에게도 추천합니다.
_곽두일, 큐브엔시스 인공지능사업본부 본부장, 바벨 AI 대표
캐글 상위 랭킹 진입에 필요한 필살기를 한 권에 정리했다!
상당수의 데이터 과학자가 자신의 실력을 검증하고자 ‘캐글’에 도전합니다. 대회에서는 실제 데이터를 이용하기 때문에 일반적이지 않은 데이터 처리 방법과 기법이 많이 활용됩니다. 그러한 내용을 이해하고 스스로 활용할 수 있는 능력을 갖추는 것은 경진 대회는 물론이고 실무에서도 모델을 구현하는 데 많은 도움이 됩니다.
최대한 많은 기술과 사례를 한 권에 담기 위해 노력했습니다. 정형 데이터를 다루는 대회를 대상으로 하여 문제 설정이 명확하게 주어진 가운데 성능이 높은 모델을 만들려면 어떻게 해야 하고 무엇을 주의해야 할지에 초점을 맞추었습니다. 특히 특징을 생성하는 방법, 검증, 파라미터 튜닝 등 다른 도서에서는 잘 다루지 않는 노하우나 포인트도 설명합니다. 처음부터 전부 이해하려 하기보다는 우선 빠르게 읽으면서 관심 있는 부분만 집중적으로 읽는 것을 권합니다. 또는 대회 도중에 힌트가 필요할 때 살짝 보거나 헷갈리는 부분을 사전적으로 참조하여 읽어도 좋습니다.
캐글에 도전하고 싶지만 어떻게 해야 할지 막막하거나, 매번 같은 방법만 사용하여 다른 방법도 알고 싶거나, 더 높은 순위권에 진입하는 것이 목표라면 꼭 읽어야 하는 책입니다. 경진 대회에서 쓰이는 기술은 실무에도 유용하므로 대회에 흥미가 없어도 읽으면 도움이 될 것입니다.
Kaggle Competitions Master. 교토대학 졸업 후 생명보험회사에서 보험계리사로 10년간 상품 개발과 리스크 관리 업무에 종사했습니다. 캐글과의 만남을 계기로 경력을 내던지고 캐글 및 데이터 관련 프로그램에 참여 중입니다. 캐글 Walmart Recruiting II: Sales in Stormy Weather 대회에서 우승했으며 캐글 Coupon Purchase Prediction 대회에서 3위 입상했습니다.