데이터 기반 의사결정과 빅데이터 분석과 같은 용어의 보편적 사용은 최근 정치, 경제, 사회 그리고 문화를 포함한 사회과학 및 자연과학의 모든 분야에서 급속도로 증가하는 데이터에 대한 요구를 보여주고 있다. 직관 혹은 특정분야에 대한 경험적 지식보다는 축적된 자료에 기반한 의사결정이 보다 과학적이며 합리적이라는 사고의 전환은 18세기 이후 지속적으로 이루어져 왔고, 최근 이러한 현상은 그 정점을 찍고 있는 듯 하다.
전통적인 통계적 자료수집 도구로는 서베이(survey)와 통계적 실험(statistical experiment)이 주로 사용되었고, 이를 통해 생성된 표본 자료를 이용한 모집단(population)에 대한 추론(inference)이 통계학의 주요 목적이 되었다. 최근에는 전통적인 자료수집 도구 이외에 신용카드 및 휴대폰 사용내역 그리고 SNS 기록 등 자동적으로 생성되고 축적되는 자료와 더불어 복잡한 구조를 갖는 의학 및 생물학 분야에서 생성되는 자료의 등장으로 인하여, 이의 수집과 처리 및 분석을 위한 통계적 방법들에 대한 연구 역시 활발하게 이루어지고 있다. 자료수집을 위한 방안들이 다양해지고 있으나 여전히 서베이와 통계적 실험은 특정한 목적을 갖는 연구에 대한 해답을 얻기 위한 자료수집 도구로 유용하게 사용되고 있다.
특별히 서베이는 관심 모집단의 실태를 파악하기 위한 자료뿐만 아니라 각 개인이나 공동체의 생각이나 가치관을 측정할 수 있는 유일한 도구로서 그 역할이 매우 중요하다. 다양한 주제에 대한 여론조사 결과는 여러 형태의 플랫폼을 통해 거의 매일 제공되고 있으며, 선거가 있는 해에는 선거 예측조사 및 출구조사 결과들이 봇물처럼 쏟아지고 있다. 또한 국내에서는 많은 종류의 국가승인통계 역시 서베이를 통해 작성되고 있다.
과학적 자료수집 도구로서 서베이의 빈번한 사용은 그러나 통계적 타당성과 더불어 심각한 오용의 위험을 내포하고 있다. 이러한 서베이의 오용 및 왜곡은 이를 설계하는 전문가와 그 결과에 노출되는 사용자 모두 각별하게 조심해야 하는 부분이다.
이 책은 서베이의 기본적인 요소들을 이해하기 위하여 필요한 여러가지 통계적 지식과 서베이 자료의 분석을 위해 필요한 기본적인 통계 기법들을 다루고 있다. 먼저 제1장에 서는 서베이 과정과 서베이 통계학의 특징을 설명하였고, 제2장에서는 서베이 통계학의 근간이 되는 표본설계 및 이에 근거한 비편향 추정량에 대하여 살펴보았다. 제3장에서 제9장까지는 단순임의추출, 계통추출, 포아송추출, 층화추출, 집락추출, 복합 표본설계 등 다양한 표본설계 상황에서의 표본추출과 통계적 추론에 대하여 설명하였다. 그리고 제10장에서는 여러 가지 분산 추정법을 소개하였으며, 제11장에서는 비표본오차로서 무응답 오차와 측정 오차를 소개하고, 실제에서 흔히 사용되는 이의 처리 방안들을 소개하였다.
이 책에서는 관련된 개념들을 쉽게 이해할 수 있도록 다양한 예제들을 제시하였으며, SAS/STAT 소프트웨어에서 제공하는 프로시저(procedure)들을 통해 실제 사례에서의 처리 과정을 설명하였다. 또한 각 장의 부록에는 R 소프트웨어를 이용하여 사례들을 처리하기 위한 코드의 예시를 제시하였다. 수리적 배경이 약한 독자들은 예제와 SAS 및 R 사례만으로도 학습에 대한 소기의 목적을 달성할 수 있을 것이다. 독자들의 학습을 위해 이 책에서 사용된 데이터들은 출판사의 홈페이지를 통해 제공하고 있다(http://www.freeaca.com).