생존분석(survival analysis)은 사건사 분석(event history analysis)이라는 명명이 더 어울리는 분야인 것 같다. 생존분석 또는 실패 시간 분석(failure time analysis)의 역사는 1900년 초기 공학계열에서 기계 부품의 수명 분석, 보험학에서 사망자 수와 사고 건수에 대한 분석으로부터 시작되었다. 1980년경 위대한 통계학자인 Cox가 제안한 비례위험모형 덕분에 생존분석의 적용 범위는 다양해졌으며 이후 비례위험가정 위배 시 적용될 수 있는 다이내믹 모형이 개발되었다. 또한 Counting process와 Empirical process의 적용을 통해 추정량과 검정 통계량의 이론적 성질을 규명할 수 있게 되었다.
이 책은 생존분석의 이론을 설명하기보다 다양한 생존분석이 적용되는 자료와 분석 방법론을 소개한다. 예를 들어 일반적인 우중도절단자료(right censored data) 이외에 좌절삭(left truncation), 구간중도절단(interval censored) 등 다양한 종류의 일변량 생존자료뿐만 아니라 군집생존자료, 재발사건자료, 경쟁위험모형 자료 등 다변량 생존자료에 대해서도 논의한다. 이 책에서는 실제 적용 예를 위해 여러 통계 패키지 중 R 프로그램을 사용한다. R은 free package라는 절대적인 장점 덕분에 사용자가 급속히 확산되고 있으며 전 세계 학자들이 제안한 방법론을 패키지로 업데이트한다는 점에서 굉장히 매력적이다. 하지만 금융과 의약학에서는 여전히 SAS 프로그램을 사용하고 있으므로 SAS 프로그램과 결과를 부록에 더하였다.
이 책에서 다루어질 내용은 다음과 같다. 우선 초보자를 위해 0장에서는 R 프로그램의 사용 방법을 간략하게 공부한다. 이 단계에서 범주형 자료를 이용하여 자료의 입·출력과 처리 방법을 익히고 로지스틱 회귀분석을 복습한다. 1장에서는 생존분석의 개념을 요약해서 설명하고, 생존분석 자료에서 자주 다루는 여러 가지 유형의 중도절단자료 형태와 다변량 생존자료의 실제 예, 그리고 각 자료의 특성을 소개한다. 2장과 4장에서는 생존분석 자료의 분포를 추정하기 위한 모수적 방법과 비모수적 방법 그리고 여러 가지 통계량들을 공부한다. 3장에서는 두 모집단의 비교를 위해 사용되는 방법들을 설명한다. 4~5장에서는 회귀분석, 즉 생존시간과 관련된 유의한 공변량을 찾기 위한 모수적, 준모수적 방법이 각각 소개된다. 비례위험모형(proportional hazard model)과 비례 오즈 모형에 대한 설명과 적용이 이 장에서 익힐 내용 중 하나이다. 6장에서는 프레일티 모형을 설명하며 이 모형의 적용 예로 군집생존자료(clustered survival data)를 분석한다. 7~8장에서는 여러 가지 유형의 다변량 생존자료에 대해 논의한다. 이 장을 통해 재발사건자료(recurrent event data), 경쟁위험모형(competing risk model), 다상태 모형(multi-state model)의 특징과 그 분석 방법을 공부할 수 있을 것이다. 9장에서는 기계학습에서 자주 사용되는 Lasso 기법과 tree 기법을 생존자료에 적용하는 방법을 간단하게 공부한다. 10장에서는 치유율 모형과 결합 모형 등 두 개 이상의 모형 결합 형태를 공부한다.
해가 거듭될수록 인공지능에 대한 관심이 커지고 있다. 이에 따라 강의실에서 만나는 통계학 전공 학생들은 통계학의 역할과 그 적용 범위에 호기심을 갖는 동시에 동요를 겪고 있는 것으로 보인다. 자료의 수집 과정과 분석에서 만나는 다양한 종류의 불완전한 자료 형태를 정확하게 파악하고 적합한 모형을 적용하며 올바른 해석을 하는 것이 데이터 분석가의 기본이다. 예측 모형의 구축과 평가는 이를 기반으로 하여야 이루어질 수 있다. 빅데이터는 통계학 발전의 기회이니 이를 잘 활용할 필요가 있으며 생존분석학에서도 관련된 연구가 활발하게 진행되고 있다. 이 책이 이러한 흐름을 따라가는 데 도움이 되기를 바란다.