본문 바로가기
Programming/R

[R - 시계열] 단절 시계열 분석

by Kanii 2023. 3. 20.
반응형

오늘은 최근에 연구과제에서 사용했었던 단절 시계열 분석에 대해 정리해보려고 한다.


1. 단절 시계열 분석(Interrupted Time Series Analysis; ITS)

 

단절 시계열 분석이란 '로지스틱 회귀분석' 이런 것처럼 '분석 모형'을 나타내는 것이 아닌 '실험 설계 방법'이다.

보통 인문사회분야에서 정책의 효과를 검증하기 위해 자주 사용된다.

최근에는 전 세계적으로 코로나로 인한 팬데믹이 선언되면서, 코로나로 인한 효과(ex, 사회적 거리두기, 마스크 등)을 확인하고 그로인한 변화를 살펴보기 위해 자주 사용되었다.

 

일반적으로 `어떤 행동`의 효과를 검정할 때엔 대조군(비수혜 집단)과 실험군(수혜 집단)을 설정하여 두 집단의 차이를 비교하는 식으로 검정이 이루어진다.

하지만, 정책의 경우는 보통 전 국민을 대상으로 시행되기 때문에 대조군과 실험군을 개별 설정할 수 없는 문제가 발생한다. 이러한 문제를 해결하기 위해 제시된 실험 설계 방법이 단절 시계열 분석이다.

 

단절 시계열 분석은 어떤 효과의 개입 시점을 기준으로 개입 이전 시점을 대조군으로, 개입 이후 시점을 실험군으로 고려한다. 그리고 두 집단(기간)을 비교하여 단절 이후의 발생한 level/slope change를 확인하고 정책의 효과를 평가하게 된다.

ITS 이해를 위한 그림 예시 (By Kanii)

`Counterfactual`은 개입 이후에, 개입의 효과가 유효하지 않았을 거라 가정한 예측선이다.


2. ITS에서 개입의 효과를 추정하는 방법

 

ITS에서는 개입의 효과를 추정하기 위해 새로운 변수를 생성하여 분석 모형에 포함하게된다.

이번 포스팅에서는 Schaffer, A. L., Dobbins, T. A., & Pearson, S. A. (2021) 에서 제안한 3가지의 변수 형태를 설명하고자 한다.

 

[Def 1] Step (also called a level shift) : Step이란 개입 이후 즉시 발생하면서 그 효과가 꾸준히 지속되는 효과를 나타낸다. 단절 시점을 $T_{0}$라고 할 때, Step은 단절 시점 이전엔 0 으로, 단절 시점 이후엔 1로 정의한다.
$$S_{t} = \begin{cases} 0 & \textit{if}~~ t < T_{0}\\ 1 & \textit{if}~~ t \geq T_{0}\end{cases}$$
[Def 2] Pulse : Pulse란 개입 이후 즉시 발생하지만, 그 효과가 일시적인(one or more time points)효과를 나타낸다.
$$P_{t} = \begin{cases} 0 & \textit{if} ~~ t \neq T_{0}\\ 1 & \textit{if}~~t = T_{0} \end{cases}$$
[Def 3] Ramp : Ramp는 개입 이후 즉시 발생한 기울기의 변화를 나타낸다. 위에 살펴본 그림에서 나타난 Trend change를 감지하기 위해 사용된다.
$$R_{t} = \begin{cases} 0 & \textit{if}~~t<T_{0} \\ t - T_{0}+1 & \textit{if}~~ t \geq T_{0} \end{cases}$$

Schaffer, A. L., Dobbins, T. A., & Pearson, S. A. (2021) 에서는 개입의 효과가 개입 즉시 발생하는지 그리고 지속되는지 여부를 나누어 여러 가지 변수를 통해 개입의 효과를 추정할 수 있음을 나타내었다.

간단하게는  Step만을 사용하여 개입의 효과를 추정하기도 하지만, 개입의 효과가 나타나는 시기와 효과가 지속되는 시간에 따라 그 효과가 다르기도하고 통계적인 유의성도 차이가 있을 수 있다.

따라서, 상황에 맞게 적절한 효과 추정 변수들을 모형에 고려하는 것이 좋다.


3. ITS 예제

 

본격적으로 ITS 분석이 어떻게 수행되는지 알아보기 위해 간단한 예제를 살펴보자.

R software를 사용하여 120개의 time points를 가지고 있는 임의의 데이터를 생성하였다.

임의의 데이터를 생성할 때 autocorrelation이나 계절성을 고려하지는 않았기 때문에, 단순 선형 회귀 모형을 사용하여 분석하였다.

 

첫번째 모형은 Time 변수만 고려하여 분석하였고, 두번째 모형은 개입 효과를 추정 할 수 있는 Step, Pulse, Ramp 변수를 포함하여 분석을 수행하였다.

(red) : lm / (blue) : ITS

개입 효과를 추정할 수 없는 일반 선형 회귀 모형 model1을 사용한 경우 y의 trend를 제대로 탐지하지 못하지만, 개입 효과 추정을 위한 변수가 추정된 model2의 경우 개입 이전에 상승세와 개입 이후 하락세를 정확히 탐지한 것을 확인 할 수 있다.

 

 

 

 

 

 

(Reference)

  • Schaffer, Andrea L., Timothy A. Dobbins, and Sallie-Anne Pearson. "Interrupted time series analysis using autoregressive integrated moving average (ARIMA) models: a guide for evaluating large-scale health interventions." BMC medical research methodology 21.1 (2021): 1-12.
  • Bernal, James Lopez, Steven Cummins, and Antonio Gasparrini. "Interrupted time series regression for the evaluation of public health interventions: a tutorial." International journal of epidemiology 46.1 (2017): 348-355.
반응형

댓글