머신러닝 및 딥러닝
시계열 데이터란?
AlgoPoolJa
2020. 8. 8. 14:42
시계열이란
-
시계열에서의 샘플들은 x1,-----,xn 까지 있다고 할 때, 각 샘플들은 특정한 시간 t에서 측정한 데이터들이다. 예를 들어 x1은 1초에 생성된 정보, x2는 2초 때에 생성된 정보... 등으로 말이다.
-
관측치가 시간적 순서를 가진 데이터이다. 이 데이터는 변수간의 상관성이 존재하는 데이터를 다루며, i.i.d, 연속 하거나 불규칙적 데이터는 다루지 않는다.
-
시계열 데이터는 과거의 데이터를 통해서 현재의 움직임 그리고 미래를 예측하는데 사용된다. 일반적인 label 데이터는 input과 label 간의 상관관계를 다루는 반면에 시간에 따라 어떻게 움직이는 과거의 자료를 가지고 예측하게 된다.
대표적인 예시
-
추세: 경향성을 나타내는 말로서 세부적인 데이터는 다 빼고
-
계절성: 특정한 기간마다 어떤 패턴을 가지고 반복하는지 확인 할 수 있는 특성이다. 이 데이터를 통해 앞으로 어떻게 변화할 것인지 예측 할 수 있다.
-
랜덤:노이즈(noise)라고도 불리는 이 데이터는 추세, 계절성 등으로 설명되지 않은 데이터를 의미한다. 이러한 데이터를 가지고 예측하게 된다면 예측의 오차가 커지기 때문에 전처리를 통해서 최대한 예측하는데 관여하지 않도록 하는 것이 중요하다.
Reference