원문정보
초록
영어
This study focuses on calculating the similarity of multivariate time series with different lengths. Traditional similarity methods, including Euclidean distance, Dynamic Time Warping (DTW), and correlation coefficients, are limited in handling data complexity and length variations adequately. To overcome these limitations, this research proposes an efficient data filtering technique that quickly and accurately selects the most similar time series rather than analyzing all data, improving both speed and accuracy simultaneously. The proposed method partitions time series into windows and applies Subsequence Clustering, Piecewise Aggregate Approximation (PAA), and Symbolic Aggregate Approximation (SAX) for data abstraction and symbolization. The Longest Common Subsequence (LCS) method is then used to identify and filter the most similar sequences. Experimental validation using public datasets demonstrates that the proposed method significantly enhances computation speed while maintaining or improving similarity calculation accuracy compared to traditional methods. This research provides a novel approach for multivariate time series similarity calculation and is expected to contribute significantly to data analysis and recommendation systems across various fields.
한국어
본 연구는 서로 다른 길이를 가진 다변량 시계열의 유사도 계산에 중점을 둔다. 유클리드 거리, 동적 시간 워핑(DTW), 상관계수 등 기존의 유사도 계산 방법들은 데이터의 복잡성과 길이 변화를 적절히 처리하는 데 한계가 있다. 이러한 한계를 극복 하기 위해, 본 연구에서는 모든 데이터를 분석하는 대신 가장 유사한 시계열을 빠르고 정확하게 선별하는 효율적인 데이터 필터 링 기법을 제안하여 속도와 정확도를 동시에 향상시킨다. 제안된 방법은 시계열을 윈도우로 분할하고 부분 시퀀스 클러스터링 (Subsequence Clustering), 구간별 집계 근사(PAA), 기호 집계 근사(SAX)를 적용하여 데이터 추상화와 기호화를 수행한다. 이 후 최장 공통 부분 수열(LCS) 방법을 사용하여 가장 유사한 수열을 식별하고 필터링한다. 공개 데이터셋을 사용한 실험 검증 결과, 제안된 방법이 기존 방법들과 비교하여 유사도 계산 정확도를 유지하거나 향상시키면서 계산 속도를 현저히 개선하는 것으 로 나타났다. 본 연구는 다변량 시계열 유사도 계산에 대한 새로운 접근법을 제공하며, 다양한 분야의 데이터 분석 및 추천 시스 템에 크게 기여할 것으로 기대된다.
목차
Abstract
1. 서론
2. 관련 연구
2.1 유클리드 거리
2.2 동적 시간 왜곡(DTW)
2.3 상관 계수
3. 방법론
3.1 부분 시퀀스 클러스터링
3.2 부분적 집계 근사법(PAA)
3.3 기호적 집합 근사법(SAX)
3.4 최장 공통 부분열(LCS)
4. 실험
4.1 데이터셋
4.2 기준선
4.3 실험 결과
4.4 하이퍼파라미터 조정
5. 결론
REFERENCES
