earticle

논문검색

이커머스 고객 행동 이벤트 시퀀스(Sequence) 패턴 분석 기반 구매 전환 예측 모델링 방안에 관한 연구

초록

한국어

이커머스(e-Commerce) 환경에서의 온라인 고객 행동은 상품에 대한 관심도 및 구매 의도 추정의 근거로 작용한다. 최근 많은 기업들이 웹(web)과 모바일 앱(app)을 통해 수집 가능한 로그 데이터 기반 고객 행동 분석을 통해 구매 및 재구매 가능성 예측 뿐 아니라 이탈(churn) 예측, 유저 가치 스코어링(scoring), 서비스 개인화 등에 많은 투자를 하고 있다. 그 중에서도, 실시간 클릭스트림(clickstream) 기반의 이벤트 로그 데이터(event log data)는 온라인 쇼핑몰 내 고객 여정(customer journey)에서 구매에 이르기까지의 시계열적 순차 진행에 따른 상호 작용을 구체적으로 알 수 있게 하여 예측의 정확도를 높이고 다양한 비즈니스 활용에 있어 큰 가치를 가지며, 이와 동시에 대용량 데이터로서의 특성을 가지기 때문에 이를 효과적으로 분석하는 방안에 대한 수요는 점점 높아지고 있다. 구매 예측에 흔히 활용되는 방법론으로, 구매 가능성 스코어(probability score) 및 구매 여부 분류 예측을 위한 지도 학습(Supervised Learning) 기법으로 로지스틱 회귀(Logistic Regression), 의사결정나무(Decision Tree), 랜덤 포레스트(Random Forest), 신경망(Neural Networks) 등이 활용되고 있으며, 비지도 학습(Unsupervised Learning) 으로 행동 특성 기반 및 제품 기반 고객유형 분류를 위한 군집화 모델로서 K-평균(K-means) 클러스터링(Clustering), DBSCAN 클러스터링, 그 외에도 장바구니 분석과 같은 구매이력 연관 규칙(Association rule) 분석의 Apriori 알고리즘 기법 등이 활용되고 있다. 위와 같은 구매 예측 방법론들을 바탕으로 한 이커머스 전환 예측(conversion prediction) 분야에 있어 오랜 기간에 걸쳐 기존 연구가 상당수 진행되어 왔다. 과거의 연구에서는 개인 프로파일(성별, 나이, 소득 등) 정보와 더불어 구매이력 기반의 트랜잭션(transaction)과 같은 정적(static) 컨텍스트 정보에 국한되어 연구가 다수 진행되었다면, 최근의 연구에서는 예측의 정확도를 높이기 위해 동적(dynamic) 컨텍스트 및 상호작용 정보를 기반으로 한 학습 모델링 기법의 활용이 높아지는 추세이다. (Seippel, 2018) 본 연구에서는 화장품(Cosmetics) 이커머스 리테일 상점에서 수집된 5개월 치(2019년 10월 ~ 2020년 2월) 163만 유저의 대용량 온라인 행동 이벤트 로그 데이터셋을 활용하여, 구매 혹은 비구매에 이르는 경로를 순차패턴 탐색(Sequential Pattern Mining) 데이터 마이닝 기법으로 분석해낸 뒤, 전처리(preprocessing) 기법을 통해 유저 별 구매 이전의 행동 값들만 추출하여 구매 여부를 레이블(labeling) 하고자 했다. 궁극적으로 유저 별 시퀀스(sequence) 정보를 정제 후 구매 예측 모델링 학습 시 활용하여 모델 간의 성능 비교를 통해 시퀀스 기반 구매 전환 예측에 가장 우수한 예측 기법을 도출해내고자 한다. 예측 모델링 알고리즘 적용 이전 탐색적 데이터 분석(exploratory data analysis) 결과, 본 연구에서 사용된 데이터셋 내 전체 고객 중 구매 고객 비율은 약 6%에 해당되며, 행동 이벤트 수 분석 시 월별 약 82~85%의 고객은 10개 이하의 이벤트만을, 약 90%의 고객은 25개 내의 이벤트를 발생시킨 후 이탈하는 추세를 보인다. 다만, 10개 초과의 상호작용 이벤트를 발생시킨 고객은 해당 이커머스 상점 내 발생하는 전체 이벤트 수의 85%에 달하는 이벤트를 발생키는 양상을 보였다. 10개 초과 상호작용 발생 고객은 전체 구매 고객의 87% 정도를 차지하며 10개 미만의 이벤트를 발생시킨 고객 대비 구매 전환율에 있어서도 약 33배에 달하는 차이를 보여, 이벤트 수에 따른 구매 고객 비중에 있어 파레토의 법칙(Pareto Principle)이 적용됨을 보여준다. 또한, 장바구니 이용 고객 비중은 전체 사용자의 26% 정도에 해당되며, 장바구니 이용에 따른 구매 전환 양상에 있어서도 차이를 보였다. 장바구니 미 이용 고객의 약 0.15% 만이 구매 전환으로 이어짐과 달리, 장바구니 이용 고객의 구매 전환율은 약 32%에 달하여 장바구니 이용 여부에 따라 구매 가능성이 약 200배나 차이남이 발견되었다. 구매 고객의 98%는 장바구니 담기 기능을 이용하며, 장바구니 이용은 평균적으로 전체 이벤트 시퀀스의 3번째에 발생하는 빈도가 높았다. 이에 반해, 구매가 발생하는 시퀀스는 평균적으로 17번째 상호작용 즈음 발생하는 것으로 나타났다. 구매 고객과 미구매 고객 간의 차이에 있어서, 구매 고객은 평균적으로 7회의 상품 조회를 함과 달리, 미구매 고객은 3회 이하의 상품 조회 후 이탈하는 것으로 나타났다. 또한, 구매 고객의 평균 이벤트 발생 수는 약 23회에 달하는 데 반해, 미구매 고객이 발생시키는 이벤트 수는 4회 미만에 그치는 것으로 나타나며, 관심도에 따른 상호작용의 차이를 보여준다. 위와 같이 이벤트 시퀀스에 따른 구매/비구매 패턴 정보를 파악 후, 유저별 구매 전환 여부를 분류하는 예측 모델링을 수행하였다. 그 중에서도 부스팅 기반의 XGBoost 알고리즘을 사용하여 모델링을 수행한 결과, 유저별 시퀀스 정보를 학습 모델에 반영하였을 시 반영하지 않은 경우에 비해 특정 지표에서 성능이 개선됨을 확인할 수 있었다. 이와 같이 CatBoost, LightGBM 알고리즘 적용 시에도 시퀀스 정보 반영에 따른 모델의 성능 개선을 발견할 수 있었다. 본 연구의 의미는 크게 두 가지로 요약할 수 있다. 첫째, 화장품 이커머스 상점에서의 구매 및 비구매에 이르는 주요 행동 패턴을 순차패턴 탐색을 통한 데이터 마이닝 기법을 통해 나타낸 점이다. 이와 함께, 상품의 카테고리 및 가격대 정보에 따라 행동 시퀀스 유형이 어떻게 달라지는지 살폈다는 점 또한 유의미한 정보이다. 둘째, 행동 이력 시퀀스 정보를 반영하여 모델링 시 예측 정확도에 있어서 구매 이력 트랜잭션을 활용한 모델과 대비하여 성능이 개선됨을 확인한 점에서 가치를 가진다. 이를 바탕으로 이벤트 로그와 같은 대용량 행동 데이터 학습에 적합한 예측 모델은 어떤 모델인지, 구매 혹은 비구매에 이르는 시퀀스 정보를 효과적으로 패턴화 하기 위한 데이터 마이닝 기법은 무엇인지 제안 가능하게 하였다. 또한, 정확도(accuracy), 정밀도(precision), 재현율(recall) 및 F1 Score, ROC-AUC 등의 평가 지표를 활용하여 시퀀스 정보 학습에 따른 모델별 성능 개선 여부를 구체적으로 관측할 수 있게 한다. 본 연구에서 제시하는 시퀀스 패턴분석 기반 구매 전환 예측 모델링 기법 연구는 다양한 비즈니스 활용 가치를 갖는다. 예측과 구매 전환 가능성이 높은 이벤트 시퀀스 구간(path)을 파악하여, 잠재적 구매 순간(buying moment)을 규명하고 실시간 고객 리타겟팅(retargeting)과 같은 개인화된 마케팅 기회(opportunity)를 포착할 수 있게 하며, 더 나아가 구매 가능성이 높은 고객을 스코어링(scoring) 하여 고(高)가치 고객 대상의 타겟팅 정확도를 높이는 데에도 기여할 수 있다는 점에서 의의를 갖는다.

저자정보

  • 이유림 고려대학교 빅데이터융합학과 석사과정
  • 유헌창 고려대학교 컴퓨터학과 교수

참고문헌

자료제공 : 네이버학술정보

    함께 이용한 논문

      0개의 논문이 장바구니에 담겼습니다.